[NLP 線上自學] D18 KNN 演算法

介紹KNN之前,先簡單的了解機器學習中重要的演算法分類。

若以訓練過程中的標的是否已知來做分類,簡單來說可以分為三類:

  1. 監督式學習 (Supervised learning) : 分類問題、回歸問題
    通常在這類的模型訓練中,資料通常是必須有標註過的,才能送入模型予以訓練。
    ・分類問題:利用標記過的資料集去預測有限的資料類別。
    ・回歸問題:預測連續的數值。
  2. 非監督式學習 (Unsupervised learning): 降維問題、分群問題
    非監督式學習則強調不需要標注資料,而是利用資料本身的特徵來進行歸類。
    ・降維 (Dimension Reduction): 將高維度特徵壓縮成低維度,PCA, t-SNE
    ・集群 (Clustering): 利用資料本身特徵聚類,K-mean
    ・異常檢測 (Anomaly detection)
  3. 強化式學習 (Reinforcement learning): 暫時忽略

K-近鄰演算法

K-nearest nearest neighbors 屬於supervised learning 的分類演算法。

NLP領域常見的是利用KNN來解決文章分類垃圾郵件分類

概念很簡單,在已知標記的訓練集內,放入新的資料,讓這個資料和K個最鄰近的資料點計算距離,最終觀察資料並進行投票,選出最接近的資料類別。

--

--

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store