[NLP 線上自學] D18 KNN 演算法
介紹KNN之前,先簡單的了解機器學習中重要的演算法分類。
若以訓練過程中的標的是否已知來做分類,簡單來說可以分為三類:
- 監督式學習 (Supervised learning) : 分類問題、回歸問題
通常在這類的模型訓練中,資料通常是必須有標註過的,才能送入模型予以訓練。
・分類問題:利用標記過的資料集去預測有限的資料類別。
・回歸問題:預測連續的數值。 - 非監督式學習 (Unsupervised learning): 降維問題、分群問題
非監督式學習則強調不需要標注資料,而是利用資料本身的特徵來進行歸類。
・降維 (Dimension Reduction): 將高維度特徵壓縮成低維度,PCA, t-SNE
・集群 (Clustering): 利用資料本身特徵聚類,K-mean
・異常檢測 (Anomaly detection) - 強化式學習 (Reinforcement learning): 暫時忽略
K-近鄰演算法
K-nearest nearest neighbors 屬於supervised learning 的分類演算法。
NLP領域常見的是利用KNN來解決文章分類、垃圾郵件分類。
概念很簡單,在已知標記的訓練集內,放入新的資料,讓這個資料和K個最鄰近的資料點計算距離,最終觀察資料並進行投票,選出最接近的資料類別。