重點:了解KNN原理與優缺點

K 值的選擇

KNN 中 K值的選擇沒有標準的做法,但仍然可以依照資料集來選擇合適的K值。首先我們先來看看兩個不適合的K值選擇:

K 值過小:會造成兩個問題。
1. 訓練資料集產生的模型過擬合(或指模型泛化能力不足)。
2. 資料可能會受到極端值(Outliers的影響)。

K 值過大: 與上述相反的問題外,還有多一個。
1. 模型缺乏 …

--

--

介紹KNN之前,先簡單的了解機器學習中重要的演算法分類。

若以訓練過程中的標的是否已知來做分類,簡單來說可以分為三類:

  1. 監督式學習 (Supervised learning) : 分類問題、回歸問題
    通常在這類的模型訓練中,資料通常是必須有標註過的,才能送入模型予以訓練。
    ・分類問題:利用標記過的資料集去預測有限的資料類別。
    ・回歸問題:預測連續 …

--

--

多對一:一段影片判斷出一個情緒,時間順序沒有這麼重要
時間順序重要性:★

一對多:圖片標注,給一張圖片,電腦判斷內容在做什麼?時間順序就比較重要
時間順序重要性:★★★

多對多:翻譯句子,從頭到尾都需要累加的語意來判斷,不同累加方法就會導致意思差異很大。
時間順序重要性:★★★★★

NLP的任務中,語意很重要,時間關係也相當的重要。

RNN, LSTM

RNN
將當前的輸入,和 …

--

--

本章節必須熟悉:

  1. 何謂斷詞
  2. 了解內部運算,並可實作斷詞

斷詞(Tokenize):這個動詞的意思就是希望可以將一個句子藉由工程方式,切割成一個一個的字元。

英文 (歐美語系) 和中文(東亞語系) 的斷詞有很大的差異,英文僅需利用空白自元就可輕易的將詞順利切割;但是中文無法這樣進行斷詞,又該如何進行切割?

目前常見的有三種斷詞方法:

  1. 基於辭典的分詞法:準備好詞 …

--

--