重點:了解KNN原理與優缺點

K 值的選擇

KNN 中 K值的選擇沒有標準的做法,但仍然可以依照資料集來選擇合適的K值。首先我們先來看看兩個不適合的K值選擇:

K 值過小:會造成兩個問題。
1. 訓練資料集產生的模型過擬合(或指模型泛化能力不足)。
2. 資料可能會受到極端值(Outliers的影響)。

K 值過大: 與上述相反的問題外,還有多一個。
1. 模型缺乏 …

--

--

介紹KNN之前,先簡單的了解機器學習中重要的演算法分類。

若以訓練過程中的標的是否已知來做分類,簡單來說可以分為三類:

  1. 監督式學習 (Supervised learning) : 分類問題、回歸問題
    通常在這類的模型訓練中,資料通常是必須有標註過的,才能送入模型予以訓練。
    ・分類問題:利用標記過的資料集去預測有限的資料類別。
    ・回歸問題:預測連續 …

--

--

本章重點:

  1. What is pre-train model
  2. How to fine-tune
  3. How to pre-train

Pre-train Model:

傳統使用的是Word2Vec, GloVe,但是他缺乏對上下文的理解,因此有了FastText,使用每個字母來當作Token。在中文領域,起初使用類似有邊讀邊的單字法去訓練模型的Embedding。

如今模型越來越大,不過也不是每個人都用得起這些大模型,因此有人也想辦法將模型壓縮成更小的狀態。嘗試由Network變小來著手的模型,舉例:Distill BERT, Tiny BERT, Mobile BERT, Q8BERT, ALBERT,其中值得注意的是ALBERT (有待認識)。另外也有從Network 的結構來著手壓縮模型的模型:Transformer-XL、Reformer、Longformer,後兩者是由降低Self-attention 複雜度來進行。

How to fine-tune

--

--

多對一:一段影片判斷出一個情緒,時間順序沒有這麼重要
時間順序重要性:★

一對多:圖片標注,給一張圖片,電腦判斷內容在做什麼?時間順序就比較重要
時間順序重要性:★★★

多對多:翻譯句子,從頭到尾都需要累加的語意來判斷,不同累加方法就會導致意思差異很大。
時間順序重要性:★★★★★

NLP的任務中,語意很重要,時間關係也相當的重要。

RNN, LSTM

RNN
將當前的輸入,和 …

--

--

本章節必須熟悉:

  1. 何謂斷詞
  2. 了解內部運算,並可實作斷詞

斷詞(Tokenize):這個動詞的意思就是希望可以將一個句子藉由工程方式,切割成一個一個的字元。

英文 (歐美語系) 和中文(東亞語系) 的斷詞有很大的差異,英文僅需利用空白自元就可輕易的將詞順利切割;但是中文無法這樣進行斷詞,又該如何進行切割?

目前常見的有三種斷詞方法:

  1. 基於辭典的分詞法:準備好詞 …

--

--