重點:了解KNN原理與優缺點
K 值的選擇
KNN 中 K值的選擇沒有標準的做法,但仍然可以依照資料集來選擇合適的K值。首先我們先來看看兩個不適合的K值選擇:
K 值過小:會造成兩個問題。
1. 訓練資料集產生的模型過擬合(或指模型泛化能力不足)。
2. 資料可能會受到極端值(Outliers的影響)。
K 值過大: 與上述相反的問題外,還有多一個。
1. 模型缺乏 …
重點:了解KNN原理與優缺點
KNN 中 K值的選擇沒有標準的做法,但仍然可以依照資料集來選擇合適的K值。首先我們先來看看兩個不適合的K值選擇:
K 值過小:會造成兩個問題。
1. 訓練資料集產生的模型過擬合(或指模型泛化能力不足)。
2. 資料可能會受到極端值(Outliers的影響)。
K 值過大: 與上述相反的問題外,還有多一個。
1. 模型缺乏 …
介紹KNN之前,先簡單的了解機器學習中重要的演算法分類。
若以訓練過程中的標的是否已知來做分類,簡單來說可以分為三類:
多對一:一段影片判斷出一個情緒,時間順序沒有這麼重要
時間順序重要性:★
一對多:圖片標注,給一張圖片,電腦判斷內容在做什麼?時間順序就比較重要
時間順序重要性:★★★
多對多:翻譯句子,從頭到尾都需要累加的語意來判斷,不同累加方法就會導致意思差異很大。
時間順序重要性:★★★★★
NLP的任務中,語意很重要,時間關係也相當的重要。
RNN:
將當前的輸入,和 …
本章節必須熟悉:
斷詞(Tokenize):這個動詞的意思就是希望可以將一個句子藉由工程方式,切割成一個一個的字元。
英文 (歐美語系) 和中文(東亞語系) 的斷詞有很大的差異,英文僅需利用空白自元就可輕易的將詞順利切割;但是中文無法這樣進行斷詞,又該如何進行切割?
目前常見的有三種斷詞方法:
前一章講解完HMM的模型後,本章將回到End-to-end的語音模型來介紹。End-to-end的模型基本上都是在計算P(Y|X)的機率。以LAS為例,我們就是在給定的語音特徵下(X)下,去計算可能獲取最終的詞句(Y)的機率大小。
若P(y|x)是一個聲音訊號的計算機率,當要訓練一段聲音訊號的時候,則可以參考圖一右下角卡通圖:每一段聲音訊號都會生成 …