Jan 5, 2021[NLP 線上自學] D19 KNN 演算法重點:了解KNN原理與優缺點 K 值的選擇 KNN 中 K值的選擇沒有標準的做法,但仍然可以依照資料集來選擇合適的K值。首先我們先來看看兩個不適合的K值選擇: K 值過小:會造成兩個問題。 1. 訓練資料集產生的模型過擬合(或指模型泛化能力不足)。 2. 資料可能會受到極端值(Outliers的影響)。 K 值過大: 與上述相反的問題外,還有多一個。 1. 模型缺乏 …2 min read2 min read
Jan 4, 2021[NLP 線上自學] D18 KNN 演算法介紹KNN之前,先簡單的了解機器學習中重要的演算法分類。 若以訓練過程中的標的是否已知來做分類,簡單來說可以分為三類: 監督式學習 (Supervised learning) : 分類問題、回歸問題 通常在這類的模型訓練中,資料通常是必須有標註過的,才能送入模型予以訓練。 ・分類問題:利用標記過的資料集去預測有限的資料類別。 ・回歸問題:預測連續 …2 min read2 min read
Dec 17, 2020[DLHLP 2020] BERT and its family — ELMo, BERT, GPT, XLNet, MASS, BART, UniLM, ELECTRA, and moreHow to Pre-train Pre-training by Translation: Context Vector (CoVe) Pre-Train用在翻譯任務上的好處就在於,每個Encoder都可以產生一個Embedding。 2. Self-supervised learning李宏毅dlhlp6 min read李宏毅dlhlp6 min read
Published inYuuWay AI Lab·Dec 13, 2020[DLHLP 2020] BERT and its family — Introduction and Fine-tune本章重點: What is pre-train model How to fine-tune How to pre-train Pre-train Model: 傳統使用的是Word2Vec, GloVe,但是他缺乏對上下文的理解,因此有了FastText,使用每個字母來當作Token。在中文領域,起初使用類似有邊讀邊的單字法去訓練模型的Embed …李弘毅dlhlp3 min read李弘毅dlhlp3 min read
Published inYuuWay AI Lab·Dec 8, 2020[DLHLP 2020] Overview of NLP Tasks本週課程內容主要是要介紹處理NLP任務:包含文字輸出文字、文字輸出類別 有關文字輸出類別,有兩種模式: 一段文字輸出一個類別 每個Token各屬於什麼類別 再談到輸入一段文字,輸出一段文字,我們所需要的模型則是Seq2Seq李宏毅dlhlp6 min read李宏毅dlhlp6 min read
Published inYuuWay AI Lab·Dec 5, 2020NLP重頭學-004多對一:一段影片判斷出一個情緒,時間順序沒有這麼重要 時間順序重要性:★ 一對多:圖片標注,給一張圖片,電腦判斷內容在做什麼?時間順序就比較重要 時間順序重要性:★★★ 多對多:翻譯句子,從頭到尾都需要累加的語意來判斷,不同累加方法就會導致意思差異很大。 時間順序重要性:★★★★★ NLP的任務中,語意很重要,時間關係也相當的重要。 RNN, LSTM RNN: 將當前的輸入,和 …NLP1 min readNLP1 min read
Published inYuuWay AI Lab·Dec 2, 2020[NLP 線上自學] D05 NLP 中文斷詞本章節必須熟悉: 何謂斷詞 了解內部運算,並可實作斷詞 斷詞(Tokenize):這個動詞的意思就是希望可以將一個句子藉由工程方式,切割成一個一個的字元。 英文 (歐美語系) 和中文(東亞語系) 的斷詞有很大的差異,英文僅需利用空白自元就可輕易的將詞順利切割;但是中文無法這樣進行斷詞,又該如何進行切割? 目前常見的有三種斷詞方法: 基於辭典的分詞法:準備好詞 …Nlp100days1 min readNlp100days1 min read
Dec 2, 2020[演算法 Day2]本次的課程內容:重要的五大問題 解決問題簡單,定義問題困難 Stable matching 開頭:男生與女生各100名,並配對成男女朋友。 Input表格呈現出每個男女對於異性的排序。 Perfect matching: 數學上每個人都有配對到對象就是完美了 Stability: 但是如果有unstable matching,則原配對的組合就會很不穩定,容易分開。 符合前面條件容易,但是後面的條件難,要如何解決? Simple-But-Invalid: 不穩定的配對就會持續交換,但問題是可能會成為無限循環的迴圈。 Status of each person: >> free (unmarried) ~engaged(訂婚但可毀約)~married [Shapley] 實作 — Gale-Shapley ProcedureAlgorithms3 min readAlgorithms3 min read
Published inYuuWay AI Lab·Nov 24, 2020[DLHLP 2020] Speech Recognition (5/7) — Alignment of HMM, CTC and RNN-T (optional)前一章講解完HMM的模型後,本章將回到End-to-end的語音模型來介紹。End-to-end的模型基本上都是在計算P(Y|X)的機率。以LAS為例,我們就是在給定的語音特徵下(X)下,去計算可能獲取最終的詞句(Y)的機率大小。 若P(y|x)是一個聲音訊號的計算機率,當要訓練一段聲音訊號的時候,則可以參考圖一右下角卡通圖:每一段聲音訊號都會生成 …李宏毅dlhlp3 min read李宏毅dlhlp3 min read
Nov 23, 2020[Leetcode] Training day-0071475. Final Prices With a Special Discount in a Shop Given the array prices where prices[i] is the price of the ith item in a shop. There is a special discount for items in the shop, if you buy the ith item, then you will receive a discount equivalent to…Leetcode1 min readLeetcode1 min read