統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法：基于HMM的中文詞性標(biāo)注

前言

最近在重刷李航老師的《統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法》嘗試將其與NLP結(jié)合，通過具體的NLP應(yīng)用場景，強(qiáng)化對書中公式的理解，最終形成「統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法 for NLP」的系列。這篇將介紹隱馬爾可夫模型HMM（「絕對給你一次講明白」）并基于HMM完成一個(gè)中文詞性標(biāo)注的任務(wù)。

HMM是什么

「隱馬爾可夫模型（Hidden Markov Model, HMM)」 是做NLP的同學(xué)繞不過去的一個(gè)基礎(chǔ)模型, 是一個(gè)生成式模型, 通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)隱變量和觀測變量的聯(lián)合概率分布。

HMM具有「兩個(gè)基本假設(shè)」：

齊次馬爾可夫性假設(shè)：時(shí)刻的隱變量只跟前一個(gè)時(shí)刻的隱變量有關(guān)

觀測獨(dú)立性: 任意時(shí)刻的觀測變量只與該時(shí)刻的隱變量有關(guān)。所以可以構(gòu)成下面一個(gè)有向圖, 從而可以分解成圖上邊的概率乘積。

「訓(xùn)練階段」：通過對訓(xùn)練數(shù)據(jù)進(jìn)行極大似然估計(jì), 得到HMM模型的參數(shù)：初始概率向量 (對應(yīng)圖中的 )，隱變量之間的轉(zhuǎn)移概率矩陣 (對應(yīng)圖中的，隱變量到觀測變量之前的轉(zhuǎn)移概率矩陣 ((對應(yīng)圖中的。

「預(yù)測階段」: 給定觀測變量，解出使概率最大的隱變量。因?yàn)镠MM是一個(gè)生成模型, 所以模型在預(yù)測階段需要從全部可能的隱變量中找到使得最大的那個(gè) 。然而假設(shè)步長為 , 對于每一步，隱變量可能的取值有個(gè), 那么全部可能的隱變量個(gè)數(shù)為 , 這是一個(gè)指數(shù)級的時(shí)間復(fù)雜度,窮舉肯定是不現(xiàn) 實(shí) 的。所以就引入了維特比算法(Viterbi algorithm)進(jìn)行剪枝。

維特比算法的簡單的說就是「提前終止了不可能路徑」。具體而言, 在每一步遍歷全部的個(gè)節(jié)點(diǎn),對于每一個(gè)節(jié)點(diǎn)繼續(xù)遍歷可能來源于上一步的個(gè)節(jié)點(diǎn), 只保留上一步 () 個(gè)節(jié)點(diǎn)中概率最大的路徑, 裁剪其余的條路徑。所以時(shí)間復(fù)雜度降低到 , 相比指數(shù)級的暴力枚舉, 這是可接受的。

值得注意的是現(xiàn)在在深度學(xué)習(xí)在解碼階段基本不用「維特比算法」解碼而更多的是使用「beam search」解碼。這是因?yàn)椤妇S特比算法」需要一個(gè)很強(qiáng)的假設(shè)：當(dāng)前節(jié)點(diǎn)只與上一個(gè)點(diǎn)有關(guān), 這也正是齊次馬爾可夫性假設(shè), 所以路徑整體概率才可以表示成各個(gè)子路徑相乘的形式。但是深度學(xué)習(xí)時(shí)代的解碼則不滿足這個(gè)假設(shè), 即, 而需要整體考慮, 所以beam search始終保留「整體最優(yōu)」的個(gè)結(jié)果。

基于HMM的詞性標(biāo)注

詞性標(biāo)注是指給定一句話(已經(jīng)完成了分詞)，給這個(gè)句子中的每個(gè)詞標(biāo)記上詞性，例如名詞，動(dòng)詞，形容詞等。這是一項(xiàng)最基礎(chǔ)的NLP任務(wù)，可以給很多高級的NLP任務(wù)例如信息抽取，語音識別等提供有用的先驗(yàn)信息。

這個(gè)任務(wù)中我們認(rèn)為隱變量是詞性(名詞，動(dòng)詞等)，觀測變量是中文的詞語，需要進(jìn)行的建模。

下面將分為：「數(shù)據(jù)處理，模型訓(xùn)練，模型預(yù)測」 三個(gè)部分來介紹如果利用HMM實(shí)現(xiàn)詞性標(biāo)注

數(shù)據(jù)處理

這里采用「1998人民日報(bào)詞性標(biāo)注語料庫」進(jìn)行模型的訓(xùn)練，包括44個(gè)基本詞性以及19484個(gè)句子。具體可以參考這里：https://www.heywhale.com/mw/dataset/5ce7983cd10470002b334de3

PFR語料庫是對人民日報(bào)1998年上半年的純文本語料進(jìn)行了詞語切分和詞性標(biāo)注制作而成的，嚴(yán)格按照人民日報(bào)的日期、版序、文章順序編排的。文章中的每個(gè)詞語都帶有詞性標(biāo)記。目前的標(biāo)記集里有26個(gè)基本詞類標(biāo)記（名詞n、時(shí)間詞t、處所詞s、方位詞f、數(shù)詞m、量詞q、區(qū)別詞b、代詞r、動(dòng)詞v、形容詞a、狀態(tài)詞z、副詞d、介詞p、連詞c、助詞u、語氣詞y、嘆詞e、擬聲詞o、成語i、習(xí)慣用語l、簡稱j、前接成分h、后接成分k、語素g、非語素字x、標(biāo)點(diǎn)符號w）外，從語料庫應(yīng)用的角度，增加了專有名詞（人名nr、地名ns、機(jī)構(gòu)名稱nt、其他專有名詞nz）；從語言學(xué)角度也增加了一些標(biāo)記，總共使用了40多個(gè)個(gè)標(biāo)記。

2. 模型訓(xùn)練

根據(jù)數(shù)據(jù)估計(jì)HMM的模型參數(shù)：全部的詞性集合，全部的詞集合，初始概率向量，詞性到詞性的轉(zhuǎn)移矩陣 ?，詞性到詞的轉(zhuǎn)移矩陣。這里直接采用頻率估計(jì)概率的方法，但是對于會(huì)存在大量的0，所以需要進(jìn)一步采用「拉普拉斯平滑處理」。

#?統(tǒng)計(jì)words和tags
words?=?set()
tags?=?set()
for?words_with_tag?in?sentences:
????for?word_with_tag?in?words_with_tag:
????????word,?tag?=?word_with_tag
????????words.add(word)
????????tags.add(tag)
words?=?list(words)
tags?=?list(tags)
#?統(tǒng)計(jì)?詞性到詞性轉(zhuǎn)移矩陣A?詞性到詞轉(zhuǎn)移矩陣B?初始向量pi
#?先初始化
A?=?{tag:?{tag:?0?for?tag?in?tags}?for?tag?in?tags}
B?=?{tag:?{word:?0?for?word?in?words}?for?tag?in?tags}
pi?=?{tag:?0?for?tag?in?tags}
#?統(tǒng)計(jì)A，B
for?words_with_tag?in?sentences:
????head_word,?head_tag?=?words_with_tag[0]
????pi[head_tag]?+=?1
????B[head_tag][head_word]?+=?1
????for?i?in?range(1,?len(words_with_tag)):
????????A[words_with_tag[i-1][1]][words_with_tag[i][1]]?+=?1
????????B[words_with_tag[i][1]][words_with_tag[i][0]]?+=?1
#?拉普拉斯平滑處理并轉(zhuǎn)換成概率
sum_pi_tag?=?sum(pi.values())
for?tag?in?tags:
????pi[tag]?=?(pi[tag]?+?1)?/?(sum_pi_tag?+?len(tags))
????sum_A_tag?=?sum(A[tag].values())
????sum_B_tag?=?sum(B[tag].values())
????for?next_tag?in?tags:
????????A[tag][next_tag]?=?(A[tag][next_tag]?+?1)?/?(sum_A_tag?+?len(tags))
????for?word?in?words:
????????B[tag][word]?=?(B[tag][word]?+?1)?/?(sum_B_tag?+?len(words))

看一下詞性轉(zhuǎn)移矩陣

3. 模型預(yù)測

在預(yù)測階段基于維特比算法進(jìn)行解碼

def?decode_by_viterbi(sentence):
????words?=?sentence.split()
????sen_length?=?len(words)
????T1?=?[{tag:?float('-inf')?for?tag?in?tags}?for?i?in?range(sen_length)]
????T2?=?[{tag:?None?for?tag?in?tags}?for?i?in?range(sen_length)]
????#?先進(jìn)行第一步
????for?tag?in?tags:
????????T1[0][tag]?=?math.log(pi[tag])?+?math.log(B[tag][words[0]])
????#?繼續(xù)后續(xù)解碼
????for?i?in?range(1,?sen_length):
????????for?tag?in?tags:
????????????for?pre_tag?in?tags:
????????????????current_prob?=?T1[i-1][pre_tag]?+?math.log(A[pre_tag][tag])?+?math.log(B[tag][words[i]])
????????????????if?current_prob?>?T1[i][tag]:
????????????????????T1[i][tag]?=?current_prob
????????????????????T2[i][tag]?=?pre_tag
????#?獲取最后一步的解碼結(jié)果
????last_step_result?=?[(tag,?prob)?for?tag,?prob?in?T1[sen_length-1].items()]
????last_step_result.sort(key=lambda?x:?-1*x[1])
????last_step_tag?=?last_step_result[0][0]
????#?向前解碼
????step?=?sen_length?-?1
????result?=?[last_step_tag]
????while?step?>?0:
????????last_step_tag?=?T2[step][last_step_tag]
????????result.append(last_step_tag)
????????step?-=?1
????result.reverse()
????return?list(zip(words,?result))

最后進(jìn)行簡單的測試

decode_by_viterbi('我?和?我?的?祖國')
[('我',?'r/代詞'),?
?('和',?'c/連詞'),?
?('我',?'r'/代詞),?
?('的',?'u'/助詞),?
?('祖國',?'n'/名詞)]

decode_by_viterbi('中國?經(jīng)濟(jì)?迅速?發(fā)展?，?對?世界?經(jīng)濟(jì)?貢獻(xiàn)?很?大')?
[('中國',?'ns/地名'),
?('經(jīng)濟(jì)',?'n/名詞'),
?('迅速',?'ad/形容詞'),
?('發(fā)展',?'v/動(dòng)詞'),
?('，',?'w/其他'),
?('對',?'p/介詞'),
?('世界',?'n/名詞'),
?('經(jīng)濟(jì)',?'n/名詞'),
?('貢獻(xiàn)',?'n/名詞'),
?('很',?'d'/副詞),
?('大',?'a'/形容詞)]

可以看到基本都是正確的，根據(jù)文獻(xiàn)HMM一般中文詞性標(biāo)注的準(zhǔn)確率能夠達(dá)到85%以上 :)

當(dāng)然「HMM的缺陷也很明顯」，主要是兩個(gè)強(qiáng)假設(shè)在實(shí)際中是不成立的。因?yàn)殡[變量不僅僅跟前一個(gè)狀態(tài)的隱變量有關(guān)（跟之前全部的隱藏變量和觀測變量有關(guān)），同時(shí)當(dāng)前觀測變量也不僅僅跟當(dāng)前的隱變量有關(guān)（跟之前全部的隱藏變量和觀測變量有關(guān)），這也是后面深度學(xué)習(xí)中RNN等模型嘗試解決的問題了。

編輯：黃飛

閱讀全文

HMM(9856) HMM(9856)
機(jī)器學(xué)習(xí)(130423) 機(jī)器學(xué)習(xí)(130423)
nlp(21784) nlp(21784)

中文分詞研究難點(diǎn)-詞語切分和語言規(guī)范

學(xué)習(xí)模型學(xué)習(xí)詞語切分的規(guī)律（稱為訓(xùn)練），從而實(shí)現(xiàn)對未知文本的切分。隨著大規(guī)模語料庫的建立，統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的研究和發(fā)展，基于統(tǒng)計(jì)的中文分詞方法漸漸成為了主流方法。中文分詞的研究難點(diǎn)中文分詞難點(diǎn)主要體現(xiàn)在

2019-09-04 17:39:58

機(jī)器學(xué)習(xí)分類算法之支持向量機(jī)SVM

統(tǒng)計(jì)學(xué)習(xí)方法C++實(shí)現(xiàn)之六支持向量機(jī)（SVM）

2019-04-29 10:47:58

機(jī)器學(xué)習(xí)對中文的理解

機(jī)器學(xué)習(xí)基礎(chǔ)教程實(shí)踐(一)——中文的向量化

2019-08-27 14:19:29

統(tǒng)計(jì)的學(xué)習(xí)方法

統(tǒng)計(jì)學(xué)習(xí)方法感知機(jī)

2020-07-15 10:33:49

統(tǒng)計(jì)學(xué)習(xí)方法數(shù)據(jù)挖掘

統(tǒng)計(jì)學(xué)習(xí)方法C1概論

2019-10-29 09:12:28

FPGA學(xué)習(xí)方法及發(fā)展方向

FPGA學(xué)習(xí)快一年了，感覺達(dá)到了一定的瓶頸，沒人帶，自學(xué)很吃力，現(xiàn)在只會(huì)簡單地做一些小東西，想更加系統(tǒng)的學(xué)習(xí)一下FPGA將來從事FPGA有沒有好的學(xué)習(xí)方法或者發(fā)展方向什么的？求不吝賜教。

2015-11-24 17:58:14

FPGA技術(shù)的學(xué)習(xí)方法

。那么究竟如何才能高效學(xué)習(xí)好FPGA技術(shù)呢？本期邀請到的FPGA專家梅雪松，將為大家解答FPGA有效學(xué)習(xí)方法。專家觀點(diǎn)：學(xué)習(xí)FPGA技術(shù)，或者不僅局限于FPGA，學(xué)習(xí)任何一個(gè)新技術(shù)只要運(yùn)用科學(xué)

2017-01-11 13:58:34

FPGA新手求推薦書籍，學(xué)習(xí)方法

由于自己基礎(chǔ)差，之前接觸的電子方面的東西也比較少，現(xiàn)在學(xué)習(xí)FPGA，求大嬸推薦學(xué)習(xí)方法及書籍?。。?/div>

2013-12-23 12:59:49

HanLP分詞命名實(shí)體提取詳解

參考 HanLP詞性標(biāo)注集招中標(biāo)項(xiàng)目文本樣式多變、內(nèi)容復(fù)雜，我們無法直接定位文本中的某一位置來提取實(shí)體。小編采用基于統(tǒng)計(jì)和基于規(guī)則相融合的機(jī)器學(xué)習(xí)方法。首先，統(tǒng)計(jì)這些實(shí)體出現(xiàn)的前后文單詞和詞性，并考慮

2019-01-11 14:32:15

Hanlp分詞之CRF中文詞法分析詳解

;);System.out.println(wordList);不傳入模型路徑時(shí)將默認(rèn)加載配置文件指定的模型。詞性標(biāo)注CRF詞性標(biāo)注器的訓(xùn)練與加載與中文分詞類似，對應(yīng)CRFPOSTagger。命名實(shí)體識別CRF命名實(shí)體識別也是類似的用法

2019-02-18 15:28:50

Hanlp等七種優(yōu)秀的開源中文分詞庫推薦

：l索引全切分模式l用戶自定義詞典l兼容繁體中文l訓(xùn)練用戶自己的領(lǐng)域模型l 詞性標(biāo)注lHMM詞性標(biāo)注（速度快）l感知機(jī)詞性標(biāo)注、CRF詞性標(biāo)注（精度高）l 命名實(shí)體識別l基于HMM角色標(biāo)注的命名實(shí)體識別

2018-10-12 11:23:25

Linux建議的學(xué)習(xí)方法

宋寶華：迭代螺旋法——關(guān)于Linux學(xué)習(xí)方法的血淚建議

2020-04-15 11:38:59

Linux的學(xué)習(xí)方法及學(xué)習(xí)注意事項(xiàng)介紹

結(jié)合自己的幾年的個(gè)人開發(fā)經(jīng)驗(yàn)，及對 Linux，更是類UNIX系統(tǒng)，及開源軟件文化，談?wù)凩inux的學(xué)習(xí)方法與學(xué)習(xí)中應(yīng)該注意的一些事。

2019-07-15 06:01:54

MCU的學(xué)習(xí)方法

剛才在q群上有人發(fā)表了關(guān)于MCU的學(xué)習(xí)方法，在此分享下，看規(guī)格書（datasheet、errata sheet），看懂了，背熟了，看原理圖，理解了，看例子程序，理解透了，修改，開始自己寫程序，不知大家有沒有其他方法，可以在此分享下。

2013-05-23 10:01:52

Python NLTK學(xué)習(xí)方法

Python NLTK學(xué)習(xí)5（詞性標(biāo)注）

2020-05-29 10:39:56

STM32的學(xué)習(xí)方法

STM32學(xué)習(xí)方法

2023-09-28 06:18:03

STM32的學(xué)習(xí)方法分享？

STM32的學(xué)習(xí)方法

2020-08-14 04:00:51

arm單片機(jī) 學(xué)習(xí)方法

大家給推薦下 arm 學(xué)習(xí)方法

2012-03-30 09:10:09

dsp 的學(xué)習(xí)方法收集：如何學(xué)習(xí)dsp

最近把dsp的本科教材《dsp原理及應(yīng)用》學(xué)習(xí)完了，也重新復(fù)習(xí)了一下信號與系統(tǒng)予數(shù)字信號處理。不曉得如何繼續(xù)深入下去，畢竟手邊沒有實(shí)踐機(jī)會(huì)。在網(wǎng)上找了一些dsp的學(xué)習(xí)方法，收錄于此。百度知道中看

2012-03-01 13:55:18

labview有什么比較好的學(xué)習(xí)方法，求賜教？

labview有什么比較好的學(xué)習(xí)方法，求賜教？感謝大家分享。

2013-04-15 14:47:55

linux 新手入門求助，求各位好友推介好的資料和學(xué)習(xí)方法

linux 新手入門求助，求各位好友推介好的資料和學(xué)習(xí)方法，本人跪謝{:12:}

2014-03-13 23:29:37

stm32學(xué)習(xí)方法以及資料

2016-11-30 11:42:50

stm32學(xué)習(xí)方法及資料

這學(xué)習(xí)stm32的是越來越多，但是沒有學(xué)習(xí)方法的話還真不好學(xué)，一看一懵，還在努力的學(xué)友們加油努力，邁過這個(gè)坎我弄了幾個(gè)視頻的資具體是哪的我就就說了避嫌省的給人家做了廣告！就不好了

2018-11-09 13:20:39

【下載】《機(jī)器學(xué)習(xí)》+《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》

讀者, 本書附錄給出了一些相關(guān)數(shù)學(xué)基礎(chǔ)知識簡介.目錄：全書共16 章，大致分為3 個(gè)部分：第1 部分（第1～3 章）介紹機(jī)器學(xué)習(xí)的基礎(chǔ)知識；第2 部分（第4～10 章）討論一些經(jīng)典而常用的機(jī)器學(xué)習(xí)方法

2017-06-01 15:49:24

【卡酷機(jī)器人】——基礎(chǔ)學(xué)習(xí)方法

`` 這里和大伙兒講解一下卡酷機(jī)器人基礎(chǔ)學(xué)習(xí)方法，如果有錯(cuò)誤，歡迎大家指點(diǎn)喲。``

2015-01-09 18:01:34

關(guān)于STM32的學(xué)習(xí)方法

分享一下自己的學(xué)習(xí)思路，是關(guān)于我的STM32的學(xué)習(xí)方法，以STM32硬件編程思想為例第一點(diǎn)：編程首先應(yīng)該清楚的是“需要什么”。需求包括①上級（自己）開出的要求、條件。②硬件應(yīng)實(shí)現(xiàn)的功能。③是否符合

2021-08-11 06:55:59

初學(xué)STM32是否有推薦的學(xué)習(xí)方法、教程和開發(fā)板

大家好，本人只學(xué)過AVR單片機(jī)，對C語言沒有學(xué)過，想學(xué)習(xí)一下STM32，是否有推薦的學(xué)習(xí)方法、教程和開發(fā)板！非常感謝

2018-09-14 09:40:27

單片機(jī)學(xué)習(xí)方法和步驟相關(guān)資料推薦

學(xué)習(xí)單片機(jī)的動(dòng)機(jī)不外乎有四種：一是為興趣愛好而學(xué)，二是為專業(yè)而學(xué)；三是為飯碗而學(xué)；四是在工作中被逼而學(xué)。不管是哪種動(dòng)機(jī)，因主修專業(yè)的不同以及電子基礎(chǔ)的深淺不同，對于不同的人可能采用不同的學(xué)習(xí)方法

2021-11-22 08:31:58

單片機(jī)的學(xué)習(xí)方法和步驟

2021-07-15 09:11:11

單片機(jī)的學(xué)習(xí)方法和步驟

不同的學(xué)習(xí)方法，根據(jù)筆者的親身學(xué)習(xí)經(jīng)驗(yàn)，提出筆者的學(xué)習(xí)方法和步驟。Part 1 基礎(chǔ)理論知識學(xué)習(xí)基礎(chǔ)理論知識包括模擬電路、數(shù)字電路和C語言知識。模擬電路和數(shù)字電路屬于抽象學(xué)科，要把它學(xué)好還得費(fèi)點(diǎn)精神。在你

2021-11-30 06:38:31

基于CRF序列標(biāo)注的中文依存句法分析器的Java實(shí)現(xiàn)

速度翻了一倍，達(dá)到了1262.8655 sent/s開源項(xiàng)目本文代碼已集成到HanLP中開源項(xiàng)目中，最新hanlp1.7版本已經(jīng)發(fā)布CRF簡介CRF是序列標(biāo)注場景中常用的模型，比HMM能利用更多的特征

2019-01-16 14:21:03

基于結(jié)構(gòu)化平均感知機(jī)的分詞器Java實(shí)現(xiàn)

的講義《The Structured Perceptron》。本文實(shí)現(xiàn)的AP分詞器預(yù)測是整個(gè)句子的BMES標(biāo)注序列，當(dāng)然屬于結(jié)構(gòu)化預(yù)測問題了。感知機(jī)二分類感知機(jī)的基礎(chǔ)形式如《統(tǒng)計(jì)學(xué)習(xí)方法》所述，是定義在

2019-01-14 11:15:41

基于結(jié)構(gòu)化感知機(jī)的詞性標(biāo)注與命名實(shí)體識別框架

`上周就關(guān)于《結(jié)構(gòu)化感知機(jī)標(biāo)注框架的內(nèi)容》已經(jīng)分享了一篇《分詞工具Hanlp基于感知機(jī)的中文分詞框架》，本篇接上一篇內(nèi)容，繼續(xù)分享詞性標(biāo)注與命名實(shí)體識別框架的內(nèi)容。詞性標(biāo)注訓(xùn)練詞性標(biāo)注是分詞后緊接著

2019-04-08 14:57:23

嵌入式ARM+Linux的學(xué)習(xí)方法是什么？

ARM菜鳥跪求嵌入式ARM+Linux的學(xué)習(xí)方法是什么？學(xué)習(xí)嵌入式ARM+linux有什么方法么？ 學(xué)習(xí)路線是什么？路過的朋友可否簡單說下？?

2020-07-16 08:09:29

嵌入式Linux學(xué)習(xí)方法

2012-08-20 15:26:55

嵌入式開發(fā)板的學(xué)習(xí)方法

本文轉(zhuǎn)自：http://www.topeetboard.com 嵌入式知識體系龐大，下面介紹并了解嵌入式開發(fā)的體系及學(xué)習(xí)方法，學(xué)習(xí)嵌入式開發(fā)需要有很好的指引，也就是方法，嵌入式開發(fā)學(xué)習(xí)必須掌握方法

2016-03-30 17:21:43

嵌入式系統(tǒng)學(xué)習(xí)方法

很多新手都問過嵌入式系統(tǒng)學(xué)習(xí)方法，好的學(xué)習(xí)方法可以事半功倍，學(xué)習(xí)嵌入式系統(tǒng)，掌握了好的學(xué)習(xí)方法，自然可以水到渠成。本篇文章就來說說嵌入式系統(tǒng)學(xué)習(xí)方法，新手必看哦!　　第一，學(xué)習(xí)基本的裸機(jī)編程　　對于

2021-12-17 06:42:07

快速的學(xué)習(xí)方法?

有老師跟我說學(xué)習(xí)方法,直接從模塊化電路一個(gè)一個(gè)的學(xué),不明白的再看電路基礎(chǔ)的相關(guān)章節(jié),這樣好嗎?有沒有具體有哪些模塊,求詳細(xì)說下,,或有其他快速學(xué)習(xí)的方法.請指點(diǎn)下.

2016-06-25 22:28:08

文本信息抽取的分階段詳細(xì)介紹

文本信息抽取作為監(jiān)督學(xué)習(xí)的一項(xiàng)具體運(yùn)用。文本信息抽取可以分為兩個(gè)階段：學(xué)習(xí)階段和抽取階段。其過程如下圖所示： 學(xué)習(xí)階段，首先有一些帶標(biāo)注的數(shù)據(jù)集，每一個(gè)樣本包含文字單元序列和標(biāo)注序列組成，機(jī)器學(xué)子

2019-09-16 15:03:58

最簡單的電路圖學(xué)習(xí)方法

最簡單的電路圖學(xué)習(xí)方法

2013-06-18 10:59:01

求128單片機(jī)學(xué)習(xí)方法

求128單片機(jī)學(xué)習(xí)方法

2013-01-06 22:38:17

求大神分享esp8266的一些學(xué)習(xí)方法與筆記

求大神分享esp8266的一些學(xué)習(xí)方法與筆記

2021-09-28 09:14:17

目前常用的自然語言處理開源項(xiàng)目/開發(fā)包大匯總

的中文詞法分析工具包，具有中文分詞和詞性標(biāo)注功能。開發(fā)語言：網(wǎng)址：THULAC：一個(gè)高效的中文詞法分析工具包開發(fā)機(jī)構(gòu)：清華大學(xué)自然語言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室協(xié)議：研究目的免費(fèi)開放源代碼，商用目的需洽談

2018-11-26 10:31:45

自然語言處理技術(shù)介紹

實(shí)體識別也可以看做是標(biāo)注問題，因此可以采用HMM、CRF等進(jìn)行模型的訓(xùn)練。基于統(tǒng)計(jì)的命名實(shí)體識別需要基于分詞、詞性標(biāo)注等技術(shù)。命名實(shí)體可以有多種分類方法，ACE08評測計(jì)劃里定義了五大類實(shí)體類型：設(shè)施

2018-09-27 09:57:14

自然語言處理的詞性標(biāo)注方法

自然語言處理——78 詞性標(biāo)注方法

2020-04-21 11:38:38

萌新求助，求大佬分享單片機(jī)學(xué)習(xí)方法

萌新求助，求大佬分享單片機(jī)學(xué)習(xí)方法

2021-11-08 08:36:47

計(jì)算機(jī)視覺應(yīng)用深度學(xué)習(xí)

怎樣從傳統(tǒng)機(jī)器學(xué)習(xí)方法過渡到深度學(xué)習(xí)？

2021-10-14 06:51:23

請教STM32開發(fā)板的學(xué)習(xí)方法

請教STM32開發(fā)板的學(xué)習(xí)方法，請教快速高效的方法

2019-04-22 06:35:06

請問STM32單片機(jī)的學(xué)習(xí)方法有哪些？

請問STM32單片機(jī)的學(xué)習(xí)方法有哪些？

2021-10-26 06:59:15

集成學(xué)習(xí)和Boosting提升方法

李航《統(tǒng)計(jì)學(xué)習(xí)方法》——第八章Boosting提升方法【補(bǔ)充集成學(xué)習(xí)】+習(xí)題答案

2019-06-05 09:49:28

模擬電子電路的學(xué)習(xí)方法

模擬電子電路的學(xué)習(xí)方法

2009-08-07 15:49:55

252

基于無向圖序列標(biāo)注模型的中文分詞詞性標(biāo)注一體化系統(tǒng)

在中文詞法分析中，分詞是詞性標(biāo)注必須經(jīng)歷的階段。為了能在分詞階段就充分利用詞性標(biāo)注的信息和減少兩階段錯(cuò)誤的累計(jì)，最好的方法是將兩個(gè)階段，整合到一個(gè)架構(gòu)中。該文

2010-03-06 11:22:46

嵌入式linux學(xué)習(xí)方法總結(jié)

嵌入式linux學(xué)習(xí)方法總結(jié) 嵌入式linux的學(xué)習(xí)現(xiàn)在挺流行

2008-09-10 10:44:57

3442

電子技術(shù)自學(xué)的學(xué)習(xí)方法

電子技術(shù)自學(xué)的學(xué)習(xí)方法人的一生中使用自立學(xué)習(xí)法的時(shí)間最長，自己看書、自己動(dòng)手就是自立學(xué)習(xí)法。1．具備基本條件事半功倍為了高效率運(yùn)用自

2009-04-07 09:34:54

25033

第1章 ZigBee簡介和學(xué)習(xí)方法

ZigBee簡介和學(xué)習(xí)方法很適合入門級別的人學(xué)習(xí)。

2015-12-07 18:36:58

[學(xué)習(xí)嵌入式]嵌入式系統(tǒng)學(xué)習(xí)方法，輕松入門嵌入式

[學(xué)習(xí)嵌入式]嵌入式系統(tǒng)學(xué)習(xí)方法，輕松入門嵌入式。

2016-03-28 15:29:21

ZigBee 簡介和學(xué)習(xí)方法

zigbee簡介以及學(xué)習(xí)方法，ZigBee的歷史發(fā)展前景。

2016-04-15 14:07:57

AVR單片機(jī)學(xué)習(xí)方法詳解

詳細(xì)介紹AVR單片機(jī)學(xué)習(xí)方法，很適合初學(xué)者！

2016-05-16 17:15:25

專欄 | 深度學(xué)習(xí)在NLP中的運(yùn)用？從分詞、詞性到機(jī)器翻譯、對話系統(tǒng)

從分詞、詞性等基礎(chǔ)模塊，到機(jī)器翻譯、知識問答等領(lǐng)域，本文列舉并分析一些深度學(xué)習(xí)在 NLP 領(lǐng)域的具體運(yùn)用，希望對大家研究深度學(xué)習(xí)和 NLP 有所幫助。

2017-08-18 17:06:58

7295

基于表示學(xué)習(xí)方法的中文分詞系統(tǒng)

為提高中文分詞的準(zhǔn)確率和未登錄詞（ OOV）識別率，提出了一種基于字表示學(xué)習(xí)方法的中文分詞系統(tǒng)。首先使用Skip-gram模型將文本中的詞映射為高維向量空間中的向量；其次用K-means聚類算法

2017-12-11 14:35:57

模型驅(qū)動(dòng)深度學(xué)習(xí)的標(biāo)準(zhǔn)流程與學(xué)習(xí)方法解析

模型驅(qū)動(dòng)的深度學(xué)習(xí)方法近年來，深度學(xué)習(xí)在人工智能領(lǐng)域一系列困難問題上取得了突破性成功應(yīng)用。

2018-01-24 11:30:13

4608

深度解析機(jī)器學(xué)習(xí)三類學(xué)習(xí)方法

在機(jī)器學(xué)習(xí)(Machine learning)領(lǐng)域。主要有三類不同的學(xué)習(xí)方法：監(jiān)督學(xué)習(xí)(Supervised learning)、非監(jiān)督學(xué)習(xí)(Unsupervised learning)、半監(jiān)督學(xué)習(xí)(Semi-supervised learning)。

2018-05-07 09:09:01

13404

《機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘：方法和應(yīng)用》

和應(yīng)用》的介紹及下載地址贊助本站《機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘：方法和應(yīng)用》分為5個(gè)部分，共18章，較為全面地介紹了機(jī)器學(xué)習(xí)的基本概念，并討論了數(shù)據(jù)挖掘和知識發(fā)現(xiàn)中的有關(guān)問題及多策略學(xué)習(xí)方法，具體地闡述了機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘在工程設(shè)計(jì)，文本、圖像和音樂，網(wǎng)頁分析、計(jì)算機(jī)病毒和

2018-06-27 18:38:01

639

機(jī)器學(xué)習(xí)心得總結(jié)

接觸機(jī)器學(xué)習(xí)有一年了，是從上張敏老師的課開始的。后來師兄推薦了一本《統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)》，還記得第一印象覺得“統(tǒng)計(jì)”二字很奇怪。之后就漸漸習(xí)以為常了，接觸到的機(jī)器學(xué)習(xí)方法都是基于統(tǒng)計(jì)的，以至于統(tǒng)計(jì)學(xué)習(xí)與機(jī)器學(xué)習(xí)成了一個(gè)概念，以至于最近看了一些東西突然覺得自己長見識了。

2018-07-07 09:40:00

12722

《統(tǒng)計(jì)學(xué)習(xí)方法》李航詳細(xì)電子教材免費(fèi)下載

詳細(xì)介紹支持向量機(jī)、Boosting、最大熵、條件隨機(jī)場等十個(gè)統(tǒng)計(jì)學(xué)習(xí)方法。

2018-08-22 17:55:15

如何學(xué)好機(jī)器學(xué)習(xí)？機(jī)器學(xué)習(xí)的學(xué)習(xí)方法4個(gè)關(guān)鍵點(diǎn)整理概述

。對于想要了解或從事AI行業(yè)工作的小伙伴們來說，能夠快速、深入的掌握機(jī)器學(xué)習(xí)相關(guān)知識顯得尤為重要，小編給大家整理機(jī)器學(xué)習(xí)的學(xué)習(xí)方法。

2018-09-24 19:29:00

5867

基于隱馬爾科夫模型和卷積神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注方法

開發(fā)大規(guī)模圖像庫的搜索和瀏覽算法，使得圖像自動(dòng)標(biāo)注的重要性日益增強(qiáng)?；陔[馬爾科夫模型（HMM）與卷積神經(jīng)網(wǎng)絡(luò)（CNN），我們提出了一種新的圖像標(biāo)注方法HMM + CNN。首先，訓(xùn)練一個(gè)多標(biāo)簽學(xué)習(xí)

2018-11-16 17:17:18

機(jī)器學(xué)習(xí)入門寶典《統(tǒng)計(jì)學(xué)習(xí)方法》的介紹

《統(tǒng)計(jì)學(xué)習(xí)方法》可以說是機(jī)器學(xué)習(xí)的入門寶典，許多機(jī)器學(xué)習(xí)培訓(xùn)班、互聯(lián)網(wǎng)企業(yè)的面試、筆試題目，很多都參考這本書。本文根據(jù)網(wǎng)上資料用python復(fù)現(xiàn)了課程內(nèi)容，并提供本書的代碼實(shí)現(xiàn)、課件及電子書下載。

2018-11-25 09:24:13

4250

谷歌推出基于機(jī)器學(xué)習(xí)的圖像標(biāo)注方式

近日，谷歌公司推出了一款新型圖像標(biāo)注方式 “流體標(biāo)注”，即采用機(jī)器學(xué)習(xí)來注釋分類標(biāo)簽并勾勒出圖片中的每個(gè)對象和背景區(qū)域。谷歌表示其可將標(biāo)記數(shù)據(jù)集的速度提高3倍。

2018-11-27 15:36:19

3503

面向人工智能的機(jī)器學(xué)習(xí)方法體系總結(jié)

此處梳理出面向人工智能的機(jī)器學(xué)習(xí)方法體系，主要體現(xiàn)機(jī)器學(xué)習(xí)方法和邏輯關(guān)系，理清機(jī)器學(xué)習(xí)脈絡(luò)，后續(xù)文章會(huì)針對機(jī)器學(xué)習(xí)系列講解算法原理和實(shí)戰(zhàn)。抱著一顆嚴(yán)謹(jǐn)學(xué)習(xí)之心，有不當(dāng)之處歡迎斧正。

2018-12-17 15:10:22

3095

如何使用紋理信息進(jìn)行室內(nèi)場景語義標(biāo)注的學(xué)習(xí)方法資料說明

針對目前室內(nèi)場景視頻中關(guān)鍵物體的檢測、跟蹤及信息編輯等方面主要是采用人工處理方式，存在效率低、精度不高等問題，提出了一種基于紋理信息的室內(nèi)場景語義標(biāo)注學(xué)習(xí)方法。首先，采用光流方法獲取視頻幀間的運(yùn)動(dòng)

2018-12-19 17:08:42

區(qū)塊鏈數(shù)據(jù)集有怎樣的機(jī)器學(xué)習(xí)方法

區(qū)塊鏈數(shù)據(jù)集提供了一個(gè)與加密貨幣資產(chǎn)行為相關(guān)的獨(dú)特的數(shù)據(jù)宇宙，因此，為機(jī)器學(xué)習(xí)方法的應(yīng)用提供了獨(dú)特的機(jī)會(huì)。

2019-11-26 09:49:14

758

如何使用機(jī)器學(xué)習(xí)來分析區(qū)塊鏈數(shù)據(jù)集

區(qū)塊鏈數(shù)據(jù)集提供了一個(gè)與加密貨幣資產(chǎn)行為相關(guān)的獨(dú)特的數(shù)據(jù)宇宙，因此，為機(jī)器學(xué)習(xí)方法的應(yīng)用提供了獨(dú)特的機(jī)會(huì)。然而，區(qū)塊鏈數(shù)據(jù)集的性質(zhì)和結(jié)構(gòu)給機(jī)器學(xué)習(xí)方法帶來了獨(dú)特的挑戰(zhàn)。

2019-11-26 11:38:52

1600

隨著人工智能的落地自動(dòng)化機(jī)器學(xué)習(xí)方法AutoML應(yīng)運(yùn)而生

隨著概念的普及，科技公司對人工智能的要求越來越高，成本、準(zhǔn)確度、效率都影響著人工智能能否落地融入日常的使用中。對人工智能應(yīng)用的快速增長也進(jìn)而催生了對影響人工智能水平的關(guān)鍵要素——機(jī)器學(xué)習(xí)方法的需求。自動(dòng)化機(jī)器學(xué)習(xí)方法AutoML應(yīng)運(yùn)而生。

2019-12-02 15:03:01

655

深度討論集成學(xué)習(xí)方法，解決AI實(shí)踐難題

集成學(xué)習(xí)方法是一類先進(jìn)的機(jī)器學(xué)習(xí)方法，這類方法訓(xùn)練多個(gè)學(xué)習(xí)器并將它們結(jié)合起來解決一個(gè)問題，在實(shí)踐中獲得了巨大成功，并成為機(jī)器學(xué)習(xí)領(lǐng)域的“常青樹”，受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。

2020-08-16 11:40:51

616

運(yùn)用多種機(jī)器學(xué)習(xí)方法比較短文本分類處理過程與結(jié)果差別

目標(biāo) 從頭開始實(shí)踐中文短文本分類，記錄一下實(shí)驗(yàn)流程與遇到的坑運(yùn)用多種機(jī)器學(xué)習(xí)（深度學(xué)習(xí) + 傳統(tǒng)機(jī)器學(xué)習(xí)）方法比較短文本分類處理過程與結(jié)果差別工具深度學(xué)習(xí)：keras 傳統(tǒng)機(jī)器學(xué)習(xí)

2020-11-02 15:37:15

4798

深度學(xué)習(xí)：四種利用少量標(biāo)注數(shù)據(jù)進(jìn)行命名實(shí)體識別的方法

導(dǎo)讀近年來，深度學(xué)習(xí)方法在特征抽取深度和模型精度上表現(xiàn)優(yōu)異，已經(jīng)超過了傳統(tǒng)方法，但無論是傳統(tǒng)機(jī)器學(xué)習(xí)還是深度學(xué)習(xí)方法都依賴大量標(biāo)注數(shù)據(jù)來訓(xùn)練模型，而現(xiàn)有的研究對少量標(biāo)注數(shù)據(jù)學(xué)習(xí)問題探討較少。本文

2021-01-03 09:35:00

9404

188萬中文詞庫包括了輸入法和機(jī)器學(xué)習(xí)與訓(xùn)練

本文檔的主要內(nèi)容詳細(xì)介紹的是188萬中文詞庫包括了輸入法和機(jī)器學(xué)習(xí)與訓(xùn)練。

2021-02-26 15:01:57

基于強(qiáng)化學(xué)習(xí)的壯語詞標(biāo)注方法

目前壯語智能信息處理研究處于起步階段，缺乏自動(dòng)詞性標(biāo)注方法。針對壯語標(biāo)注語料匱乏、人工標(biāo)注費(fèi)時(shí)費(fèi)力而機(jī)器標(biāo)注性能較差的現(xiàn)狀，提出一種基于強(qiáng)化學(xué)習(xí)的壯語詞性標(biāo)注方法。依據(jù)壯語的文法特點(diǎn)和中文賓州

2021-05-14 11:29:35

基于機(jī)器學(xué)習(xí)的中文隱式實(shí)體關(guān)系抽取方法

基于機(jī)器學(xué)習(xí)的中文隱式實(shí)體關(guān)系抽取方法

2021-06-02 14:42:14

基于腦電信號掃視軌跡的異質(zhì)遷移學(xué)習(xí)方法

基于腦電信號掃視軌跡的異質(zhì)遷移學(xué)習(xí)方法

2021-06-07 15:41:04

面向異質(zhì)信息的網(wǎng)絡(luò)表示學(xué)習(xí)方法綜述

面向異質(zhì)信息的網(wǎng)絡(luò)表示學(xué)習(xí)方法綜述

2021-06-09 14:12:29

單片機(jī)學(xué)習(xí)方法總結(jié)資料分享

單片機(jī)學(xué)習(xí)方法總結(jié)資料分享

2021-11-13 20:36:05

單片機(jī)學(xué)習(xí)筆記————單片機(jī)學(xué)習(xí)方法和步驟

2021-11-14 14:06:04

水聲被動(dòng)定位中的機(jī)器學(xué)習(xí)方法研究進(jìn)展綜述

水聲被動(dòng)定位中的機(jī)器學(xué)習(xí)方法研究進(jìn)展綜述來源：《信號處理》，作者牛海強(qiáng)等摘要：?本文對基于機(jī)器學(xué)習(xí)方法的水聲被動(dòng)定位研究進(jìn)展進(jìn)行了綜述。所涉及的機(jī)器學(xué)習(xí)方法有多層感知機(jī)(前饋神經(jīng)網(wǎng)絡(luò))、支持

2021-12-24 11:18:27

468

融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述

融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述來源：《系統(tǒng)工程與電子技術(shù)》，作者潘崇煜等摘要:?深度學(xué)習(xí)模型嚴(yán)重依賴于大量人工標(biāo)注的數(shù)據(jù)，使得其在數(shù)據(jù)缺乏的特殊領(lǐng)域內(nèi)應(yīng)用嚴(yán)重受限。面對數(shù)據(jù)缺乏

2022-02-09 11:22:37

1731

基于優(yōu)化的元學(xué)習(xí)方法

為了解決上述問題，本文將目光從任務(wù)專用的soft prompt模型設(shè)計(jì)轉(zhuǎn)移到任務(wù)通用的模型參數(shù)初始化點(diǎn)搜索，以幫助模型快速適應(yīng)到不同的少標(biāo)注任務(wù)上。本文采用近年提出的基于優(yōu)化的元學(xué)習(xí)方法，例如MAML[4]、Reptile[5]等

2022-12-15 15:19:30

830