欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

騰訊鵝漫U品如何基于LSTM模型進(jìn)行中文文本情感分析?

電子工程師 ? 來源:lq ? 2019-01-15 09:58 ? 次閱讀

前言

深度學(xué)習(xí)(深度神經(jīng)網(wǎng)絡(luò))作為機(jī)器學(xué)習(xí)的一個(gè)重要分支,推動(dòng)了很多領(lǐng)域的研究和應(yīng)用,其中包括文本處理領(lǐng)域的情感分類問題。由于可以對(duì)文本進(jìn)行更有效地編碼及表達(dá),基于深度學(xué)習(xí)的情感分類對(duì)比傳統(tǒng)的淺層機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)方法,可以取得更高的分類準(zhǔn)確率。當(dāng)前,情感分析在互聯(lián)網(wǎng)業(yè)務(wù)中已經(jīng)具有比較廣泛的應(yīng)用場(chǎng)景,成為了一個(gè)重要的業(yè)務(wù)支持能力。

文本情感分析的發(fā)展與挑戰(zhàn)

1.情感分析的發(fā)展

情感分析(Sentiment Analysis),也稱為情感分類,屬于自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域的一個(gè)分支任務(wù),分析一個(gè)文本所呈現(xiàn)的信息是正面、負(fù)面或者中性,也有一些研究會(huì)區(qū)分得更細(xì),例如在正負(fù)極性中再進(jìn)行分級(jí),區(qū)分不同情感強(qiáng)度。

在 2000 年之前,互聯(lián)網(wǎng)沒有那么發(fā)達(dá),積累的文本數(shù)據(jù)不多,因此,這個(gè)問題被研究得較少。2000 年以后,隨著互聯(lián)網(wǎng)大潮的推進(jìn),文本信息快速積累,文本情感分析的研究也開始快速增加。早期主要是針對(duì)英文文本信息,比較有代表性的,是 Pang, Lee and Vaithyanathan (2002) 的研究,第一次采用了 Naive Bayes(樸素貝葉斯), Maximum Entropy(最大熵)和SVM(Support Vector Machine, 支持向量機(jī))等方法對(duì)電影評(píng)論數(shù)據(jù)進(jìn)行了情感分類,將之分為正面或者負(fù)面。2000-2010 年期間,情感分析主要基于傳統(tǒng)的統(tǒng)計(jì)和淺層機(jī)器學(xué)習(xí),由于這些方法不是本文闡述的重點(diǎn),因此,本文就不再展開介紹。

2010 年以后,隨著深度學(xué)習(xí)的崛起和發(fā)展,情感分析開始采用基于深度學(xué)習(xí)的方法,并且相對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法取得了更好的識(shí)別準(zhǔn)確率。

2.中文文本情感分析的難點(diǎn)

由于漢語(yǔ)博大精深,從傳統(tǒng)方法的角度來看,中文文本的情感分析有多個(gè)難點(diǎn):

(1)分詞不準(zhǔn)確:中文句子由單個(gè)漢字組成,通常第一個(gè)要解決的問題,就是如何“分詞”。但是,由于漢字組合的歧義性,分詞的準(zhǔn)確率一直難以達(dá)到完美的效果,而不準(zhǔn)確的分詞結(jié)果會(huì)直接影響最終分析的結(jié)果。

(2)缺乏標(biāo)準(zhǔn)完整的情感詞庫(kù):與中文相比,英文目前有相對(duì)比較完整的情感詞庫(kù),對(duì)每個(gè)詞語(yǔ)標(biāo)注了比較全面的情感類型、情感強(qiáng)度等。但是,中文目前比較缺乏這樣的情感詞庫(kù)。同時(shí)考慮到語(yǔ)言的持續(xù)發(fā)展的特性,往往持續(xù)不斷地產(chǎn)生新的詞語(yǔ)和表達(dá)方式,例如,“陳獨(dú)秀,坐下”,“666”,它們?cè)径疾皇乔楦性~,在當(dāng)今的互聯(lián)網(wǎng)環(huán)境下被賦予了情感極性,需要被情感詞庫(kù)收錄。

(3)否定詞問題:例如,“我不是很喜歡這個(gè)商品”和“我很喜歡這個(gè)商品”,如果基于情感詞的分析,它們的核心情感詞都是“喜歡”,但是整個(gè)句子卻表達(dá)了相反的情感。這種否定詞表達(dá)的組合非常豐富,即使我們將分詞和情感詞庫(kù)的問題徹底解決好,針對(duì)否定詞否定范圍的分析也會(huì)是一個(gè)難點(diǎn)。

(4)不同場(chǎng)景和領(lǐng)域的難題:部分中性的非情感詞在特定業(yè)務(wù)場(chǎng)景下可能具有情感傾向。例如,如下圖的一條評(píng)論“(手機(jī))藍(lán)屏,充不了電”,藍(lán)屏是一個(gè)中性名詞,但是,如果該詞在手機(jī)或者電腦的購(gòu)買評(píng)價(jià)中如果,它其實(shí)表達(dá)了“負(fù)面”的情感,而在某些其他場(chǎng)景下還有可能呈現(xiàn)出正面的情感。因此,即使我們可以編撰一個(gè)完整的“中文情感詞典”,也無法解決此類場(chǎng)景和領(lǐng)域帶來的問題。

上述挑戰(zhàn)廣泛存在于傳統(tǒng)的機(jī)器學(xué)習(xí)與深度學(xué)習(xí)方法中。但是,在深度學(xué)習(xí)中,有一些問題可以得到一定程度的改善。

中文分詞概述

一般情況下,中文文本的情感分類通常依賴于分析句子中詞語(yǔ)的表達(dá)和構(gòu)成,因此需要先對(duì)句子進(jìn)行分詞處理。不同于英文句子中天然存在空格,單詞之間存在明確的界限,中文詞語(yǔ)之間的界限并不明晰,良好的分詞結(jié)果往往是進(jìn)行中文語(yǔ)言處理的先決條件。

中文分詞一般有兩個(gè)難點(diǎn),其一是“歧義消解”,因?yàn)橹形牟┐缶畹谋磉_(dá)方式,中文的語(yǔ)句在不同的分詞方式下,可以表達(dá)截然不同的意思。有趣地是,正因如此,相當(dāng)一部分學(xué)者持有一種觀點(diǎn),認(rèn)為中文并不能算作一種邏輯表達(dá)嚴(yán)謹(jǐn)?shù)恼Z(yǔ)言。其二是“新詞識(shí)別”,由于語(yǔ)言的持續(xù)發(fā)展,新的詞匯被不斷創(chuàng)造出來,從而極大影響分詞結(jié)果,尤其是針對(duì)某個(gè)領(lǐng)域內(nèi)的效果。下文從是否使用詞典的角度簡(jiǎn)單介紹傳統(tǒng)的兩類中文分詞方法。

1.基于詞典的分詞方法

基于詞典的分詞方法,需要先構(gòu)建和維護(hù)一套中文詞典,然后通過詞典匹配的方式,完成句子的分詞,基于詞典的分詞方法有速度快、效率高、能更好地控制詞典和切分規(guī)則等特性,因此被工業(yè)界廣泛作為基線工具采用?;谠~典的分詞方法包含多種算法。比較早被提出的有“正向最大匹配算法”(Forward Maximum Matching,MM),F(xiàn)MM 算法從句子的左邊到右邊依次匹配,從而完成分詞任務(wù)。但是,人們?cè)趹?yīng)用中發(fā)現(xiàn) FMM 算法會(huì)產(chǎn)生大量分詞錯(cuò)誤,后來又提出了“逆向最大匹配算法”(Reverse Maximum Matching,RMM),從句子右邊往左邊依次匹配詞典完成分詞任務(wù)。從應(yīng)用的效果看,RMM 的匹配算法表現(xiàn),要略為優(yōu)于 MM 的匹配算法表現(xiàn)。

一個(gè)典型的分詞案例“結(jié)婚的和尚未結(jié)婚的”:

FMM:結(jié)婚/的/和尚/未/結(jié)婚/的 (分詞有誤的)

RMM:結(jié)婚/的/和/尚未/結(jié)婚/的 (分詞正確的)

為了進(jìn)一步提升分詞匹配的準(zhǔn)確率,研究者后來又提出了出了同時(shí)兼顧 FMM 和 RMM 分詞結(jié)果的“雙向最大匹配算法” (Bi-directctional Matching,BM ),以及兼顧了詞的出現(xiàn)頻率的“最佳匹配法”(Optimum Matching,OM)。

2.基于統(tǒng)計(jì)的分詞方法

基于統(tǒng)計(jì)的分詞方法,往往又被稱作“無詞典分詞”法。因?yàn)橹形奈谋居蓾h字組成,詞一般是幾個(gè)漢字的穩(wěn)定組合,因此在一定的上下文環(huán)境下,相鄰的幾個(gè)字出現(xiàn)的次數(shù)越多,它就越有可能成為“詞”?;谶@個(gè)規(guī)則可以通過算法構(gòu)建出隱式的“詞典”(模型),從而基于它完成分詞操作。該類型的方法包括基于互信息或條件熵為基礎(chǔ)的無監(jiān)督學(xué)習(xí)方法,以及 N 元文法(N-gram)、隱馬爾可夫模型(Hiden Markov Model,HMM)、最大熵模型(Maximum Entropy,ME)、條件隨機(jī)場(chǎng)模型(Conditional Random Fields,CRF)等基于監(jiān)督學(xué)習(xí)的模型。這些模型往往作用于單個(gè)漢字,需要一定規(guī)模的語(yǔ)料支持模型的訓(xùn)練,其中監(jiān)督學(xué)習(xí)的方法通過薛念文在 2003 年第一屆 SIGHAN Bakeoff 上發(fā)表的論文所展現(xiàn)出的結(jié)果開始持續(xù)引起業(yè)內(nèi)關(guān)注。效果上,這些模型往往很善于發(fā)現(xiàn)未登錄詞,可以通過對(duì)大量漢字之間關(guān)系的建模有效“學(xué)習(xí)”到新的詞語(yǔ),是對(duì)基于詞典方法的有益補(bǔ)充。然而它在實(shí)際的工業(yè)應(yīng)用中也存在一定的問題,例如分詞效率,切分結(jié)果一致性差等。

基于多層 LSTM 的中文情感分類模型原理

在前述分詞過程完成后,就可以進(jìn)行情感分類了。我們的情感分類模型是一個(gè)基于深度學(xué)習(xí)(多層 LSTM)的有監(jiān)督學(xué)習(xí)分類任務(wù),輸入是一段已經(jīng)分好詞的中文文本,輸出是這段文本正面和負(fù)面的概率分布。整個(gè)項(xiàng)目的流程分為數(shù)據(jù)準(zhǔn)備、模型搭建、模型訓(xùn)練和結(jié)果校驗(yàn)四個(gè)步驟,具體內(nèi)容會(huì)在下文中詳細(xì)展開。由于本文模型依賴于已切分的中文文本,對(duì)于想要?jiǎng)邮謱?shí)現(xiàn)代碼的讀者,如果沒有分詞工具,我們建議讀者使用網(wǎng)上開源的工具。

1.數(shù)據(jù)準(zhǔn)備

我們基于 40 多萬(wàn)條真實(shí)的鵝漫用戶評(píng)論數(shù)據(jù)建立了語(yǔ)料庫(kù),為了讓正面和負(fù)面的學(xué)習(xí)樣本盡可能均衡,我們實(shí)際抽樣了其中的 7 萬(wàn)條評(píng)論數(shù)據(jù)作為學(xué)習(xí)樣本。一般情況下,對(duì)于機(jī)器學(xué)習(xí)的分類任務(wù),我們建議將學(xué)習(xí)樣本比例按照分類規(guī)劃為 1:1,以此更好地訓(xùn)練無偏差的模型。

模型的輸入是一段已經(jīng)分詞的中文文本,但它無法直接被模型識(shí)別,因此我們要將它轉(zhuǎn)換成一種能被模型識(shí)別的數(shù)學(xué)表達(dá)。最直接的方式是將這些文本中的詞語(yǔ)用“One-Hot Key”進(jìn)行編碼。One-Hot Key是一種比較簡(jiǎn)單的編碼方式,假設(shè)我們一共只有5個(gè)詞,則可以簡(jiǎn)單地編碼為如下圖所示:

在一般的深度學(xué)習(xí)任務(wù)中,非連續(xù)數(shù)值型特征基本采用了上述編碼方式。但是,One-Hot Key 的編碼方式通常會(huì)造成內(nèi)存占用過大的問題。我們基于 40 多萬(wàn)條用戶評(píng)論分詞后獲得超過 38000 個(gè)不同的詞,使用 One-Hot Key 方式會(huì)造成極大的內(nèi)存開銷。下圖是對(duì) 40 多萬(wàn)條評(píng)論分詞后的部分結(jié)果:

因此,我們的模型引入了詞向量(Word Embeddings)來解決這個(gè)問題,每一個(gè)詞以多維向量方式編碼。我們?cè)谀P椭袑⒃~向量編碼維度配置為 128 維,對(duì)比 One-Hot Key 編碼的 38000 多維,無論是在內(nèi)存占用還是計(jì)算開銷都更節(jié)省機(jī)器資源。作為對(duì)比,One-Hot key 可以粗略地被理解為用一條線表示 1 個(gè)詞,線上只有一個(gè)位置是 1,其它點(diǎn)都是 0,而詞向量則是用多個(gè)維度表示 1 個(gè)詞。

這里給大家安利一個(gè)很好的資源,由騰訊AI Lab去年10月發(fā)布的大規(guī)模中文詞向量,可以對(duì)超過800萬(wàn)詞進(jìn)行高質(zhì)量的詞向量映射,從而有效提升后續(xù)任務(wù)的性能。

https://ai.tencent.com/ailab/nlp/embedding.html

假設(shè)我們將詞向量設(shè)置為 2 維,它的表達(dá)則可以用二維平面圖畫出來,如下圖所示:

2.模型搭建

本項(xiàng)目的代碼采用了 Keras 實(shí)現(xiàn),底層框架是 Google 開源的 TensorFlow。整個(gè)模型包含 6 層,核心層包括 Embedding 輸入層、中間層(LSTM)、輸出層(Softmax)。模型中的 Flatten 和 Dense 層用于做數(shù)據(jù)維度變換,將上一層輸出數(shù)據(jù)變換為相應(yīng)的輸出格式,最終的輸出是一個(gè)二維數(shù)組,用于表達(dá)輸入文本是正面或者負(fù)面的概率分布,格式形如 [0.8, 0.2]。

Keras的模型核心代碼和參數(shù)如下:

EMBEDDING_SIZE=128HIDDEN_LAYER_SIZE=64model=Sequential()model.add(layers.embeddings.Embedding(words_num,EMBEDDING_SIZE,input_length=input_data_X_size))model.add(layers.LSTM(HIDDEN_LAYER_SIZE,dropout=0.1,return_sequences=True))model.add(layers.LSTM(64,return_sequences=True))#model.add(layers.Dropout(0.1))model.add(layers.Flatten())model.add(layers.Dense(2))#[0,1]or[1,0]model.add(layers.Activation('softmax'))model.compile(loss='categorical_crossentropy',optimizer='adam',metrics=['accuracy'])model.summary()model.fit(X,Y,epochs=1,batch_size=64,validation_split=0.05,verbos

模型架構(gòu)如下圖:

該模型的核心層采用 LSTM (Long short-term memory,長(zhǎng)短記憶模型),LSTM 是 RNN (Recurrent neural network,循環(huán)神經(jīng)網(wǎng)絡(luò))的一種實(shí)現(xiàn)形式,具有“記憶時(shí)序”的特點(diǎn),可以學(xué)習(xí)到數(shù)據(jù)上下文之間的關(guān)聯(lián)關(guān)系。例如,在含有前置否定詞的句子“我喜歡”和“我不是很喜歡”中,雖然“喜歡”這個(gè)詞表達(dá)了正面的情感含義,但是句子前面出現(xiàn)的否定詞卻更重要,否定詞會(huì)使語(yǔ)句表達(dá)的情感截然相反。LSTM 可以通過上下文學(xué)習(xí)到這種組合規(guī)律,從而提高分類準(zhǔn)確率。

模型其他幾個(gè)層的含義本文也簡(jiǎn)單列出:

Flatten(壓平層),在本模型中負(fù)責(zé)將 2 階張量壓縮為 1 階級(jí)張量(20*64 = 1280):

Dense(全連接層),通常用于做維度變換,在本模型中將 1280 維變?yōu)?2 維。

Activation(激活函數(shù)),本模型采用 Softmax,它負(fù)責(zé)將數(shù)值約束到 0-1 之間,并且以概率分布的方式輸出。

3.模型訓(xùn)練

由于我們的模型架構(gòu)比較簡(jiǎn)單,模型的訓(xùn)練耗時(shí)不高,在一臺(tái) 8 核 CPU + 8G 內(nèi)存的機(jī)器上完成一輪 7 萬(wàn)多個(gè)評(píng)論樣本的訓(xùn)練只需 3 分鐘左右。訓(xùn)練得到的模型在測(cè)試集上可以獲得大約 96% 的情感分類準(zhǔn)確率,而基于傳統(tǒng)機(jī)器學(xué)習(xí)方法的準(zhǔn)確率通常只有 75-90%。值得注意的是,本模型并不是一個(gè)可以識(shí)別任意文本的通用模型,因?yàn)槲覀儤?gòu)建的學(xué)習(xí)樣本基本上只覆蓋鵝漫用戶評(píng)論語(yǔ)料范圍內(nèi)的詞,超出語(yǔ)料范圍的分類準(zhǔn)確率可能會(huì)顯著降低。

測(cè)試集情感分類的部分結(jié)果(數(shù)值代表該評(píng)論是正面情感的概率):

文本表述中含有否定詞的識(shí)別場(chǎng)景:

關(guān)于部分“中性詞”在某些業(yè)務(wù)情景下?lián)碛星楦袃A向的問題,利用本文的模型可以較好地處理,因?yàn)楸疚牡哪P涂梢酝ㄟ^學(xué)習(xí)得到所有詞(包括情感詞和一般詞)的情感傾向。

例如,下圖中的“坑爹”一詞,在模型中已經(jīng)被明顯地識(shí)別為“負(fù)面”情感詞(0.002 表示該詞屬于正面情感的概率僅有千分之二),而“666”則被識(shí)別為正面情感詞(概率系數(shù)大于 0.5 則屬于正面情感)。

業(yè)務(wù)應(yīng)用場(chǎng)景與擴(kuò)展展望

1.業(yè)務(wù)應(yīng)用場(chǎng)景

在鵝漫U品業(yè)務(wù)場(chǎng)景中,用戶完成商品購(gòu)買后通常會(huì)對(duì)商品進(jìn)行評(píng)論,一般情況下,我們的客服和商家會(huì)對(duì)差評(píng)評(píng)論進(jìn)行一定處理和回復(fù)。但是,真實(shí)的用戶評(píng)論數(shù)據(jù)中存在一種特殊的好評(píng),我們稱之為“假好評(píng)”,用戶評(píng)論表述的內(nèi)容是差評(píng),可能由于頁(yè)面點(diǎn)擊失誤或者其他原因卻在評(píng)論分類上選擇了“好評(píng)”,從而導(dǎo)致這種評(píng)論沒有被正確歸類,因此,客服和商家同學(xué)沒辦法處理到這類評(píng)論。從鵝漫的評(píng)論數(shù)據(jù)看,這類“假好評(píng)”的比例大概占據(jù)全部評(píng)論數(shù)據(jù)的 3%??紤]到鵝漫業(yè)務(wù)每天產(chǎn)生巨量評(píng)論,如果依靠人工甄別的處理方式將非常費(fèi)時(shí)費(fèi)力,通過自動(dòng)情感分類的則可以有效解決該問題。

鵝漫另外一個(gè)業(yè)務(wù)場(chǎng)景是自動(dòng)提取“深度好評(píng)”:我們直接通過全量數(shù)據(jù)掃描獲取正面情感系數(shù)高,并且評(píng)論字?jǐn)?shù)較多的評(píng)論文本,將它們作為商品的“深度好評(píng)”。這類評(píng)論通常對(duì)產(chǎn)品的體驗(yàn)和描述較為詳盡,適合放在商品頁(yè)面更顯眼的位置,能有效提升瀏覽用戶對(duì)商品的了解。同時(shí),自動(dòng)提取評(píng)論也能一定程度上減輕商品運(yùn)營(yíng)人員撰寫運(yùn)營(yíng)文案的工作量,尤其是在商品數(shù)量較多的情況下。反之亦如此,如果我們提取負(fù)面情感系數(shù)較高且字?jǐn)?shù)較多的評(píng)論,則可以獲得“深度差評(píng)”,它可以作為商品運(yùn)營(yíng)人員了解用戶負(fù)面反饋的一種有效渠道。

例如下圖的“彈幕”評(píng)論,就是我們自動(dòng)提取的“好評(píng)”:

值得提出的是,目前,鵝漫也在使用騰訊 AI Lab 提供的通用版情感分類接口,它的模型不依賴于分詞,直接以字為單元進(jìn)行建模和訓(xùn)練,情感分類的準(zhǔn)確率非常高,適用范圍更廣。我們通過聯(lián)合使用兩個(gè)不同模型的分類結(jié)果完成更高質(zhì)量的情感分析。

2.未來擴(kuò)展方向

我們從海量的文本評(píng)論中,歸類出了正面和負(fù)面情感的文本數(shù)據(jù),在此基礎(chǔ)上如果再通過針對(duì)商品不同方面(aspect)的評(píng)論的建模乃至句法依存分析(dependency parsing),進(jìn)一步提煉文本的關(guān)鍵信息,就可以獲得用戶的關(guān)鍵表達(dá)意見。從中我們可以獲得比較全面的商品評(píng)價(jià)信息,提煉出商品被大量用戶正面評(píng)價(jià)和負(fù)面評(píng)價(jià)的主要觀點(diǎn),最終可以為運(yùn)營(yíng)人員和商家提供商品改進(jìn)意見和運(yùn)營(yíng)決策指導(dǎo)。實(shí)現(xiàn)真正意義上的基于商品的輿情分析(opinion summary),提煉出用戶的真實(shí)反饋和觀點(diǎn)。

下圖以“我們一直喜歡美麗的手辦”為例,通過詞法依存分析,獲得了詞與詞之間的關(guān)系,進(jìn)而分析出用戶在評(píng)論中傾訴情緒的核心對(duì)象。在下圖的評(píng)論中,用戶對(duì)“手辦”表達(dá)了正面的情感。

詞法關(guān)系的含義:

SBV,主謂關(guān)系

ADV,修飾(狀語(yǔ))

HED,核心

ATT,修飾(定語(yǔ))

RAD,右附加關(guān)系

VOB,直接賓語(yǔ)

結(jié)語(yǔ)

在互聯(lián)網(wǎng)海量信息和數(shù)據(jù)面前,人的力量非常有限并且成本高昂,例如,鵝漫U品評(píng)論情感分類和提取的兩項(xiàng)業(yè)務(wù)需求,就是面向海量文本信息處理的典型任務(wù),如果通過人工完成,執(zhí)行效率極為低下。深度學(xué)習(xí)模型使我們良好地滿足了業(yè)務(wù)訴求。雖然深度學(xué)習(xí)并非完美,但是它所提供的執(zhí)行效率和幫助是顯著的,并在一定的業(yè)務(wù)場(chǎng)景下成為輔助解決業(yè)務(wù)問題的新選擇和新工具。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 騰訊
    +關(guān)注

    關(guān)注

    7

    文章

    1667

    瀏覽量

    49618
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8442

    瀏覽量

    133110
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5516

    瀏覽量

    121588

原文標(biāo)題:QQ賣手辦,用AI分析用戶評(píng)論

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    請(qǐng)問TouchGFX能不能實(shí)現(xiàn)中文文本編輯及顯示?

    目前來看,TouchGFX顯示的中文好像都是固定的。但是如果我串口收到一個(gè)中文unicode的編碼,要將其顯示出來,或者用戶通過鍵盤,編輯任意中文文本的話,要怎么實(shí)現(xiàn)呢?
    發(fā)表于 04-09 08:23

    pyhanlp文本分類與情感分析

    預(yù)測(cè)接口都是線程安全的(被設(shè)計(jì)為不儲(chǔ)存中間結(jié)果,將所有中間結(jié)果放入?yún)?shù)棧中)。情感分析可以利用文本分類在情感極性語(yǔ)料上訓(xùn)練的模型做淺層
    發(fā)表于 02-20 15:37

    如何在java中去除中文文本的停用詞

    1.整體思路第一步:先將中文文本進(jìn)行分詞,這里使用的HanLP-漢語(yǔ)言處理包進(jìn)行中文文本分詞。第二步:使用停用詞表,去除分好的詞中的停用詞。2.中文文本分詞環(huán)境配置使用的HanLP-漢
    發(fā)表于 04-30 09:38

    【推薦體驗(yàn)】騰訊云自然語(yǔ)言處理

    自然語(yǔ)言處理技術(shù)的功勞??梢哉f,只要有大量文本數(shù)據(jù)的應(yīng)用場(chǎng)景,幾乎都涉及到NLP技術(shù),也都可以使用相關(guān)自然語(yǔ)言處理產(chǎn)品的接口來做智能分析。比如:社交媒體上的用戶言論,可以使用騰訊云NLP的情感
    發(fā)表于 10-09 15:28

    LSTM情感識(shí)別在電商評(píng)論分析中的實(shí)踐與應(yīng)用

    基于LSTM情感識(shí)別在電商評(píng)論分析中的實(shí)踐與應(yīng)用
    發(fā)表于 06-02 07:45

    基于AdaBoost_Bayes算法的中文文本分類系統(tǒng)

    基于AdaBoost_Bayes算法的中文文本分類系統(tǒng)_徐凱
    發(fā)表于 01-07 18:56 ?2次下載

    基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型分析文本情感傾向

    文本情感分析是當(dāng)前網(wǎng)絡(luò)輿情分析、產(chǎn)品評(píng)價(jià)、數(shù)據(jù)挖掘等領(lǐng)域的重要任務(wù)。由于當(dāng)前網(wǎng)絡(luò)數(shù)據(jù)的急劇增長(zhǎng),依靠人工設(shè)計(jì)特征或者傳統(tǒng)的自然語(yǔ)言處理語(yǔ)法分析
    發(fā)表于 11-23 15:10 ?11次下載

    基于長(zhǎng)短期記憶模型的多維主題模型

    、數(shù)組以及更高維度的數(shù)據(jù)。該模型首先將微博語(yǔ)句分為多個(gè)層次進(jìn)行分析,縱向以三維長(zhǎng)短期記憶模型( 3D-LSTM)處理詞語(yǔ)及義群的
    發(fā)表于 12-14 15:33 ?1次下載
    基于長(zhǎng)短期記憶<b class='flag-5'>模型</b>的多維主題<b class='flag-5'>模型</b>

    結(jié)合BERT模型中文文本分類算法

    針對(duì)現(xiàn)有中文短文夲分類算法通常存在特征稀疏、用詞不規(guī)范和數(shù)據(jù)海量等問題,提出一種基于Transformer的雙向編碼器表示(BERT)的中文文本分類算法,使用BERT預(yù)訓(xùn)練語(yǔ)言模型對(duì)
    發(fā)表于 03-11 16:10 ?6次下載
    結(jié)合BERT<b class='flag-5'>模型</b>的<b class='flag-5'>中文文本</b>分類算法

    基于神經(jīng)網(wǎng)絡(luò)的中文文本蘊(yùn)含識(shí)別模型

    權(quán)重矩陣,同時(shí)從同義詞詞林知識(shí)庫(kù)中選取詞語(yǔ)相似度特征和上下位特征組成特征向量,并將注意力權(quán)重矩陣、特征冋量與編碼后的文本向量相結(jié)合融入神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練過程,實(shí)現(xiàn)中文文本蘊(yùn)含的增強(qiáng)識(shí)別。實(shí)驗(yàn)結(jié)果表明,與增強(qiáng)序列推
    發(fā)表于 03-12 13:50 ?7次下載
    基于神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>中文文本</b>蘊(yùn)含識(shí)別<b class='flag-5'>模型</b>

    一種針對(duì)中英混合文本的多維度多情感分析方法

    針對(duì)中英混合微博文本情感分析冋題,提岀一種新的多維度多情感分析方法。將中英混合語(yǔ)言文本分別翻譯成
    發(fā)表于 03-16 15:15 ?16次下載
    一種針對(duì)中英混合<b class='flag-5'>文本</b>的多維度多<b class='flag-5'>情感</b><b class='flag-5'>分析</b>方法

    基于循環(huán)卷積注意力模型文本情感分類方法

    和全局信息。文中針對(duì)單標(biāo)記和多標(biāo)記情感分類任務(wù),提出一種循環(huán)卷積注意力模型LSTM-CNN-ATT,LCA)。該模型利用注意力機(jī)制融合卷積神經(jīng)網(wǎng)絡(luò)( Convolutional n
    發(fā)表于 04-14 14:39 ?10次下載
    基于循環(huán)卷積注意力<b class='flag-5'>模型</b>的<b class='flag-5'>文本</b><b class='flag-5'>情感</b>分類方法

    基于BGRU的中文文本情感分析方法

    社交網(wǎng)絡(luò)作為社會(huì)生活不可或缺的一部分,針對(duì)其產(chǎn)生的文本數(shù)據(jù)進(jìn)行情感分析已成為自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn)。鑒于深度學(xué)習(xí)技術(shù)能夠自動(dòng)構(gòu)建文本特征,人們已提出CNN( convoluti
    發(fā)表于 06-15 11:28 ?10次下載

    基于LSTM的表示學(xué)習(xí)-文本分類模型

    分類的關(guān)鍵。為了獲得妤的文本表示,提高文本分類性能,構(gòu)建了基于LSTM的表示學(xué)習(xí)-文本分類模型,其中表示學(xué)習(xí)
    發(fā)表于 06-15 16:17 ?18次下載

    基于LSTM神經(jīng)網(wǎng)絡(luò)的情感分析方法

    情感分析是自然語(yǔ)言處理(NLP)領(lǐng)域的一項(xiàng)重要任務(wù),旨在識(shí)別和提取文本中的主觀信息,如情感傾向、情感強(qiáng)度等。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于
    的頭像 發(fā)表于 11-13 10:15 ?655次閱讀