基于詞句協(xié)同排序的單文檔自動(dòng)摘要算法
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
隨著Web2.0的迅猛發(fā)展,各種用戶原創(chuàng)內(nèi)容爆炸式增長(zhǎng),造成了互聯(lián)網(wǎng)上嚴(yán)重的信息過(guò)載,使得有價(jià)值信息的獲取愈發(fā)困難。自動(dòng)摘要技術(shù)能夠從海量文本中抽取出最為重要的語(yǔ)句,形成高度概括原文主旨的精煉短文,能夠有效地緩解信息過(guò)載。
總體而言,自動(dòng)摘要分為基于抽象的自動(dòng)摘要和基于抽取的自動(dòng)摘要。基于抽象的自動(dòng)摘要受制于自然語(yǔ)言處理的瓶頸,實(shí)現(xiàn)相對(duì)困難。目前主要的研究和應(yīng)用集中在基于抽取的自動(dòng)摘要,又稱節(jié)錄式摘要,計(jì)算文檔中句子的權(quán)重并進(jìn)行排序,從中抽取高權(quán)重語(yǔ)句生成摘要?,F(xiàn)有工作中對(duì)句子權(quán)重的計(jì)算主要分為兩種思路:通過(guò)詞的權(quán)重推測(cè)句子的權(quán)重或通過(guò)句子特征計(jì)算權(quán)重。事實(shí)上,文檔中的詞與句是不可分割的整體,充分考慮詞句之間的協(xié)同關(guān)系有助于進(jìn)一步提高自動(dòng)摘要的質(zhì)量。本文面向單文檔自動(dòng)摘要,將文檔建模為以句子為頂點(diǎn)、句子間的關(guān)聯(lián)為邊的句網(wǎng)絡(luò)圖,以圖排序算法為基礎(chǔ),重新設(shè)計(jì)迭代過(guò)程,在計(jì)算句子權(quán)重時(shí)融入詞對(duì)句子權(quán)重評(píng)分的影響,提出一種詞句協(xié)同排序( Word-Sentence-Rank,WSRank)的自動(dòng)摘要算法。實(shí)驗(yàn)表明,詞的融入有助于進(jìn)一步提高句子權(quán)重計(jì)算的準(zhǔn)確性,提升摘要的質(zhì)量。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%