欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

知識(shí)圖譜的關(guān)鍵技術(shù)和應(yīng)用

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-09-10 09:53 ? 次閱讀

本課程從知識(shí)圖譜的歷史由來開展,講述知識(shí)圖譜與人工智能的關(guān)系與現(xiàn)狀;知識(shí)圖譜輻射至各行業(yè)領(lǐng)域的應(yīng)用;在知識(shí)圖譜關(guān)鍵技術(shù)概念與工具的實(shí)踐應(yīng)用中,本課程也會(huì)講解知識(shí)圖譜的構(gòu)建經(jīng)驗(yàn);以及達(dá)觀在各行業(yè)領(lǐng)域系統(tǒng)中的產(chǎn)品開發(fā)和系統(tǒng)應(yīng)用。

以下是公開課文本版整理

大家晚上好!我是達(dá)觀數(shù)據(jù)的桂洪冠,負(fù)責(zé)達(dá)觀的搜索技術(shù)團(tuán)隊(duì)。非常高興今天晚上能給大家做一個(gè)分享,分享的主題是“知識(shí)圖譜的關(guān)鍵技術(shù)和應(yīng)用”。

達(dá)觀數(shù)據(jù)是一家專注于文本智能處理的人工智能技術(shù)企業(yè),我們?yōu)槠髽I(yè)提供完善的文本挖掘、知識(shí)圖譜、搜索引擎、個(gè)性化推薦的文本智能處理技術(shù)服務(wù)。

言歸正傳,進(jìn)入今天的演講環(huán)節(jié)。今天的演講主題是“知識(shí)圖譜關(guān)鍵技術(shù)與應(yīng)用”,分成幾個(gè)環(huán)節(jié):

一、知識(shí)圖譜的相關(guān)概述;

二、知識(shí)圖譜的基本概念;

三、知識(shí)圖譜行業(yè)方面的應(yīng)用和場(chǎng)景介紹,著重講一下知識(shí)圖譜構(gòu)建的相關(guān)技術(shù);

四、達(dá)觀在知識(shí)圖譜構(gòu)建方面的經(jīng)驗(yàn)、心得和相關(guān)案例。

最后是與大家的Q&A互動(dòng)環(huán)節(jié)。

▌一、知識(shí)圖譜的概述

我們先直觀的來看一下什么是知識(shí)圖譜,下面有一張圖,從這張圖里可以看到,這個(gè)圖里圓圈是節(jié)點(diǎn),節(jié)點(diǎn)之間有一些帶箭頭的邊來連成,這個(gè)節(jié)點(diǎn)實(shí)際上相當(dāng)于知識(shí)圖譜里的實(shí)體或者概念,邊連線表示實(shí)體之間的關(guān)系。

知識(shí)圖譜本質(zhì)上是一種大型的語義網(wǎng)絡(luò),它旨在描述客觀世界的概念實(shí)體事件以及及其之間的關(guān)系。以實(shí)體概念為節(jié)點(diǎn),以關(guān)系為邊,提供一種從關(guān)系的視角來看世界。

語義網(wǎng)絡(luò)已經(jīng)不是什么新鮮事,早在上個(gè)世紀(jì)就已經(jīng)出現(xiàn)了,但為什么重新又提到知識(shí)圖譜?

知識(shí)圖譜本質(zhì)上是一種語義網(wǎng)絡(luò),但是它最主要的特點(diǎn)是一個(gè)非常大規(guī)模的語義網(wǎng)絡(luò),之前的語義網(wǎng)絡(luò)受限于我們處理的方法,更多是依賴于專家的經(jīng)驗(yàn)規(guī)則去構(gòu)建,在規(guī)模方面受限于特定領(lǐng)域的數(shù)據(jù)。大規(guī)模網(wǎng)絡(luò),谷歌在2012年首先提出知識(shí)圖譜的概念,在freebase的基礎(chǔ)上擴(kuò)展了大量來自互聯(lián)網(wǎng)的實(shí)體數(shù)據(jù)和關(guān)系數(shù)據(jù)。據(jù)說目前實(shí)體的數(shù)據(jù)已經(jīng)達(dá)到數(shù)十億級(jí),有達(dá)到千億級(jí)的實(shí)例關(guān)系,規(guī)模是非常巨大的。

我們?cè)倏匆幌?,知識(shí)圖譜背后是怎么表示的,我們看到的是一個(gè)巨大的語義網(wǎng),背后是怎么存儲(chǔ)或者表示的呢?

首先,它是由三元組構(gòu)成的,構(gòu)成知識(shí)圖譜的核心其實(shí)就是三元組,三元組是由實(shí)體、屬性和關(guān)系組成的(由Entity、Attribute、Relation組成)。

具體表示方法為,實(shí)體1跟實(shí)體2之間有某種關(guān)系,或者是實(shí)體屬性、屬性詞。

舉個(gè)例子,“達(dá)觀數(shù)據(jù)是一家人工智能公司”,其實(shí)就可以表示成這樣的三元組:

<達(dá)觀數(shù)據(jù),is-a,人工智能公司>。

“人工智能公司是一種高科技公司”可以表示成:

<人工智能公司,subclass,高科技公司>。

“達(dá)觀數(shù)據(jù)成立于2015年”,也可以把這個(gè)屬性表示成一個(gè)三元組,就是:

<達(dá)觀數(shù)據(jù),start-time,2015年>。

基于已有的三元組,它可以推導(dǎo)出新的關(guān)系,這個(gè)對(duì)構(gòu)建知識(shí)圖譜來說是非常重要的。我們知道,知識(shí)圖譜要有豐富的實(shí)體關(guān)系,才能真正達(dá)到它實(shí)用的價(jià)值。完全靠人工去做的話是不太現(xiàn)實(shí)的,所以內(nèi)部一定有一個(gè)自動(dòng)推理的機(jī)制,可以不斷的去推理出新的關(guān)系數(shù)據(jù)出來,不斷的豐富知識(shí)圖譜。

來看一些具體的例子。

“人工智能公司是一種高科技公司”,subclass的關(guān)系。

還有一個(gè)三元組是谷歌是一家人工智能公司,,可以由這兩個(gè)三元組推導(dǎo)出谷歌是一家高科技公司,。因?yàn)閟ubclass的實(shí)例之間是一種繼承的關(guān)系。

<翅膀part-of鳥>,<麻雀kind-of鳥>,可以推導(dǎo)出<翅膀part-of麻雀>。

為什么要用三元組來描述知識(shí)圖譜?

三元組是一個(gè)人和計(jì)算機(jī)都易于理解的結(jié)構(gòu),人是可以解讀的,計(jì)算機(jī)也可以通過三元組去處理,所以它是一個(gè)既容易被人類解讀,又容易被計(jì)算機(jī)來處理和加工的結(jié)構(gòu),而且它也足夠的簡(jiǎn)單,如果說你擴(kuò)充成四元組、五元組,它整個(gè)結(jié)構(gòu)就會(huì)變得比較復(fù)雜,那是綜合的一種復(fù)雜性和人的易理解性、和計(jì)算機(jī)的易出理性來綜合的考慮,決定用三元組的結(jié)構(gòu)來去作為它的一個(gè)存儲(chǔ)。

那么,AI為什么需要知識(shí)圖譜?

人工智能分為三個(gè)階段,從機(jī)器智能到感知智能,再到認(rèn)知智能。

機(jī)器智能更多強(qiáng)調(diào)這些機(jī)器的運(yùn)算的能力,大規(guī)模的集群的處理能力,GPU的處理的能力。

在這個(gè)基礎(chǔ)之上會(huì)有感知智能,感知智能就是語音識(shí)別、圖像識(shí)別,從圖片里面識(shí)別出一個(gè)貓,識(shí)別人臉,是感知智能。感知智能并非人類所特有,動(dòng)物也會(huì)有這樣的一些感知智能。

再往上一層的認(rèn)知智能,是人類所特有的,是建立在思考的基礎(chǔ)之上的,認(rèn)知的建立是需要思考的能力,而思考是建立在知識(shí)的基礎(chǔ)之上,必須有知識(shí)的基礎(chǔ)、有一些常識(shí),才能建立一些思考,形成一個(gè)推理機(jī)制。

AI需要從感知智能邁向認(rèn)知智能,本質(zhì)上知識(shí)是一個(gè)基礎(chǔ),然后基于知識(shí)的推理,剛好知識(shí)圖譜其實(shí)是具備這樣的一個(gè)屬性。

知識(shí)圖譜其實(shí)是富含有實(shí)體、屬性、概念、事件和關(guān)系等信息,它能夠基于一定的推理。且比較關(guān)鍵的是,它能夠基于一定的推理為AI的可解釋性,帶來全新的一個(gè)視角。

可解釋性已被一些領(lǐng)域AI大規(guī)模使用,比如醫(yī)療領(lǐng)域,AI進(jìn)行癌癥的診斷的結(jié)果,如果沒有給出一個(gè)合理的一個(gè)理由,或者是給出一個(gè)解釋的一個(gè)方法,醫(yī)生是不敢貿(mào)然的用AI給出的癌癥診斷的結(jié)果去給病人直接做下一步的措施。包括金融領(lǐng)域也一樣,AI如果給投資人推薦了一個(gè)投資的方案,但是沒有給出任何的一個(gè)解釋跟說明的話,也會(huì)存在巨大的一個(gè)風(fēng)險(xiǎn)。同樣,在司法領(lǐng)域也是一樣,用AI進(jìn)行判案,AI給一個(gè)案件判定一個(gè)結(jié)果,但是沒有給出任何的一個(gè)解釋,也是不能作為結(jié)果來采用的,因?yàn)樗痉◤?qiáng)調(diào)的就是一種可解釋性,對(duì)法律的解釋性、可推理性。

為什么說知識(shí)圖譜可以做這樣一個(gè)可解釋性呢?

舉個(gè)例子,我們問“C羅為什么那么牛?”

C羅為什么那么牛?這個(gè)是一個(gè)問題,要解釋回答這個(gè)問題,人通常是怎么樣去回答這樣的問題呢?上圖,通過知識(shí)圖譜的簡(jiǎn)單的推理,就可以回答這樣一個(gè)問題,因?yàn)镃羅獲得過金球獎(jiǎng),C羅跟金球獎(jiǎng)之間的關(guān)系是獲得獎(jiǎng)項(xiàng)的一個(gè)關(guān)系,金球獎(jiǎng)跟影響力最大的足球評(píng)選獎(jiǎng)項(xiàng)之一有這樣一個(gè)地位的關(guān)系,它具有這樣的一個(gè)非常高的地位,C羅又獲得過這個(gè)獎(jiǎng)項(xiàng),所以可以得出,C羅是很牛的。這是一種知識(shí)圖譜來解釋、來回答這樣一個(gè)“為什么”的一個(gè)問題。

同樣還有一些問題,比如,“鱷魚為什么那么可怕?”

人類是有一樣這樣的常識(shí),所有的大型的食肉動(dòng)物都是很可怕,這是個(gè)常識(shí)。鱷魚是一種大型的食薄動(dòng)物,鱷魚跟大型食肉動(dòng)物概念之間是一種instance的關(guān)系。通過這樣的一個(gè)常識(shí)和概念之間的關(guān)系,可以推導(dǎo)出鱷魚是很可怕的。同樣的,“鳥兒為什么會(huì)飛?”因?yàn)樗谐岚?,鳥兒這個(gè)實(shí)體它的屬性是有翅膀,利用一個(gè)實(shí)體跟屬性之間的關(guān)系,可以做這樣一個(gè)推理。

之前微博上關(guān)曉彤跟鹿晗非常的火,經(jīng)常被刷屏,這是為什么?

因?yàn)殛P(guān)曉彤跟鹿晗之間是男女朋友這樣的關(guān)系,明星之間的男女朋友的關(guān)系就最容易被大家追捧,也最容易被刷屏。這個(gè)就是通過關(guān)系也好,通過實(shí)體的屬性也好,通過實(shí)體的概念也好,就可以去解釋、去回答一些問題。這些是知識(shí)圖譜在AI在可解釋性方面的一些具體的例子。

深度學(xué)習(xí)的可解釋性非常差的,深度學(xué)習(xí)里面內(nèi)部的語義表達(dá)、向量的表達(dá)都是一些浮點(diǎn)數(shù),人類是非常難以理解的。深度學(xué)習(xí)出來的結(jié)果,它的可解釋性也是非常少的。

盡管我們現(xiàn)在在研究可視化的技術(shù),把中間的它的結(jié)果呈現(xiàn)出來、可視化出來,但是真正能達(dá)到對(duì)人有效的解釋性進(jìn)展還是比較緩慢的。知識(shí)圖譜實(shí)際上是有望能夠消除人類的自然語言跟深度學(xué)習(xí)黑盒之間的語義鴻溝。也就是深度學(xué)習(xí)的底層的特征空間和上層的人的自然語言空間這種巨大的語義鴻溝,通過深度學(xué)習(xí)跟知識(shí)圖譜結(jié)合起來,有望能夠消除。這也是為什么AI要結(jié)合知識(shí)圖譜的一個(gè)原因。

▌二、知識(shí)圖譜的典型行業(yè)應(yīng)用介紹

1. 金融行業(yè)的應(yīng)用。

知識(shí)圖譜在金融行業(yè)里面比較典型的應(yīng)用就是風(fēng)控反欺詐。

(1). 知識(shí)圖譜可以進(jìn)行信息的不一致性檢查,來確定是不是存在可能的借款人欺詐的風(fēng)險(xiǎn),比如第一個(gè)圖里面的借款人甲和乙來自于不同的公司,但是他卻非常詭異地留下了相同的公司的電話號(hào)碼,這時(shí)審核人員就要格外留意了,有可能會(huì)存在欺詐的風(fēng)險(xiǎn)。

(2). 組團(tuán)欺詐,甲乙丙三個(gè)借款人同一天向銀行發(fā)起借款,他們是互不相關(guān)的人,但是他們留了相同的地址,這時(shí)有可能是組團(tuán)的欺詐。

(3). 靜態(tài)的異常檢測(cè),它表示的是在某個(gè)時(shí)間點(diǎn)突然發(fā)現(xiàn)圖中的某幾個(gè)節(jié)點(diǎn)的聯(lián)系異常的緊密,原來是互相聯(lián)系都比較少、比較松散的,突然間有幾個(gè)點(diǎn)之間密集的聯(lián)系,有可能會(huì)出現(xiàn)欺詐組織。

(4). 動(dòng)態(tài)的異常檢測(cè)(第二行中間圖),是隨著時(shí)間的變化,它的幾個(gè)節(jié)點(diǎn)之間圖的結(jié)構(gòu)發(fā)生明顯的變化,原來它是比較穩(wěn)定的,左邊黑色的上三角、下三角,然后中間連線,但過了一段時(shí)間之后,它整個(gè)圖的結(jié)構(gòu)變成了右邊的這樣結(jié)構(gòu),此時(shí)很可能是異常的關(guān)系的變化,會(huì)出現(xiàn)一個(gè)欺詐組織。

(5). 客戶關(guān)系管理。怎么樣去做失聯(lián)客戶的管理?圖中的例子有一個(gè)借款的用戶,銀行可能現(xiàn)在沒有辦法直接找到他,甚至通過他的直接聯(lián)系人也沒辦法找到他,那這個(gè)時(shí)候是不是可以再進(jìn)一步的通過他的二度聯(lián)系人來間接的來找到他?通過這樣的圖結(jié)構(gòu)是可以快速找到他的二度聯(lián)系人,比如張小三或者是王二,再去聯(lián)系他們,嘗試把李四這個(gè)人給找到。

2.輔助信貸審核和投研分析

左邊是輔助審貸。

知識(shí)圖譜會(huì)融合多個(gè)數(shù)據(jù)源,從多個(gè)維度來維護(hù)關(guān)聯(lián)人員的信息,來避免數(shù)據(jù)不全與數(shù)據(jù)孤島,把它整合到一個(gè)大的網(wǎng)絡(luò)結(jié)構(gòu)里面去,借助知識(shí)圖譜的搜索,審核人員可以快速的獲取到信貸申請(qǐng)人張三的相關(guān)的信息,住址、配偶、就職公司、他的朋友等等。這比原來到各個(gè)異構(gòu)且散落的數(shù)據(jù)源去進(jìn)行搜集的效率要高得多,且能夠從整體上來看到關(guān)鍵實(shí)體相互之間的關(guān)聯(lián)關(guān)系。

第二個(gè)是用于輔助投研的。

知識(shí)圖譜能夠?qū)崟r(shí)地串聯(lián)起來這個(gè)公司相關(guān)的上下游公司,供應(yīng)商的關(guān)系、競(jìng)爭(zhēng)者的關(guān)系、客戶的關(guān)系、投融資那些關(guān)系等,然后進(jìn)行快速實(shí)時(shí)的定位。中信通訊這家公司前不久被美國政府進(jìn)行合規(guī)性審查,這個(gè)時(shí)候投研人員通過知識(shí)圖譜搜索到中興通訊公司實(shí)體,進(jìn)而可以非??斓氐玫礁信d通訊相關(guān)的上下游公司實(shí)體,包括關(guān)聯(lián)的子公司、供應(yīng)商、客戶、競(jìng)爭(zhēng)對(duì)手、合作伙伴,有助于投研人員快速的做決策。

3.精準(zhǔn)營銷應(yīng)用

知識(shí)圖譜能夠比較全面的記錄客戶的非常詳細(xì)的信息,包括名字,住址,經(jīng)常和什么樣的人進(jìn)行互動(dòng),還認(rèn)識(shí)其它什么樣的人,網(wǎng)上的行為習(xí)慣、行為方式是什么樣的,這樣就可以知識(shí)圖譜挖掘出更多的用戶的屬性標(biāo)簽和興趣標(biāo)簽,以及社會(huì)的屬性標(biāo)簽,形成全面的用戶洞察,基于知識(shí)圖譜就可以進(jìn)行個(gè)性化的商品或者活動(dòng)的推送,或者基于用戶的分群分組做定向營銷,從而實(shí)現(xiàn)精準(zhǔn)營銷。

4. 知識(shí)圖譜在搜索引擎里面的應(yīng)用,最典型的就是在谷歌搜索引擎里面應(yīng)用。

谷歌是在2012年率先提出來知識(shí)圖譜的概念。提出這個(gè)概念的最主要的目的就是改善它的搜索引擎的體驗(yàn)。從這個(gè)圖就可以看到,用戶搜索的是泰姬陵,泰姬陵是印度的非常著名的,也是世界八大奇跡之一的景點(diǎn)。

不一樣的地方,在搜索引擎的右側(cè),會(huì)以知識(shí)卡片的形式來呈現(xiàn)跟泰姬陵相關(guān)的結(jié)構(gòu)化的信息,包括泰姬陵的地圖、圖片、景點(diǎn)的描述、開放時(shí)間門票等等,甚至在下面會(huì)列出跟泰姬陵相類似或者相關(guān)聯(lián)的景點(diǎn),比如中國的萬里長城,同樣是世界的幾大奇跡,還有金字塔等等。同時(shí),它還可以進(jìn)行知識(shí)的擴(kuò)展,比如泰姬陵不光是印度的景點(diǎn),它還可以是一張音樂專輯,它甚至是國外某城市的街區(qū)街道。這樣通過知識(shí)圖譜可以不斷的去探索發(fā)現(xiàn)新的非常新奇的東西,讓用戶在搜索引擎里面能夠不斷的去進(jìn)行知識(shí)的關(guān)聯(lián)和發(fā)現(xiàn),激發(fā)起用戶的搜索的欲望。原來我們搜索引擎講究的是說快速的找到它的結(jié)果,然后關(guān)掉就完了,谷歌通過知識(shí)圖譜,實(shí)際上是把搜索引擎變成了知識(shí)的探索和發(fā)現(xiàn)引擎,這是概念和理念上的非常大的變遷與升級(jí)。

5.知識(shí)圖譜應(yīng)用于推薦系統(tǒng)

我們比較熟悉的是個(gè)性化推薦,即所謂的千人千面,比如根據(jù)游戲來推薦游戲的道具。對(duì)于小白用戶和骨灰級(jí)的用戶,推薦的東西顯然是不一樣的,這是個(gè)性化的推薦。個(gè)性化推薦之外,還有場(chǎng)景化的推薦,比如用戶購買了沙灘鞋,存在用戶可能要去海邊度假這樣的場(chǎng)景,基于這樣的場(chǎng)景可以繼續(xù)給他推薦游泳衣、防曬霜或者其它的海島旅游度假的產(chǎn)品。

任務(wù)型的推薦。比如用戶買了牛肉卷或者羊肉卷,假設(shè)他實(shí)際上是要為了做一頓火鍋。,這時(shí)候系統(tǒng)可以給他推薦火鍋底料或者是電磁爐。

冷啟動(dòng)問題。推薦系統(tǒng)的冷啟動(dòng)一直是比較難以處理的問題,通常的做法是根據(jù)新用戶的設(shè)備類型,或者他當(dāng)前的時(shí)間位置等等,或者外面的關(guān)聯(lián)數(shù)據(jù)來做推薦??梢曰谥R(shí)圖譜的語義關(guān)聯(lián)標(biāo)簽進(jìn)行推薦,比如旅游和攝影實(shí)際上是語義相近的兩個(gè)標(biāo)簽,再比如相同的導(dǎo)演或者相同演員的電影在語義上也是比較相近的。

跨領(lǐng)域的推薦問題。微博的信息流里會(huì)推薦淘寶的商品,然而微博和淘寶是兩個(gè)不同的領(lǐng)域,它是怎么做到的呢?新浪微博有些用戶會(huì)經(jīng)常去曬黃山、九寨溝、泰山等這些照片,這個(gè)時(shí)候我們就知道他有可能是一位登山的愛好者,這個(gè)時(shí)候淘寶就會(huì)可以給他推薦登山的裝備,登山杖、登山鞋等等這些裝備,利用這些背景知識(shí),能夠打通不同的平臺(tái)之間的語義鴻溝。

知識(shí)型的推薦,是基于知識(shí)的。比如清華大學(xué)、北京大學(xué)都是頂級(jí)名校,復(fù)旦大學(xué)也同樣是,這個(gè)時(shí)候是可以推薦復(fù)旦大學(xué),再比如百度、阿里和騰訊都屬于BAT級(jí)互聯(lián)網(wǎng)公司,基于百度、阿里就可以推薦騰訊。

有了知識(shí)圖譜以后,我們可以從基于行為的推薦,發(fā)展到行為跟語義相融合的智能推薦。

▌三、如何構(gòu)建知識(shí)圖譜

構(gòu)建知識(shí)圖譜是包括這樣的生命周期或這樣的部分,包括定義、知識(shí)的抽取、知識(shí)的融合、存儲(chǔ)、知識(shí)的推理、知識(shí)的應(yīng)用,這樣的循環(huán)迭代的過程。

我們先來理解一下本體的概念,本體是用于描述事物的本質(zhì)的,維基百科里面對(duì)于計(jì)算機(jī)科學(xué)領(lǐng)域當(dāng)中的本體給出的定義是這樣的,即:對(duì)于特定領(lǐng)域真實(shí)存在的實(shí)體的類型、屬性,以及它們之間的相互關(guān)系的一種定義。

我們?cè)賮砜纯粗R(shí)圖譜和本體的關(guān)系,下面這張圖,我們看到有兩個(gè)層,就下面是本體層,上面是事實(shí)層,那本體層是基于特定領(lǐng)域的概念的定義,包括概念的屬性,概念之間的關(guān)系,一般概念之間的關(guān)系是一種父子關(guān)系,也有叫做上下位的關(guān)系。事實(shí)層是具體的真實(shí)存在的實(shí)體,包括實(shí)體的屬性以及實(shí)體之間的關(guān)系,每個(gè)實(shí)體都會(huì)映射到本體層相應(yīng)的概念。面向?qū)γ娲蠹叶急容^熟悉,給大家舉例說明一下,本體層的概念就好比面向?qū)ο罄锩娴念惖母拍?,然后事?shí)層的實(shí)體就好比面向?qū)ο罄锩娴膶?duì)象,對(duì)象是從類當(dāng)中派生出來的,同時(shí)繼承了類的一些屬性和關(guān)系。這就是本體的概念。

為什么要講本體的概念?一個(gè)更直觀的例子,就是要對(duì)知識(shí)圖譜來進(jìn)行模式或者Schema的定義。這里的領(lǐng)域是科技,在這科技領(lǐng)域下面是我們劃分的若干個(gè)主題,比如互聯(lián)網(wǎng)主題、通訊主題、手機(jī)主題,在每個(gè)主題下面又有若干的概念,就是下面的概念層,比如互聯(lián)網(wǎng)里面有深度學(xué)習(xí)、人工智能等等這些概念,然后通訊里面有智能手機(jī)這些概念。在概念下面就是具體的事實(shí)層面,就是實(shí)體層,比如特斯拉modelS、蘋果iPhone7、華為P10等等,這些都是具體的實(shí)體,然后實(shí)體之間有關(guān)系,它繼承的概念之間的關(guān)系。最下面一層是事件層,這就是整個(gè)本體層的例子。

給大家介紹一款比較好的開源本體編輯工具,叫Protégé。這個(gè)工具是斯坦福大學(xué)開源的,它的功能非常強(qiáng)大,也是目前最流行的本體編輯工具,有網(wǎng)頁版和桌面版,桌面版是免安裝的,大家直接下載下來就可以試用。

它的好處是什么?它屏蔽了具體的本體描述語言,用戶只需要在概念層次上面進(jìn)行本體的模型構(gòu)建,同時(shí)也比較靈活,能夠支持各種插件來擴(kuò)展特定的功能。比如推理的功能可以基于插件來擴(kuò)展。不過這個(gè)工具對(duì)中文的支持不是很友好。

下面一個(gè)非常重要的關(guān)鍵的步驟就是知識(shí)的抽取,首先要抽取實(shí)體,然后是實(shí)體之間的關(guān)系。我們看一下NER實(shí)體的抽取,我們知道NER可以轉(zhuǎn)化為序列標(biāo)注的問題,傳統(tǒng)的機(jī)器學(xué)習(xí)的方法,CRF等都可以做,而且CFR做的效果還是不錯(cuò)的。不過CRF通常只能學(xué)習(xí)到相鄰詞位置比較近的上下文的特征,它無法獲取整個(gè)句子甚至更長的上下文的特征。

目前業(yè)界比較主流的,包括學(xué)術(shù)界比較主流的一種做法是什么?是深度循環(huán)神經(jīng)網(wǎng)絡(luò)加上結(jié)合CRF,這樣的做法更多的是雙向的循環(huán)神經(jīng)網(wǎng)絡(luò),它可以分別從前往后以及從后往前這兩個(gè)方向來去學(xué)習(xí)上下文的特征,然后進(jìn)行序列信號(hào)的記憶和傳遞,這是一種比較常見的做法。

華為發(fā)布了新一代的麒麟處理,通過從前往后就可以推理出最后面的文字,然后從后往前也可以推理出最前面的文字,第一個(gè)字“朝”實(shí)際上是從后往前去進(jìn)行預(yù)測(cè)推理。頂層用CRF對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)果進(jìn)行約束就可以,對(duì)這個(gè)輸出進(jìn)行更好的控制。然后輸入層通常是詞向量或者字向量,embedding能可以把單個(gè)字或者詞轉(zhuǎn)化為低維的稠密的語義向量。

下面講一下關(guān)系抽取的技術(shù)。它有幾種方法,第一種是基于有監(jiān)督的方法,把關(guān)系抽取當(dāng)做分類問題來看待,根據(jù)訓(xùn)練數(shù)據(jù)設(shè)計(jì)有效的特征,來學(xué)習(xí)各種分類模型,這是傳統(tǒng)的分類。這個(gè)方法不好的地方,是需要大量的人工標(biāo)注的訓(xùn)練語料,語料的標(biāo)注是非常的耗時(shí)耗力的。所以在有監(jiān)督的基礎(chǔ)上,又提出了一種半監(jiān)督的方式,半監(jiān)督的方式主要采用方式進(jìn)行關(guān)系的抽取,具體來說就是要對(duì)于要抽取的關(guān)系,首先基于手工設(shè)定若干的種子的實(shí)例,然后迭代性的從數(shù)據(jù)當(dāng)中抽取關(guān)系對(duì)應(yīng)的關(guān)系模板和更多的實(shí)例,通過不斷迭代的方式來抽取越來越多的這些實(shí)例。

還有一種是無監(jiān)督的方法。無監(jiān)督的方法本質(zhì)上是一種聚類的方法,用擁有相同語義關(guān)系的實(shí)體,它擁有相似上下文的信息是它的假設(shè),因此它可以利用每個(gè)實(shí)體的上下文的信息來代表實(shí)體的語義關(guān)系,對(duì)實(shí)體進(jìn)行語義關(guān)系的聚類。

這三種方法當(dāng)中,有監(jiān)督的方法能夠抽取出有效的特征,然后在準(zhǔn)確率和召回率方面是更有優(yōu)勢(shì)的,半監(jiān)督和無監(jiān)督的方法一般情況下,效果都不是特別的好,所以業(yè)界現(xiàn)在用的比較多的還是有監(jiān)督的學(xué)習(xí)的方法。

我們剛剛提到有監(jiān)督學(xué)習(xí)方法,比較困難的地方就是怎么樣獲取大量分類的訓(xùn)練樣本,完全通過人工去標(biāo)注的方式顯然不是比較好的方式。

有什么樣好的處理的方法?用遠(yuǎn)程監(jiān)督的一種方法,典型的工具Deepdive,也是斯坦福大學(xué)InfoLab實(shí)驗(yàn)室開源的知識(shí)抽取的系統(tǒng),通過弱監(jiān)督學(xué)習(xí)的方法,從非結(jié)構(gòu)化的文本當(dāng)中可以抽取出結(jié)構(gòu)化的關(guān)系的數(shù)據(jù)。開發(fā)者不需要理解它里面的具體的算法,只要在概念層次進(jìn)行思考基本的特征就可以了,然后也可以使用已有的領(lǐng)域知識(shí)進(jìn)行推理,也能夠?qū)τ脩舻姆答佭M(jìn)行處理,可以進(jìn)行實(shí)時(shí)反饋的一種機(jī)制,這樣能夠提高整個(gè)預(yù)測(cè)的質(zhì)量。背后用的是也是一種遠(yuǎn)程監(jiān)督的技術(shù),只要少量的運(yùn)訓(xùn)練的數(shù)據(jù)就可以了。

我們來具體來看一下它是怎么樣來做這樣一件事情的。首先,下面看到Mention的句子就是“奧巴馬和米歇爾結(jié)婚”,它是句子,但Mention就是這些詞的標(biāo)記,奧巴馬米歇爾都是Mention,我們要推測(cè)它之間是不是配偶的關(guān)系。這個(gè)時(shí)候要對(duì)Mention:奧巴馬和米歇爾,去對(duì)應(yīng)到知識(shí)圖譜里面具體的實(shí)體,看一下這兩個(gè)實(shí)體在知識(shí)圖譜里面是不是存在著配偶的關(guān)系?如果是的話,就把它拿過來作為正的訓(xùn)練樣本,如果不是,它就是負(fù)的樣本。前提假設(shè)就是知識(shí)圖譜里面的它的實(shí)體之間的關(guān)系都是正確的,以這個(gè)為依據(jù),去做樣本的標(biāo)注。

目前進(jìn)行實(shí)體關(guān)系抽取有兩大類方法,有一類是基于流水線式的抽取,輸入一個(gè)句子,首先抽取這實(shí)體,再對(duì)實(shí)體進(jìn)行兩兩組合,然后再進(jìn)行分類,最后識(shí)別出實(shí)體之間的關(guān)系。這種做法是有缺點(diǎn)的,第一,它容易造成錯(cuò)誤的傳播,比如在第一步的時(shí)候,實(shí)體如果識(shí)別錯(cuò)誤了,后面的關(guān)系肯定也是錯(cuò)誤的。第二,會(huì)產(chǎn)生沒有必要冗余的信息,因?yàn)橐獙?duì)實(shí)體進(jìn)行兩兩的配對(duì),然后再進(jìn)行關(guān)系的分類,很多配對(duì)之間實(shí)際上就沒有這樣的關(guān)系,就是它會(huì)帶來了這樣非常多的冗余的信息,錯(cuò)誤率也會(huì)被放大、被提升。

現(xiàn)在用的比較多的另一種方法,是聯(lián)合學(xué)習(xí)的方法,輸入一個(gè)句子,通過實(shí)體識(shí)別和關(guān)系抽取的聯(lián)合模型,可以直接得到有效的三元組。通常我們是基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合標(biāo)注的學(xué)習(xí)的方法,里面涉及到兩個(gè)關(guān)鍵的工作,一個(gè)是模型的參數(shù)共享的問題,還有一個(gè)就是標(biāo)注策略,怎么樣進(jìn)行有效的標(biāo)注。模型共享是指的是在實(shí)體訓(xùn)練的時(shí)候能夠進(jìn)行實(shí)體識(shí)別和關(guān)系分類這兩個(gè)任務(wù),都會(huì)通過反向傳播來匹配來進(jìn)行關(guān)系的分類,然后同時(shí)來實(shí)現(xiàn)這兩個(gè)參數(shù)之間的依賴,兩個(gè)子任務(wù)之間的依賴。參數(shù)共享的方法,它本質(zhì)上還是兩個(gè)子任務(wù),只是說它們這兩個(gè)任務(wù)之間通過參數(shù)共享有了交互,而且在訓(xùn)練的時(shí)候還要預(yù)先進(jìn)行實(shí)體識(shí)別,識(shí)別實(shí)體之后再根據(jù)預(yù)測(cè)信息進(jìn)行兩兩匹配,來進(jìn)行關(guān)系的分類,所以仍然會(huì)產(chǎn)生無關(guān)系時(shí)候冗余的信息存在。

現(xiàn)在我們新提出了一種端到端序列標(biāo)注的策略,把原來涉及到序列標(biāo)注和分類的兩個(gè)任務(wù)變成了完全的端到端的序列標(biāo)注的問題,通過端到端的神經(jīng)網(wǎng)絡(luò)模型,可以直接得到關(guān)系的三元組,即實(shí)體關(guān)系的三元組。

新的標(biāo)注策略是像下面這張圖里面有三個(gè)部分來組成的,第一部分是實(shí)體中的詞的位置,比如b是表示開始,i表示是在實(shí)體的內(nèi)部,e表示是實(shí)體的結(jié)尾,s表示是單個(gè)的實(shí)體。第二部分就是關(guān)系類型的信息,預(yù)定義的關(guān)系類型的編碼,比如里面的CP、CF,CP是國家總統(tǒng),CF是公司創(chuàng)立者,這樣兩種的關(guān)系。還有實(shí)體的角色的信息,它表示是實(shí)體1還是實(shí)體2?實(shí)體跟關(guān)系之外的其它的這些字符都用O來表示,這樣就進(jìn)行了實(shí)體的標(biāo)注。

接下來我們講一下實(shí)體的融合,這里最主要就是實(shí)體的對(duì)齊。

首先是實(shí)體對(duì)齊,也叫實(shí)體歸一化,是把具有不同的標(biāo)識(shí)的實(shí)體,但是在現(xiàn)實(shí)世界當(dāng)中可能是表達(dá)同樣意思的,把它做歸一化。比如中華人民共和國、中國和China,這個(gè)三個(gè)指的是同一實(shí)體,盡管它的表述方式不一樣,就把它歸一化為具有全局唯一標(biāo)識(shí)的實(shí)例對(duì)象,然后添加到知識(shí)圖譜當(dāng)中去。

現(xiàn)在實(shí)體對(duì)齊普遍采用的還是一種聚類的方法,關(guān)鍵在于定義合適的相似度的閾值,一般從三個(gè)維度來依次來考察的,首先會(huì)從字符的相似度的維度,基于的假設(shè)是具有相同描述的實(shí)體更有可能代表同實(shí)體。第二個(gè)維度,是從屬性的相似度的維度來看的,就是具有相同屬性的和以及屬性詞的這些實(shí)體,有可能會(huì)代表是相同的對(duì)象。第三個(gè)維度,是從結(jié)構(gòu)相似度的維度來看,基于的假設(shè)是具有相同鄰居的實(shí)體更有可能指向同對(duì)象。

進(jìn)行融合的時(shí)候要考慮各個(gè)數(shù)據(jù)源的數(shù)據(jù)的可靠性,以及在各個(gè)不同數(shù)據(jù)源當(dāng)中出現(xiàn)的頻度來綜合決定選用哪個(gè)類別或者哪個(gè)屬性詞。還有一種方法就是是用來自LD(LinkedData),LD是很多人工標(biāo)記好的數(shù)據(jù),是非常準(zhǔn)確的,其中有種關(guān)聯(lián)叫owl:sameAs,它表示前后兩個(gè)是同實(shí)體的,利用這個(gè)作為訓(xùn)練數(shù)據(jù)來發(fā)現(xiàn)更多相同的實(shí)體對(duì),是比較好的方法。最后要說的是,無論用哪種方法,都不能保證百分之百的準(zhǔn)確率,所以最后也要有人工審核和過濾。

知識(shí)存儲(chǔ),就是如何選擇數(shù)據(jù)庫,從選擇層面,我們有圖數(shù)據(jù)庫,有NoSQL的數(shù)據(jù)庫,也有關(guān)系型數(shù)據(jù)庫,數(shù)據(jù)庫有很多選擇。具體什么樣的情況下選擇什么樣的數(shù)據(jù)庫?通常是如果說知識(shí)圖譜的關(guān)系結(jié)構(gòu)非常的復(fù)雜、關(guān)系非常的多,這時(shí)候建議使用這個(gè)圖數(shù)據(jù)庫,比如Neo4J這樣的數(shù)據(jù)庫。另外一種就是它的關(guān)系并不是很復(fù)雜,關(guān)系可能也就是1度、2度的關(guān)系,更多的它是有非常多的屬性的數(shù)據(jù),這個(gè)時(shí)候可以考慮關(guān)系式數(shù)據(jù)庫,或者是ES這樣的存儲(chǔ)。如果要考慮到知識(shí)圖譜的性能、可擴(kuò)展性、可分布式,是可以結(jié)合NoSQL的數(shù)據(jù)庫,比如TiTan。根據(jù)實(shí)際的情況,一般是綜合起來使用的,根據(jù)我們的經(jīng)驗(yàn),我們會(huì)結(jié)合Neo4J和ES來綜合來使用,同時(shí)還結(jié)合這關(guān)系型數(shù)據(jù)庫MySQL等等,根據(jù)不同的數(shù)據(jù)的特點(diǎn)來進(jìn)行選型,而不是說一味的追求圖數(shù)據(jù)庫。

順便了解一下目前主流的幾款圖數(shù)據(jù)庫,Titan、Graph Engine、Neo4J這個(gè)三個(gè)分別都是開源的,然后Titan是Apache旗下的,Graph Engine是MIT的License,Neo4J是GPL開源的,既有商業(yè)版,也有也有開源免費(fèi)版。然后它們的平臺(tái),像Titan是Linux,Graph是windows。而數(shù)據(jù)的支撐量級(jí),像Titan是后端存儲(chǔ),基于Cassandra/Hbase/BDB這樣的分布式存儲(chǔ)引擎,可以支持更大的數(shù)據(jù)量,千億級(jí)的數(shù)據(jù)量級(jí);Neo4J商業(yè)版也可以支持到百億級(jí)的,但是它的非商業(yè)版在數(shù)據(jù)量級(jí)比較大的時(shí)候,一般是在幾千萬級(jí)的時(shí)候就可能會(huì)出現(xiàn)一些問題。

再看一下知識(shí)推理,知識(shí)推理這邊有幾種方法,首先是基于符號(hào)推理,我們上面說的三元組的結(jié)構(gòu),比如左邊的RDF,有概念,然后基于概念符號(hào)進(jìn)行推理。

這個(gè)是基于OWL進(jìn)行本體推理的例子,這個(gè)背后是基于OWL本體的推理,最常見的OWL推理工具是Jena, Jena 2支持基于規(guī)則的簡(jiǎn)單推理,它的推理機(jī)制支持將推理器(inference reasoners)導(dǎo)入Jena,創(chuàng)建模型時(shí)將推理器與模型關(guān)聯(lián)以實(shí)現(xiàn)推理。

還有一種是基于圖(PRA)的推理的方法,更直觀的一種方法,思想是比較簡(jiǎn)單的,就是以連接兩個(gè)實(shí)體的已有路徑作為特征構(gòu)建分類器,來預(yù)測(cè)它們之間可能存在的潛在關(guān)系。

比如左邊這個(gè)圖里面Charlotte Bronte,我們要預(yù)測(cè)他的職業(yè)是不是作家。在這個(gè)圖里面已知存在關(guān)系是什么呢?他寫過一篇小說,它寫過一篇小說Jane Eyre,然后雙城記也是一部小說,狄更斯是寫了雙城記這部小說,狄更斯是作家,同時(shí)它下面還有他的父親職業(yè)也是作家,所以基于這樣圖之間的關(guān)系,就可以較大概率的推理出Charlotte Bronte的職業(yè)很有可能就是作家,這就是基于圖之間的關(guān)系的特征構(gòu)建分類器來進(jìn)行預(yù)測(cè)的。 PRA提取特征的方法主要有隨機(jī)游走、廣度優(yōu)先和深度優(yōu)先遍歷,特征值計(jì)算方法有隨機(jī)游走probability,路徑出現(xiàn)/不出現(xiàn)的二值特征以及路徑的出現(xiàn)頻次等。PRA方法的優(yōu)點(diǎn)是直觀、解釋性好,但缺點(diǎn)也很明顯,有三個(gè)主要缺點(diǎn):首先,很難處理關(guān)系稀疏的數(shù)據(jù),其次,很難處理低連通度的圖,最后,是路徑特征提取的效率低且耗時(shí)。

還有是基于分布式的知識(shí)語義表示的方法,比如像Trans系列的模型,在這個(gè)模型基礎(chǔ)上進(jìn)行語義的推理。TransE這個(gè)模型的思想也比較直觀,它是將每個(gè)詞表示成向量,然后向量之間保持一種類比的關(guān)系。比如上面這個(gè)圖里面的北京中國,然后類比巴黎法國,就是北京加上首都的關(guān)系就等于中國,然后巴黎加上capital的關(guān)系等于France。所以它是無限的接近于偽實(shí)體的embed]ding。這個(gè)模型的特點(diǎn)是比較簡(jiǎn)單的,但是它只能處理實(shí)體之間一對(duì)一的關(guān)系,它不能處理多對(duì)一與多對(duì)多的關(guān)系。

后來提出了TransR的模型了,TransR實(shí)際上是解決了上面提到的一對(duì)多或者多對(duì)一、多對(duì)多的問題,它分別將實(shí)體和關(guān)系投射到不同的空間里面。一個(gè)實(shí)體的空間和一個(gè)關(guān)系的空間,然后在實(shí)體空間和關(guān)系空間來構(gòu)建實(shí)體和關(guān)系的嵌入,就對(duì)于每個(gè)元組首先將實(shí)體空間中實(shí)體通過Mr向關(guān)系空間進(jìn)行投影得到hr和Tr,然后Hr加上r是不是約等于或者近似的等于Tr,通過它們?cè)陉P(guān)系空間里面的距離,來判斷在實(shí)體空間里面,H和T之間是不是具有這樣的關(guān)系?

除了TransE、TransR,還有更多的Trans系列的,像TransH、TransN、TransG等等這些模型。清華大學(xué)的自然語言處理實(shí)驗(yàn)室發(fā)布了一款這個(gè)叫openKE的平臺(tái),openKE它是開源的知識(shí)表示學(xué)習(xí)的平臺(tái),是基于Tanserflow的工具包來開發(fā)的。它整合了Trans系列的很多算法,提供統(tǒng)一的接口。它也是面向了預(yù)訓(xùn)練的數(shù)據(jù)來表示模型的。

最后介紹一種基于深度學(xué)習(xí)的推理模型,這個(gè)模型利用了卷積神經(jīng)網(wǎng)絡(luò)對(duì)實(shí)體進(jìn)行關(guān)系的分類的,把句子的依存樹作為輸入,就是將詞在樹中的不同的位置的嵌入式的表示拼接到這個(gè)詞向量當(dāng)中來學(xué)習(xí),同時(shí)對(duì)面相樹結(jié)構(gòu)設(shè)計(jì)了獨(dú)特的卷積核。這種方法在實(shí)體分類的任務(wù)上,相較于未使用位置關(guān)系的信息,效果會(huì)有一定的提升。

▌四、達(dá)觀經(jīng)驗(yàn)與案例

1.知識(shí)圖譜在達(dá)觀的知識(shí)問答當(dāng)中的應(yīng)用

我們的智能問答是融合了是知識(shí)圖譜問答和基于檢索的問答兩種方法進(jìn)行融合。

首先,左邊會(huì)把用戶的語音經(jīng)過語音轉(zhuǎn)成文字以后,進(jìn)行一個(gè)預(yù)處理,預(yù)處理主要是做了分詞、糾錯(cuò)、詞性標(biāo)注、實(shí)體屬性的識(shí)別,對(duì)這個(gè)句子進(jìn)行依存句法樹的結(jié)構(gòu)分析。

預(yù)處理完了以后,引擎會(huì)首先嘗試根據(jù)問句的句法結(jié)構(gòu)進(jìn)行問句模板的匹配,如果說能夠匹配到合適的問句模板,這個(gè)時(shí)候再根據(jù)在預(yù)處理階段得到的問句的實(shí)體屬性和關(guān)系,對(duì)匹配到的問題模板進(jìn)行實(shí)例化,然后再根據(jù)實(shí)例化以后的問句模板來生成知識(shí)圖譜的圖數(shù)據(jù)庫的查詢語言,然后在圖數(shù)據(jù)庫里面就可以把這個(gè)答案查出來了。

另外一種情況是沒有匹配到合適的問句模板,這個(gè)時(shí)候會(huì)進(jìn)入到基于檢索的問答模塊,最后是把基于知識(shí)圖譜和基于檢索的兩種的結(jié)果進(jìn)行融合。

2. 在HR人崗精準(zhǔn)匹配里面的應(yīng)用

HR創(chuàng)建的JD能夠自動(dòng)的匹配到簡(jiǎn)歷庫里面最合適的候選人的簡(jiǎn)歷,也即把JD的內(nèi)容和簡(jiǎn)歷庫里面簡(jiǎn)歷的內(nèi)容做語義的匹配。

這里有一個(gè)問題,JD對(duì)技能的描述和不同的人的簡(jiǎn)歷中對(duì)技能的描述存在很多表達(dá)方式造成的語義方面的差異。我們分別對(duì)JD和簡(jiǎn)歷構(gòu)建技能圖譜,通過技能圖譜的子圖匹配,就可以比較好地來解決語義匹配的問題。

我們?cè)谥R(shí)圖譜建設(shè)當(dāng)中的一些經(jīng)驗(yàn):

第一,界定好范圍,就是要有一個(gè)明確的場(chǎng)景和問題的定義,不能說為了知識(shí)圖譜而知識(shí)圖譜。如果沒有想清楚知識(shí)圖譜有什么樣的應(yīng)用的場(chǎng)景,或者能解決什么樣的問題,這樣的知識(shí)圖譜是比較難以落地的。一些明確的場(chǎng)景,比如解決商品數(shù)據(jù)的搜索問題,或者從產(chǎn)品說明書里面做相關(guān)問題的回答。

第二,做好schema的定義,就是上面講到的對(duì)于schema或者本體的定義。第一步確定好場(chǎng)景和問題以后,就基于這樣的場(chǎng)景或者問題,再進(jìn)行相關(guān)領(lǐng)域的schema的定義。定義這個(gè)領(lǐng)域里概念的層次結(jié)構(gòu)、概念之間的關(guān)系的類型,這樣做是確保整個(gè)知識(shí)圖譜是比較嚴(yán)謹(jǐn)?shù)模R(shí)的準(zhǔn)確性是比較可靠的。知識(shí)的模型的定義,或者schema的定義,大部分情況下是通過這個(gè)領(lǐng)域的知識(shí)專家的參與,自上而下的方式去定義的。

第三,數(shù)據(jù)是知識(shí)圖譜構(gòu)建基礎(chǔ)。數(shù)據(jù)的梳理就比較重要,最需要什么樣的數(shù)據(jù)?依賴于我們要解決的問題是什么,或者我們的應(yīng)用場(chǎng)景是什么?基于問題和場(chǎng)景,梳理出領(lǐng)域相關(guān)的問題、相關(guān)的數(shù)據(jù),包括結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、無結(jié)構(gòu)化的數(shù)據(jù),結(jié)合百科跟這個(gè)領(lǐng)域相關(guān)的數(shù)據(jù),領(lǐng)域的詞典,或者領(lǐng)域?qū)<业慕?jīng)驗(yàn)的規(guī)則。

第四,不要重復(fù)去造輪子,很多百科的數(shù)據(jù)和開放知識(shí)圖譜的數(shù)據(jù),是可以融合到我們的領(lǐng)域知識(shí)圖譜中。

第五,要有驗(yàn)證和反饋機(jī)制,需要有管理后臺(tái),用戶可以不斷的和知識(shí)圖譜系統(tǒng)進(jìn)行交互,不斷的進(jìn)行確認(rèn)和驗(yàn)證,確保知識(shí)圖譜每一步推理和計(jì)算都是準(zhǔn)確的。

第六,知識(shí)圖譜構(gòu)建是持續(xù)迭代的系統(tǒng)工程,不可能一蹴而就。

最后給大家介紹中文開放知識(shí)圖譜,達(dá)觀數(shù)據(jù)也是中文開放知識(shí)圖譜發(fā)起單位之一,這里面有很多開放的數(shù)據(jù)和開源的工具,其中的文章也是非常好的學(xué)習(xí)材料。

下面是自由提問環(huán)節(jié)。

Q:用知識(shí)圖譜來做反欺詐,和深度學(xué)習(xí)的方法相比,或者是其它機(jī)器學(xué)習(xí)的相比,知識(shí)圖譜是否有優(yōu)勢(shì)?

A:反欺詐是整個(gè)風(fēng)控流程中的一個(gè)非常重要的環(huán)節(jié)。其主要難點(diǎn)在于如何基于大數(shù)據(jù)把多個(gè)不同來源的數(shù)據(jù)(內(nèi)部、外部,格式化、非格式化)有機(jī)整合在一起,并對(duì)這些數(shù)據(jù)之間的各種復(fù)雜且動(dòng)態(tài)變化的關(guān)系進(jìn)行建模,從而構(gòu)建起一個(gè)反欺詐引擎。知識(shí)圖譜作為關(guān)系的直接表示方式,可以提供一種非常直觀的可視化的手段以及內(nèi)部的推理機(jī)制來有效地分析各種復(fù)雜關(guān)系下可能存在的潛在風(fēng)險(xiǎn)。

我們知道深度學(xué)習(xí)的表示是基于一種低維稠密的數(shù)值向量,模型本身是一個(gè)“黑盒”,我們無從知道內(nèi)部的各種特征的非線性組合是如何形成的。相比于知識(shí)圖譜,深度學(xué)習(xí)的不可解釋性是最大的缺點(diǎn)。此外深度學(xué)習(xí)要真正達(dá)成效果,需要依賴已經(jīng)標(biāo)注過的大樣本數(shù)據(jù)進(jìn)行訓(xùn)練,但在很多領(lǐng)域(包括反欺詐)這樣的數(shù)據(jù)獲取門檻極高。

當(dāng)然,深度學(xué)習(xí)和知識(shí)圖譜也是不完全互斥的,知識(shí)圖譜的構(gòu)建中的實(shí)體、屬性、關(guān)系抽取等關(guān)鍵過程也會(huì)用到深度學(xué)習(xí)的循環(huán)神經(jīng)網(wǎng)絡(luò)等自然語言處理技術(shù)。

Q:知識(shí)圖譜的查詢跟關(guān)系數(shù)據(jù)庫的查詢感覺都一樣,這兩個(gè)有什么樣的關(guān)系?

A:在關(guān)系型數(shù)據(jù)庫里面,如果要聯(lián)合多個(gè)表執(zhí)行復(fù)雜查詢,特別在數(shù)據(jù)量比較大的情況下是非常慢的。如果涉及到多種很復(fù)雜的關(guān)聯(lián)關(guān)系,圖數(shù)據(jù)庫是比較好的選擇。圖數(shù)據(jù)庫基于圖的遍歷,內(nèi)置對(duì)圖搜索的優(yōu)化算法,可以非??焖龠M(jìn)行子圖的搜索。相較于傳統(tǒng)的關(guān)系數(shù)據(jù)庫,其性能會(huì)有多個(gè)數(shù)量級(jí)的提升。

Q:純文本怎么進(jìn)行抽???

A:關(guān)于抽取,我在前面講到了有很多的方法,包括實(shí)體抽取里面有NER的方法,NER有傳統(tǒng)的CRF的方法,有基于循環(huán)神經(jīng)網(wǎng)絡(luò)+CRF的方法,也有端到端的聯(lián)合標(biāo)注的抽取方法,這種方法同時(shí)輸出實(shí)體和實(shí)體之間關(guān)系的三元組。

Q:知識(shí)圖譜怎么和其它算法相結(jié)合,應(yīng)用在搜索推薦上面?

A:在搜索里面,更多的是基于知識(shí)圖譜去回答問題,它可以對(duì)query所表達(dá)的實(shí)體和屬性進(jìn)行識(shí)別,比如查詢“華為P10手機(jī)的內(nèi)存是多少?”這就是實(shí)體屬性值的查找。華為P10是實(shí)體,內(nèi)存是P10這個(gè)實(shí)體的屬性,對(duì)應(yīng)到知識(shí)圖譜里面,可以快速定位到這個(gè)實(shí)體叫P10,就可以直接把P10的內(nèi)存(屬性值)返回出來,就可以直接給出64G或32G這樣的答案。

Q:實(shí)體有哪些屬性是怎么定義的?

A: 從如何定義的角度看,主要有兩種方法,一種是自上而下的方法,比如我們進(jìn)行模式(Schema)定義的時(shí)候,首先會(huì)對(duì)其中的各種概念進(jìn)行定義,概念有哪些屬性,概念之間的關(guān)系是什么樣的。后面抽取的各個(gè)實(shí)體都會(huì)映射到模式層的一個(gè)概念上去,實(shí)體會(huì)自動(dòng)繼承所屬概念的屬性。還有一種是自下而上的方法,實(shí)體的屬性是從原始數(shù)據(jù)中不斷抽取提出來的,并對(duì)不同數(shù)據(jù)源的屬性與屬性值進(jìn)行融合(歸一化)。實(shí)際使用中,這兩種方法往往是同時(shí)使用互相補(bǔ)充的。

Q:知識(shí)圖譜中的時(shí)間和空間關(guān)系怎么表達(dá)?

A:知識(shí)圖譜表達(dá)的是動(dòng)態(tài)的數(shù)據(jù),比如美國總統(tǒng)是特朗普對(duì)吧?現(xiàn)在是的,但三年前不是,五年后也不一定是。隨著時(shí)間的推移,它的三元組的關(guān)系是會(huì)有變化的,那這個(gè)時(shí)候怎么樣去表達(dá)?通常是在三元組的基礎(chǔ)上再擴(kuò)展一個(gè)維度形成四元組這樣的做法,但是它會(huì)大大增加系統(tǒng)處理的復(fù)雜度。也有一些其他的方法,比如可以是跟關(guān)系數(shù)據(jù)庫相結(jié)合的方式進(jìn)行擴(kuò)展。

Q:如何衡量一個(gè)知識(shí)圖譜建立以后的效果?如何有效的進(jìn)行學(xué)習(xí)改進(jìn)?

A:我們建立一個(gè)知識(shí)圖譜,建立一個(gè)機(jī)器學(xué)習(xí)的算法模型,對(duì)它的效果進(jìn)行衡量度量是非常關(guān)鍵的。在知識(shí)圖譜這里,一定是基于某個(gè)場(chǎng)景具體的應(yīng)用,然后再看這個(gè)場(chǎng)景或者這個(gè)具體的應(yīng)用使用了知識(shí)圖譜以后跟原來的做法來做一個(gè)比較,或者有一個(gè)管理后臺(tái),人可以定期對(duì)知識(shí)圖譜系統(tǒng)的推理和計(jì)算的結(jié)果做一些檢測(cè)和驗(yàn)證,然后對(duì)這些驗(yàn)證的結(jié)果再反饋到這個(gè)系統(tǒng)里面去,讓系統(tǒng)重新來進(jìn)行學(xué)習(xí)、改進(jìn),建立人跟系統(tǒng)之間不斷的反饋、驗(yàn)證和自動(dòng)學(xué)習(xí)的過程。

Q:可不可以用知識(shí)圖譜進(jìn)行分類?

A:這個(gè)問題很有意思。上面提到,一方面我們可以基于分類的方式來做知識(shí)圖譜中實(shí)體關(guān)系的學(xué)習(xí)。另一方面,我們是否可以利用知識(shí)圖譜輔助進(jìn)行文本的分類?這樣方面我們有一些經(jīng)驗(yàn)。對(duì)于文本分類中的特征工程,我們的做法是通過知識(shí)圖譜進(jìn)行語義的關(guān)聯(lián)擴(kuò)充以獲取更多的語義特征,尤其是對(duì)于短文本,對(duì)分類效果能有比較好的提升。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1796

    文章

    47734

    瀏覽量

    240446
  • 知識(shí)圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    7745

原文標(biāo)題:一文詳解知識(shí)圖譜關(guān)鍵技術(shù)與應(yīng)用 | 公開課筆記

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    NLPIR大數(shù)據(jù)知識(shí)圖譜完美展現(xiàn)文本數(shù)據(jù)內(nèi)容

    要素,知識(shí)圖譜能夠?qū)⒊橄笮畔⑿蜗蟮卣宫F(xiàn)出來,可謂“一圖勝萬言”。知識(shí)圖譜在科技情報(bào)領(lǐng)域得到越來越廣泛的應(yīng)用,能夠引領(lǐng)我們從海量文獻(xiàn)情報(bào)中有效把握關(guān)鍵文獻(xiàn),進(jìn)入學(xué)科前沿領(lǐng)域,破解“知識(shí)
    發(fā)表于 07-01 11:40

    知識(shí)圖譜相關(guān)應(yīng)用

    智慧風(fēng)控的背后,是知識(shí)圖譜的深度應(yīng)用
    發(fā)表于 08-22 14:40

    KGB知識(shí)圖譜基于傳統(tǒng)知識(shí)工程的突破分析

    格式文件,保留文件中表格與文字格式等重要信息。對(duì)于圖片信息,OCR可自動(dòng)識(shí)別并抽取圖片中的文字信息。2. 知識(shí)抽?。篕GB知識(shí)圖譜引擎,可從結(jié)構(gòu)化表格與非結(jié)構(gòu)化文本中自適應(yīng)識(shí)別并抽取關(guān)鍵知識(shí)
    發(fā)表于 10-22 15:25

    KGB知識(shí)圖譜技術(shù)能夠解決哪些行業(yè)痛點(diǎn)?

    `知識(shí)圖譜和行業(yè)應(yīng)用相互結(jié)合時(shí),需要充分發(fā)揮其技術(shù)特色,且要適用于現(xiàn)在的企業(yè)應(yīng)用。那么知識(shí)圖譜的應(yīng)用可以解決那些行業(yè)問題呢?知識(shí)圖譜在行業(yè)應(yīng)用方面實(shí)現(xiàn)的突破具體表現(xiàn)在
    發(fā)表于 10-30 15:34

    知識(shí)圖譜的三種特性評(píng)析

    知識(shí)圖譜的應(yīng)用對(duì)技術(shù)本身也提出了高要求,KGB知識(shí)圖譜現(xiàn)在已經(jīng)在保險(xiǎn)行業(yè),為公司分析上市數(shù)據(jù)等行業(yè)得以廣泛應(yīng)用,知識(shí)圖譜能夠在應(yīng)用中發(fā)揮優(yōu)勢(shì)主要體現(xiàn)在哪里呢?(1) 目標(biāo)的動(dòng)態(tài)性:考
    發(fā)表于 12-13 13:57

    KGB知識(shí)圖譜幫助金融機(jī)構(gòu)進(jìn)行風(fēng)險(xiǎn)預(yù)判

    格式文件,保留文件中表格與文字格式等重要信息。對(duì)于圖片信息,OCR可自動(dòng)識(shí)別并抽取圖片中的文字信息。2. 知識(shí)抽取:KGB知識(shí)圖譜引擎,可從結(jié)構(gòu)化表格與非結(jié)構(gòu)化文本中自適應(yīng)識(shí)別并抽取關(guān)鍵知識(shí)
    發(fā)表于 06-18 23:07

    KGB知識(shí)圖譜通過智能搜索提升金融行業(yè)分析能力

    金融行業(yè)評(píng)估風(fēng)險(xiǎn)提供底層性支撐作用。對(duì)于金融企業(yè)來說,金融行業(yè)中在對(duì)借貸資格,反欺詐等行為進(jìn)行評(píng)估時(shí),其審核過程和審核數(shù)據(jù)都是極其繁瑣的。KGB知識(shí)圖譜具備智能搜索功能,能夠在語義上擴(kuò)展用戶的搜索關(guān)鍵
    發(fā)表于 06-22 21:23

    一文帶你讀懂知識(shí)圖譜

    1 什么是知識(shí)圖譜? 通俗地講,知識(shí)圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò)。 知識(shí)圖譜這個(gè)網(wǎng)絡(luò)具備以下3種特性: 1.1 由
    的頭像 發(fā)表于 12-26 10:23 ?3841次閱讀

    知識(shí)圖譜劃分的相關(guān)算法及研究

    知識(shí)圖譜是人工智能的重要基石,因其包含豐富的圖結(jié)構(gòu)和屬性信息而受到廣泛關(guān)注。知識(shí)圖譜可以精確語義描述現(xiàn)實(shí)世界中的各種實(shí)體及其聯(lián)系,其中頂點(diǎn)表示實(shí)體,邊表示實(shí)體間的聯(lián)系。知識(shí)圖譜劃分是大規(guī)模知識(shí)
    發(fā)表于 03-18 10:10 ?14次下載
    <b class='flag-5'>知識(shí)圖譜</b>劃分的相關(guān)算法及研究

    知識(shí)圖譜在工程應(yīng)用中的關(guān)鍵技術(shù)、應(yīng)用及案例

    近年來,知識(shí)圖譜及其相關(guān)技術(shù)得到快速發(fā)展,并被廣泛應(yīng)用于工業(yè)界各種認(rèn)知智能場(chǎng)景中。在簡(jiǎn)述知識(shí)圖譜相關(guān)研究的基礎(chǔ)上,介紹知識(shí)圖譜在工程應(yīng)用中的關(guān)鍵技術(shù)
    發(fā)表于 03-30 15:12 ?15次下載
    <b class='flag-5'>知識(shí)圖譜</b>在工程應(yīng)用中的<b class='flag-5'>關(guān)鍵技術(shù)</b>、應(yīng)用及案例

    知識(shí)圖譜是NLP的未來嗎?

    我的看法:知識(shí)圖譜不是NLP的未來,因?yàn)?b class='flag-5'>知識(shí)圖譜是另外一種與NLP有很多交集的技術(shù)。在目前所有已知的發(fā)展方向中,知識(shí)圖譜是最有可能長期和NLP互利共生的
    的頭像 發(fā)表于 04-15 14:36 ?3744次閱讀
    <b class='flag-5'>知識(shí)圖譜</b>是NLP的未來嗎?

    《工程科學(xué)學(xué)報(bào)》—知識(shí)圖譜的最新進(jìn)展、關(guān)鍵技術(shù)和挑戰(zhàn)

    知識(shí)圖譜的最新進(jìn)展、關(guān)鍵技術(shù)和挑戰(zhàn) 人工智能技術(shù)與咨詢? 本文來自《 ?工程科學(xué)學(xué)報(bào)? 》,作者馬忠貴等 隨著知識(shí)的不斷積累和科學(xué)的飛速發(fā)展,人類社會(huì)進(jìn)行了多次改變社會(huì)結(jié)構(gòu)的重大生產(chǎn)力
    發(fā)表于 11-20 10:41 ?747次閱讀
    《工程科學(xué)學(xué)報(bào)》—<b class='flag-5'>知識(shí)圖譜</b>的最新進(jìn)展、<b class='flag-5'>關(guān)鍵技術(shù)</b>和挑戰(zhàn)

    知識(shí)圖譜Knowledge Graph構(gòu)建與應(yīng)用

    一、知識(shí)圖譜概論 ? ? ? ? 1.1知識(shí)圖譜的起源和歷史 1.2知識(shí)圖譜的發(fā)展史——從框架、本體論、語義網(wǎng)、鏈接數(shù)據(jù)到知識(shí)圖譜 1.3知識(shí)圖譜
    發(fā)表于 09-17 10:12 ?694次閱讀

    知識(shí)圖譜知識(shí)圖譜的典型應(yīng)用

    作者:?cooldream2009? 我們構(gòu)建知識(shí)圖譜的目的,在于利用知識(shí)圖譜來做一些事情。有效利用知識(shí)圖譜,就是要考慮知識(shí)圖譜的具備的能力,知識(shí)圖
    的頭像 發(fā)表于 10-18 09:26 ?2134次閱讀
    <b class='flag-5'>知識(shí)圖譜</b>:<b class='flag-5'>知識(shí)圖譜</b>的典型應(yīng)用

    基于本體的金融知識(shí)圖譜自動(dòng)化構(gòu)建技術(shù)

    本評(píng)測(cè)任務(wù)參考 TAC KBP 中的 Cold Start 評(píng)測(cè)任務(wù)的方案,圍繞金融研報(bào)知識(shí)圖譜的自動(dòng)化圖譜構(gòu)建所展開。評(píng)測(cè)從預(yù)定義圖譜模式(Schema)和少量的種子知識(shí)圖譜開始,從
    的頭像 發(fā)表于 11-24 14:54 ?1200次閱讀