1. 寫在前面
模型“好”與“壞”的評(píng)價(jià)指標(biāo)直接由業(yè)務(wù)目標(biāo)/任務(wù)需求決定。我們需要做的是:根據(jù)具體的業(yè)務(wù)目標(biāo)/任務(wù)需求去選擇相應(yīng)的評(píng)價(jià)指標(biāo),繼而選出符合業(yè)務(wù)目標(biāo)/任務(wù)需求的好模型。在此之前,我們需要全面了解一個(gè)任務(wù)的評(píng)價(jià)指標(biāo)體系。
在二分類任務(wù)評(píng)價(jià)指標(biāo)(上)中,我們已經(jīng)學(xué)習(xí)了如何利用混淆矩陣來計(jì)算二分類的精度、錯(cuò)誤率指標(biāo)。今天,我們繼續(xù)來學(xué)習(xí)二分類任務(wù)的其他評(píng)價(jià)指標(biāo)。
2. 查準(zhǔn)率、查全率
2.1 精度、錯(cuò)誤率指標(biāo)的局限
acc(精度、準(zhǔn)確率)、error_rate(錯(cuò)誤率)是分類任務(wù)中最常用的性能評(píng)價(jià)指標(biāo),多數(shù)情況下使用精度、錯(cuò)誤率是合適的選擇。比如,在「好瓜壞瓜」的西瓜問題中,如果我們關(guān)心的僅是“有多少西瓜被判別正確或錯(cuò)誤”,那么精度和錯(cuò)誤率就很適合。
但是,如果我們關(guān)心的是“被我們判別為好瓜的西瓜中有多少比例是真正的好瓜”或“所有真正的好瓜中有多少比例的西瓜被我們判斷為好瓜”時(shí),精度和錯(cuò)誤率就不適合了。
再比如,在工業(yè)生產(chǎn)的「機(jī)器故障」預(yù)測(cè)應(yīng)用中,業(yè)務(wù)目標(biāo)是希望模型能將機(jī)器所有發(fā)生故障的時(shí)間預(yù)測(cè)出來,顯然精度指標(biāo)并不適合這樣的場(chǎng)景。為什么呢?
首先,我們知道精度衡量的是分類正確的樣本數(shù)占總樣本數(shù)的比例,然而通常來說機(jī)器發(fā)生故障的次數(shù)是比較少的(比如只有2%的時(shí)間發(fā)生故障)。那么,即便每次機(jī)器發(fā)生故障時(shí)模型都預(yù)測(cè)錯(cuò)誤,它的精度也可高達(dá)到98%。這樣一個(gè)模型完全就是一個(gè)擺設(shè),在實(shí)際生產(chǎn)中毫無(wú)用處。
2.2 查準(zhǔn)率、查全率
在上面精度、錯(cuò)誤率不適用的場(chǎng)景中,查準(zhǔn)率(精確率,Precision,P)和查全率(召回率,recall,R)是更適合的模型評(píng)價(jià)指標(biāo)。
2.2.1 查準(zhǔn)率、查全率指標(biāo)定義
我們還是利用混淆矩陣來計(jì)算二分類任務(wù)的查準(zhǔn)率和查全率。
真實(shí)類別 | 預(yù)測(cè)類別 | |
正例 | 負(fù)例 | |
正例 | TP(真正例) | FN(假負(fù)例) |
負(fù)例 | FP(假正例) | TN(真負(fù)例) |
假設(shè)我們有如上混淆矩陣,那么查準(zhǔn)率的定義如下:
即查準(zhǔn)率是預(yù)測(cè)正確的正例(TP)占所有預(yù)測(cè)為正例的樣本(TP+FP)的比例。
查全率定義如下:
即查全率是預(yù)測(cè)正確的正例(TP)占總正例(TP+FN)的比例。
2.2.2 查準(zhǔn)率、查全率含義
在「好瓜壞瓜」西瓜問題中:
查準(zhǔn)率:衡量了“被判別為好瓜的西瓜中有多少比例是真正的好瓜” ;
查全率:衡量了“所有真正的好瓜中有多少比例被判斷為好瓜” ;
在「機(jī)器故障預(yù)測(cè)」問題中:
查準(zhǔn)率:衡量了“被預(yù)測(cè)發(fā)生故障的時(shí)間中有多少比例確實(shí)發(fā)生了故障” ;
查全率:衡量了“機(jī)器發(fā)生故障的所有時(shí)間中有多少比例被預(yù)測(cè)出來了” ;
類似的,在「信息檢索/web搜索」中:
查準(zhǔn)率:衡量了“檢索出的信息中有多少比例是用戶真正感興趣的”
查全率:衡量了“用戶感興趣的信息中有多少比例被檢索出來了”
在「垃圾郵件檢測(cè)」中:
查準(zhǔn)率:衡量了“被預(yù)測(cè)為垃圾郵件的所有郵件中有多少比例的確是垃圾郵件”
查全率:衡量了“所有垃圾郵件中有多少比例被檢測(cè)出來了”
在「詐騙電話檢測(cè)」中:
查準(zhǔn)率:衡量了“被預(yù)測(cè)為詐騙電話的來電中有多少比例是詐騙電話”
查全率:衡量了“所有詐騙電話中有多少比例被檢測(cè)出來了”
2.2.3 查準(zhǔn)率、查全率的矛盾
我們當(dāng)然希望模型不僅有高查準(zhǔn)率,也有高查全率。但事實(shí)上,查準(zhǔn)率與查全率通常情況下是相互矛盾的,或者說查準(zhǔn)率、查全率是一對(duì)相互矛盾的指標(biāo)。
知乎上有個(gè)例子可以幫助我們直觀地理解這個(gè)“矛盾性”。假設(shè)我們的模型是找到人群中隱藏的壞人,那么:
看重查全率: “寧可錯(cuò)殺一千,不可漏過一個(gè)”。
看重查準(zhǔn)率: “寧可漏過壞人,不可錯(cuò)殺無(wú)辜的好人”。
更具體地,比如在「好瓜壞瓜」西瓜問題中,假設(shè)“好瓜”和“壞瓜”并沒有那么容易區(qū)分(復(fù)雜問題),這時(shí)要想獲得高查全率,就需要降低篩選標(biāo)準(zhǔn),極端一點(diǎn)我們將所有西瓜都預(yù)測(cè)為好瓜,那么查全率就是100%,但是查準(zhǔn)率就很低;而要想獲得高查準(zhǔn)率,就需要提高篩選標(biāo)準(zhǔn),極端一點(diǎn)我們只將一個(gè)最有把握的西瓜預(yù)測(cè)為好瓜,并且預(yù)測(cè)準(zhǔn)確了,那么查準(zhǔn)率就是100%,但是查全率就很低。
3.
既然查準(zhǔn)率、查全率是一對(duì)相互矛盾的指標(biāo),我們就需要明確在不同的業(yè)務(wù)目標(biāo)/任務(wù)需求中到底是希望查準(zhǔn)率比較高還是查全率比較高。
3.1
當(dāng)然,在二分類任務(wù)中,我們也有綜合考慮了查準(zhǔn)率和查全率的評(píng)價(jià)指標(biāo) F-Mesure(F-Score, ),它的定義如下:
其中 ()可視為權(quán)重參數(shù),它度量了查準(zhǔn)率和查全率的相對(duì)重要性。換句話說是查準(zhǔn)率和查全率的加權(quán)調(diào)和平均。
由上式 的倒數(shù)的定義可知,當(dāng) 時(shí),相當(dāng)于查全率被放大了,所以查全率有更大的影響;當(dāng) 時(shí),相當(dāng)于查全率被縮小了,所以準(zhǔn)率有更大的影響。
也就是說:
:更看重查全率指標(biāo)。
:更看重查準(zhǔn)率指標(biāo)。
3.2 F1
在 中,當(dāng) 時(shí),也退化成了我們常見的 指標(biāo):
顯然,根據(jù)下面的等價(jià)形式,可以知道在F1指標(biāo)中,查準(zhǔn)率和查全率同樣重要:
編輯:何安
-
矩陣
+關(guān)注
關(guān)注
0文章
425瀏覽量
34650 -
模型
+關(guān)注
關(guān)注
1文章
3329瀏覽量
49245
原文標(biāo)題:、
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
什么是數(shù)據(jù)指標(biāo)體系?如何設(shè)計(jì)指標(biāo)體系?
什么是數(shù)據(jù)指標(biāo)體系?如何設(shè)計(jì)指標(biāo)體系
AHP法在城市政府管理評(píng)估指標(biāo)體系中的應(yīng)用
信息系統(tǒng)可生存性定量評(píng)估的指標(biāo)體系
供需鏈仿真系統(tǒng)功能評(píng)價(jià)體系分析
預(yù)警指標(biāo)體系的本體建模及其應(yīng)用
知識(shí)型員工任務(wù)評(píng)價(jià)信息系統(tǒng)的指標(biāo)模型
公共部門績(jī)效評(píng)價(jià)軟件的指標(biāo)適應(yīng)性技術(shù)
基于標(biāo)準(zhǔn)的系統(tǒng)安全測(cè)試指標(biāo)體系的研究
模糊理論與層次分析法的網(wǎng)絡(luò)學(xué)習(xí)評(píng)價(jià)
![模糊理論與層次分析法的網(wǎng)絡(luò)學(xué)習(xí)<b class='flag-5'>評(píng)價(jià)</b>](https://file.elecfans.com/web2/M00/48/DC/pYYBAGKhtCmAKxFUAAAPKUHUvnQ151.jpg)
機(jī)械行業(yè)清潔生產(chǎn)評(píng)價(jià)指標(biāo)體系
網(wǎng)絡(luò)安全態(tài)勢(shì)要素指標(biāo)體系研究
多指標(biāo)評(píng)價(jià)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
![多<b class='flag-5'>指標(biāo)</b><b class='flag-5'>評(píng)價(jià)</b>系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)](https://file.elecfans.com/web2/M00/49/6B/poYBAGKhwLGARaZ8AAARUu_71VQ544.jpg)
評(píng)論