欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGPT背后的數(shù)據(jù)標注,工作量大,報酬低!

Carol Li ? 來源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2023-02-17 09:17 ? 次閱讀
電子發(fā)燒友網(wǎng)報道(文/李彎彎)最近爆火的ChatGPT有多強大,想必大家都已經(jīng)知曉,它幾乎可以生成任何形式的文本,從莎士比亞的十四行詩,到用5歲孩子都能理解的語言描述,以及復(fù)雜數(shù)學(xué)問題,也因此月活躍用戶在短短上線兩個月就達到1億。

而強大的ChatGPT背后,離不開一項重要的工作,那就是數(shù)據(jù)標注。據(jù)美媒報道,為了訓(xùn)練ChatGPT,OpenAI的合作伙伴Sama雇傭了肯尼亞、烏干達和印度的外包員工,對龐大的數(shù)據(jù)庫手動進行數(shù)據(jù)標注。


什么是數(shù)據(jù)標注

事實上,人工智能是一種可以根據(jù)人類需求做出合理行為的計算機程序,要想實現(xiàn)人工智能,就需要把人類的理解能力和判斷能力教給計算機,讓計算機擁有類似人類的識別能力。在這一過程中,需要計算機模仿人類進行經(jīng)驗學(xué)習(xí)。

而數(shù)據(jù)標注就是把需要計算機進行機器學(xué)習(xí)的的圖片、視頻等初級數(shù)據(jù)打上標簽,讓計算機不斷的識別這些初級數(shù)據(jù)的特征,最終可以讓計算機能夠自主的識別。

這里涉及到幾個概念:1、數(shù)據(jù)標注,簡單來說,就是對文本、圖像、音頻、視頻等數(shù)據(jù)進行高質(zhì)量、高精度的處理打標簽,來滿足機器訓(xùn)練學(xué)習(xí)的需求。2、標簽,就是對需要機器學(xué)習(xí)的數(shù)據(jù)進行標識特征、類別和屬性等,用于建立數(shù)據(jù)和機器訓(xùn)練學(xué)習(xí)的可讀數(shù)據(jù)編碼間的聯(lián)系。3、數(shù)據(jù)標注員,就是負責對文本、圖像、音頻、視頻等數(shù)據(jù)進行高質(zhì)量、高精度的處理打標簽的工作人員。

計算機特征數(shù)據(jù)主要分為圖像數(shù)據(jù)、語音數(shù)據(jù)、文本數(shù)據(jù)等。在自然語言處理的需求中,文本數(shù)據(jù)標注是關(guān)鍵環(huán)節(jié),數(shù)據(jù)標注員需要通過對語句分詞的標注、語義判斷的標注、情感標注、多音字標注等,為人工智能機器學(xué)習(xí)提供高準確率的文本語料。

數(shù)據(jù)標注的流程,首先是從數(shù)據(jù)采集開始,由于新采集的數(shù)據(jù)是非結(jié)構(gòu)化的,有些數(shù)據(jù)不完整,還有不一致、有雜音噪聲的數(shù)據(jù),需要通過數(shù)據(jù)清洗,對采集的數(shù)據(jù)進行篩選、去重、查缺補漏、平滑噪音等操作,將數(shù)據(jù)清理成適合標注的格式。

接著,數(shù)據(jù)經(jīng)過清洗后,就可以進入數(shù)據(jù)標注的核心環(huán)節(jié)。在現(xiàn)實的標注工作中,數(shù)據(jù)管理員會將數(shù)據(jù)根據(jù)不同的需求,將待標注的數(shù)據(jù)分為不同的數(shù)據(jù)包任務(wù),每一個數(shù)據(jù)任務(wù)都會有不同的規(guī)范和標注形式要求,然后將標注任務(wù)分配給多個標注員進行標注工作。

最后,為了提高數(shù)據(jù)輸出的正確率,標注員完成標注工作后,需要質(zhì)檢師對數(shù)據(jù)進行檢驗,最終通過質(zhì)檢環(huán)節(jié)的數(shù)據(jù)才是可用于訓(xùn)練學(xué)習(xí)的數(shù)據(jù)。


龐大的數(shù)據(jù)標注工作,和低水平的報酬

從ChatGPT來看,雖然對于ChatGPT最后的強大能力來說,數(shù)據(jù)標注是重要的一環(huán),然而這卻是一項工作量及其龐大,報酬卻并不高的工作。

雖然ChatGPT的前身GPT-3已經(jīng)展示出非常強大的語句串聯(lián)的能力。然而,當時的GPT-3卻存在很多弊端,例如內(nèi)容容易出現(xiàn)暴力、性別歧視等言論。之所以會出現(xiàn)這樣的不足之處,是因為AI工具從互聯(lián)網(wǎng)抓取了數(shù)千億個單詞來訓(xùn)練。由于互聯(lián)網(wǎng)的詞匯有不少帶有偏見及負面的詞匯,因此單純憑借學(xué)習(xí)能力無法來清除這些訓(xùn)練數(shù)據(jù)。

為了獲得這些有害內(nèi)容的標簽,OpenAI從2021年11月開始便向一家外包公司發(fā)送了數(shù)萬條文本片段。這家公司便是Sama,Sama總部位于美國舊金山,該公司雇傭了肯尼亞、烏干達和印度的外包員工。大約30多名工作人員被分成三個小組,每個小組都專注于一個主題。據(jù)該公司的三名員工表示,他們每9個小時要閱讀和標注150~200段文字,這些段落的范圍從100個單詞到1000多個單詞不等。

薪酬方面,Sama為OpenAI雇傭的數(shù)據(jù)標簽員工支付的時薪在1.32美元~2美元之間(約8.99元~13.62元),具體取決于資歷和表現(xiàn)。據(jù)Sama員工透露,“代理商”是三個小組中最初級的數(shù)據(jù)標簽人員,他們的基本工資為每月2.1萬肯尼亞先令(約170美元或者約1158元)。此外,他們每月還能獲得約70美元的獎金,如果達到準確性和速度等關(guān)鍵績效指標,他們還可以獲得傭金。

按此計算,一名每天工作9小時的員工預(yù)計稅后時薪至少能拿1.32美元,如果超額完成所有目標,則最高可達到1.44美元。質(zhì)量分析師是資歷更深的數(shù)據(jù)標簽員工,他們的工作是檢查“代理商”的工作,如果他們達到了所有績效目標,時薪可以拿到2美元。

OpenAI發(fā)言人曾在一份聲明中證實,Sama在肯尼亞的員工為該公司正在開發(fā)的監(jiān)測有害內(nèi)容的工具作出了貢獻,該工具最終被內(nèi)置到ChatGPT中。


小結(jié)

隨著ChatGPT的爆火,人工智能走進了更多人的視野。然而從目前的情況來看,人們印象中的人工智能仍然是很高端的事物,只有科技、互聯(lián)網(wǎng)巨頭企業(yè)及專業(yè)人士才能涉足的領(lǐng)域。然而人工智能產(chǎn)業(yè)鏈涉及面廣泛,其中就包括數(shù)據(jù)標注??梢钥吹?,人工智能的存在和實現(xiàn),不僅僅是解放人們的雙手,同時從這個層面來看,它對勞動力的需求也是龐大的。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1571

    瀏覽量

    8117
收藏 人收藏

    評論

    相關(guān)推薦

    AI自動圖像標注工具SpeedDP將是數(shù)據(jù)標注行業(yè)發(fā)展的重要引擎

    AI大浪潮下,許多企業(yè)都在不斷借助AI來提升自己的行業(yè)競爭力,數(shù)據(jù)標注企業(yè)也不例外,傳統(tǒng)人工標注效率不足的弊端困擾了多年,如今新的“引擎”就在眼前,他們當然不會放過這個機會。針對這樣的需求,慧視光電
    的頭像 發(fā)表于 01-02 17:53 ?253次閱讀
    AI自動圖像<b class='flag-5'>標注</b>工具SpeedDP將是<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標注</b>行業(yè)發(fā)展的重要引擎

    標貝數(shù)據(jù)標注在智能駕駛訓(xùn)練中的落地案例

    標貝科技深耕AI數(shù)據(jù)服務(wù)多年,在無人駕駛、自動駕駛等智能駕駛領(lǐng)域擁有豐富的合作案例。多次采用點云標注以及3D&2D融合等標注方式為智能駕駛領(lǐng)域客戶提供環(huán)境感知、決策策劃、車道線標注、障
    的頭像 發(fā)表于 12-24 15:17 ?625次閱讀
    標貝<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標注</b>在智能駕駛訓(xùn)練中的落地案例

    標貝數(shù)據(jù)標注案例分享:車載語音系統(tǒng)數(shù)據(jù)標注

    的作用。一般來說,車載語音識別系統(tǒng)主要分為前端和后端兩個部分,本文將針對前端語音信號數(shù)據(jù)采集標注進行實例講解。
    的頭像 發(fā)表于 12-24 14:24 ?225次閱讀
    標貝<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標注</b>案例分享:車載語音系統(tǒng)<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標注</b>

    標貝科技:自動駕駛中的數(shù)據(jù)標注類別分享

    的必要條件,數(shù)據(jù)采集、數(shù)據(jù)標注服務(wù)已成為支撐自動駕駛熱潮必不可少的一環(huán)。本文將以數(shù)據(jù)標注的視角,通過標貝科技自研平臺標貝
    的頭像 發(fā)表于 11-22 15:07 ?1133次閱讀
    標貝科技:自動駕駛中的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標注</b>類別分享

    標貝科技:自動駕駛中的數(shù)據(jù)標注類別分享

    的必要條件,數(shù)據(jù)采集、數(shù)據(jù)標注服務(wù)已成為支撐自動駕駛熱潮必不可少的一環(huán)。本文將以數(shù)據(jù)標注的視角,通過標貝科技自研平臺標貝
    的頭像 發(fā)表于 11-22 14:58 ?1290次閱讀
    標貝科技:自動駕駛中的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標注</b>類別分享

    工具型AI標注平臺SpeedDP工作流程是怎樣的?

    SpeedDP作為一個工具型AI平臺,它能提供從數(shù)據(jù)標注、模型訓(xùn)練、測試驗證到RockChip嵌入式硬件平臺模型部署的可視化AI開發(fā)功能。平臺所需算法并不是固定的,使用者可以根據(jù)自身實際應(yīng)用場景進行
    的頭像 發(fā)表于 11-19 01:02 ?473次閱讀
    工具型AI<b class='flag-5'>標注</b>平臺SpeedDP<b class='flag-5'>工作</b>流程是怎樣的?

    怎樣搭建基于 ChatGPT 的聊天系統(tǒng)

    搭建一個基于ChatGPT的聊天系統(tǒng)是一個涉及多個步驟的過程,包括理解ChatGPT的API、設(shè)計用戶界面、處理數(shù)據(jù)和集成ChatGPT模型。以下是一個簡化的指南,用于創(chuàng)建一個基本的聊
    的頭像 發(fā)表于 10-25 16:23 ?605次閱讀

    ChatGPT背后的AI背景、技術(shù)門道和商業(yè)應(yīng)用

    作者:京東科技 李俊兵 各位看官好,我是球神(江湖代號)。 自去年11月30日ChatGPT問世以來,迅速爆火出圈。 起初我依然以為這是和當年Transformer, Bert一樣的“熱點”模型
    的頭像 發(fā)表于 10-18 15:42 ?2298次閱讀
    <b class='flag-5'>ChatGPT</b><b class='flag-5'>背后</b>的AI背景、技術(shù)門道和商業(yè)應(yīng)用

    基于FPA的軟件工作量綜合評估研究與實踐

    在軟件工程監(jiān)理項目中如何對軟件開發(fā)系統(tǒng)進行工作量評估,如何在實施過程中對承建單位已完成的工作量進行審核是實施信息化項目的難題。本文在分析專家經(jīng)驗評估法、FPA功能點分析法等方法的基礎(chǔ)上,給出了一種
    發(fā)表于 10-15 10:45 ?0次下載

    降壓轉(zhuǎn)換器電容器集成可減少滿足CISPR 25 5類標準所需的工作量

    電子發(fā)燒友網(wǎng)站提供《降壓轉(zhuǎn)換器電容器集成可減少滿足CISPR 25 5類標準所需的工作量.pdf》資料免費下載
    發(fā)表于 08-27 10:41 ?0次下載
    降壓轉(zhuǎn)換器電容器集成可減少滿足CISPR 25 5類標準所需的<b class='flag-5'>工作量</b>

    用launch pad燒錄chatgpt_demo項目會有api key報錯的原因?

    我用launch pad燒錄chatgpt_demo項目問題會有api key報錯;請問用launch pad要如何設(shè)置api key和調(diào)試?還是只能通過idf?
    發(fā)表于 06-27 07:59

    使用espbox lite進行chatgpt_demo的燒錄報錯是什么原因?

    我使用espbox lite進行chatgpt_demo的燒錄 我的idf是v5.1release版本的,espbox是master版本的 在編譯時似乎沒有什么問題 在燒錄時報錯 請問這是什么原因
    發(fā)表于 06-11 08:45

    OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來了

    無縫切換的場景為特色,高精度處理細微的查詢。 · 實時數(shù)據(jù)分析和報告 :在特別引起業(yè)務(wù)分析師共鳴的演示中,ChatGPT-4o處理了大型數(shù)據(jù)集,以提取可操作的見解,具備顯著加快決策的潛力。 新功能摘要
    發(fā)表于 05-27 15:43

    在FPGA設(shè)計中是否可以應(yīng)用ChatGPT生成想要的程序呢

    當下AI人工智能崛起,很多開發(fā)領(lǐng)域都可看到ChatGPT的身影,F(xiàn)PGA設(shè)計中,是否也可以用ChatGPT輔助設(shè)計呢?
    發(fā)表于 03-28 23:41

    【國產(chǎn)FPGA+OMAPL138開發(fā)板體驗】(原創(chuàng))6.FPGA連接ChatGPT 4

    OMAP-L138(定點/浮點DSP C674x+ARM9)+ FPGA處理器的開發(fā)板。 編寫一個用于FPGA訪問ChatGPT 4的程序代碼是一個相當復(fù)雜的任務(wù),涉及到硬件設(shè)計、網(wǎng)絡(luò)通信、數(shù)據(jù)處理等多個
    發(fā)表于 02-14 21:58