微軟開發(fā)了一種新的圖像字幕算法,在某些有限的測試中,其準確率超過了人類。該人工智能系統(tǒng)已被用于更新該公司為視障人士提供的助理應(yīng)用程序 “Seeing AI”,并將很快被納入Word、Outlook和PowerPoint等其他微軟產(chǎn)品中。在那里,它將被用于為圖像創(chuàng)建alt文本等任務(wù),這一功能對于提高無障礙性尤為重要。
這些應(yīng)用包括微軟自己的Seeing AI,該公司于2017年首次發(fā)布。Seeing AI利用計算機視覺為視障人士描述通過智能手機攝像頭看到的世界。它可以識別家庭物品,閱讀和掃描文本,描述場景,甚至識別朋友。它還可以用來描述其他應(yīng)用中的圖像,包括電子郵件客戶端、社交媒體應(yīng)用和WhatsApp等消息應(yīng)用。
微軟沒有披露Seeing AI的用戶數(shù)量,但Azure AI的企業(yè)副總裁Eric Boyd告訴The Verge,該軟件是 “為盲人或低視力人士提供的領(lǐng)先應(yīng)用之一”。Seeing AI已經(jīng)連續(xù)三年被盲人和低視力iOS用戶社區(qū)AppleVis評選為最佳應(yīng)用或最佳輔助應(yīng)用。
微軟新的圖像字幕算法將顯著提高Seeing AI的性能,因為它不僅能識別物體,還能更精確地描述它們之間的關(guān)系。因此,該算法可以在看一張圖片時,不僅能說出圖片中包含哪些物品和物體(如 “一個人、一把椅子、一個手風(fēng)琴”),還能說出它們之間的互動關(guān)系(如 “一個人坐在椅子上,正在拉手風(fēng)琴”)。微軟表示,該算法是其之前自2015年開始使用的圖像字幕系統(tǒng)的兩倍。
該算法在9月份發(fā)表的一篇預(yù)印論文中進行了描述,在一個被稱為 “nocaps ”的圖像字幕基準測試上取得了有史以來最高的分數(shù)。這是一個業(yè)界領(lǐng)先的圖像字幕評分板,不過它有自己的限制條件。nocaps基準測試由超過166,000個人類生成的字幕組成,描述了從Open Images Dataset中提取的約15,100張圖片。這些圖片涵蓋了一系列場景,從運動到假日抓拍,再到美食攝影等等。
責(zé)任編輯:YYX
-
微軟
+關(guān)注
關(guān)注
4文章
6635瀏覽量
104537 -
AI
+關(guān)注
關(guān)注
87文章
31734瀏覽量
270524
發(fā)布評論請先 登錄
相關(guān)推薦
微軟或?qū)indows11開發(fā)重心偏向AI
微軟起訴繞過云AI安全工具開發(fā)者
AI圖像識別攝像機
![<b class='flag-5'>AI</b><b class='flag-5'>圖像</b>識別攝像機](https://file1.elecfans.com/web2/M00/FB/13/wKgaomaMo4WAIxtNAABc_bI4MJ0136.png)
愛普生開發(fā)了一種烤箱控制的晶體振蕩器,其功耗比傳統(tǒng)OCXOs1低56%
![愛普生<b class='flag-5'>開發(fā)了</b><b class='flag-5'>一種</b>烤箱控制的晶體振蕩器,其功耗比傳統(tǒng)OCXOs1低56%](https://file1.elecfans.com/web2/M00/0B/55/wKgaomcgVBuAFb1eAACSCeaF-SA907.png)
BitEnergy AI公司開發(fā)出一種新AI處理方法
圖像識別算法的提升有哪些
圖像識別算法的優(yōu)缺點有哪些
Whatsapp正在開發(fā)一種新的生成人工智能功能
rup是一種什么模型
日本九州大學(xué)開發(fā)了名為QDyeFinder的人工智能(AI)工具
基于一種AI輔助可穿戴微流控比色傳感器系統(tǒng)
![基于<b class='flag-5'>一種</b><b class='flag-5'>AI</b>輔助可穿戴微流控比色傳感器系統(tǒng)](https://file1.elecfans.com/web2/M00/F6/6C/wKgaomZ_eJyALNPXAAAboVuyD6Q297.jpg)
評論