AI 開(kāi)始在 ChatGPT 中推出新的語(yǔ)音和圖像功能。它們提供了一種新的、更直觀的界面類(lèi)型,允許用戶進(jìn)行語(yǔ)音對(duì)話或向 ChatGPT 展示正在談?wù)摰膬?nèi)容。
語(yǔ)音和圖像為用戶在生活中使用 ChatGPT 提供了更多方式。旅行時(shí),拍下地標(biāo)性建筑的照片,然后就它的有趣之處進(jìn)行實(shí)時(shí)對(duì)話。當(dāng)您在家時(shí),拍下冰箱和儲(chǔ)藏室的照片,找出晚餐的菜譜(并提出后續(xù)問(wèn)題,一步步了解菜譜)。晚飯后,幫孩子做一道數(shù)學(xué)題,拍下照片,圈出問(wèn)題集,讓孩子與您分享提示。
OpenAI將在未來(lái)兩周內(nèi)向 Plus 和企業(yè)用戶推出 ChatGPT 中的語(yǔ)音和圖像功能。語(yǔ)音功能將在 iOS 和 Android 上推出(在設(shè)置中選擇加入),圖像功能將在所有平臺(tái)上推出。
Rectangle Speak with ChatGPT and have it talk back
現(xiàn)在,用戶可以使用語(yǔ)音與您的助手進(jìn)行來(lái)回對(duì)話。在旅途中與它對(duì)話,為家人要求一個(gè)睡前故事,或者解決餐桌上的爭(zhēng)論。
與 ChatGPT 對(duì)話,讓它回話(Rectangle Speak with ChatGPT and have it talk back)
使用語(yǔ)音與助手進(jìn)行多輪對(duì)話。
要開(kāi)始使用語(yǔ)音,請(qǐng)前往手機(jī)應(yīng)用上的設(shè)置 → 新功能,然后選擇語(yǔ)音對(duì)話。然后,點(diǎn)擊主屏幕右上角的耳機(jī)按鈕,從五種不同的語(yǔ)音中選擇自己喜歡的語(yǔ)音。
新的語(yǔ)音功能由一個(gè)新的文本到語(yǔ)音模型提供支持,能夠僅通過(guò)文本和幾秒鐘的語(yǔ)音樣本生成類(lèi)似人類(lèi)的音頻。OpenAI與專(zhuān)業(yè)配音演員合作創(chuàng)作了每種語(yǔ)音。OpenAI還使用 Whisper(OpenAI的開(kāi)源語(yǔ)音識(shí)別系統(tǒng))將用戶說(shuō)的話轉(zhuǎn)錄成文本。
Listen to voice samples
選擇文本
下面是示例:
Once in a tranquil woodland, there was a fluffy mama cat named Lila. One sunny day, she cuddled with her playful kitten, Milo, under the shade of an old oak tree.
“Milo,” Lila began, her voice soft and gentle, “you’re going to have a new playmate soon.”
Milo’s ears perked up, curious. “A new playmate?”
Lila purred, “Yes, a baby sister.”
Milo’s eyes widened with excitement. “A sister? Will she chase tails like I do?”
Lila chuckled. “Oh, she’ll have her own quirks. You’ll teach her, won’t you?”
Milo nodded eagerly, already dreaming of the adventures they’d share.
大意(從前,在一片寧?kù)o的樹(shù)林里,有一只毛茸茸的母貓,名叫萊拉。在一個(gè)陽(yáng)光明媚的日子里,她和頑皮的小貓米洛依偎在一棵老橡樹(shù)的樹(shù)蔭下。
“米洛,”萊拉開(kāi)始說(shuō)話了,聲音輕柔而溫和,“你很快就會(huì)有一個(gè)新玩伴了?!?/p>
米洛的耳朵豎了起來(lái),很好奇?!靶峦姘椋俊?/p>
萊拉咕嚕著說(shuō):“是的,一個(gè)小妹妹?!?/p>
米洛興奮地睜大眼睛?!懊妹??她會(huì)像我一樣追尾巴嗎?”
萊拉笑著說(shuō)?!芭?,她會(huì)有自己的怪癖。你會(huì)教她的,對(duì)嗎?”
米洛急切地點(diǎn)點(diǎn)頭,已經(jīng)開(kāi)始憧憬他們將共同經(jīng)歷的冒險(xiǎn)了。
Select voice
Juniper
Chat about images
用戶現(xiàn)在可以向 ChatGPT 展示一張或多張圖片。可以解決烤架無(wú)法啟動(dòng)的問(wèn)題,查看冰箱里的食物以計(jì)劃用餐,或者分析復(fù)雜的圖表以獲取與工作相關(guān)的數(shù)據(jù)。要聚焦于圖像的特定部分,您可以使用OpenAI移動(dòng)應(yīng)用程序中的繪圖工具。
圖像聊天(Chat about images)
向 ChatGPT 展示一張或多張圖片。
要開(kāi)始聊天,請(qǐng)點(diǎn)擊照片按鈕捕捉或選擇圖片。如果您使用的是 iOS 或 Android 系統(tǒng),請(qǐng)先輕點(diǎn)加號(hào)按鈕。您還可以討論多張圖片,或使用OpenAI的繪圖工具來(lái)引導(dǎo)您的助手。
圖像理解由多模態(tài) GPT-3.5 和 GPT-4 支持。這些模型將語(yǔ)言推理能力應(yīng)用于各種圖像,如照片、截圖以及包含文字和圖像的文檔。
OpenAI正在逐步部署圖像和語(yǔ)音功能
OpenAI 的目標(biāo)是構(gòu)建安全、有益的 AGI。OpenAI相信,逐步提供工具,讓OpenAi能夠隨著時(shí)間的推移不斷改進(jìn)和完善風(fēng)險(xiǎn)緩解措施,同時(shí)也讓大家為未來(lái)更強(qiáng)大的系統(tǒng)做好準(zhǔn)備。在涉及語(yǔ)音和視覺(jué)的高級(jí)模型中,這一策略變得更加重要。
語(yǔ)音
新的語(yǔ)音技術(shù)--只需幾秒鐘的真實(shí)語(yǔ)音就能制作出逼真的合成語(yǔ)音--為許多創(chuàng)造性和無(wú)障礙應(yīng)用打開(kāi)了大門(mén)。然而,這些功能也帶來(lái)了新的風(fēng)險(xiǎn),例如惡意行為者有可能冒充公眾人物或?qū)嵤┢墼p。
這就是為什么OpenAi要將這項(xiàng)技術(shù)用于語(yǔ)音聊天這一特殊應(yīng)用案例。語(yǔ)音聊天是由OpenAI直接合作的配音演員創(chuàng)建的。OpenAi還與其他公司開(kāi)展了類(lèi)似的合作。例如,Spotify 正在將這項(xiàng)技術(shù)的力量用于其語(yǔ)音翻譯功能的試點(diǎn),該功能可以幫助播客將播客翻譯成其他語(yǔ)言,用播客自己的聲音來(lái)講述故事,從而擴(kuò)大播客的影響力。
圖像輸入
基于視覺(jué)的模型也帶來(lái)了新的挑戰(zhàn),從對(duì)人的幻覺(jué)到在高風(fēng)險(xiǎn)領(lǐng)域依賴(lài)模型對(duì)圖像的解釋?zhuān)灰欢?。在進(jìn)行更廣泛的部署之前,OpenA與極端主義和科學(xué)能力等領(lǐng)域的紅隊(duì)測(cè)試專(zhuān)家人以及不同的測(cè)試者一起對(duì)模型進(jìn)行了測(cè)試。OpenAI的研究使OpenAi能夠在一些關(guān)鍵細(xì)節(jié)上保持一致,以實(shí)現(xiàn)負(fù)責(zé)任AI的應(yīng)用。
讓視覺(jué)既實(shí)用又安全
與 ChatGPT 的其他功能一樣,視覺(jué)功能也是為您的日常生活提供幫助。只有當(dāng)它能看到用戶所看到的東西時(shí),才能發(fā)揮最大作用。
OpenA與盲人和低視力者的免費(fèi)手機(jī)應(yīng)用程序 Be My Eyes 合作,了解其用途和局限性,并從中直接借鑒了這一方法。用戶告訴OpenAI,他們發(fā)現(xiàn)背景中恰好有人的圖像進(jìn)行一般性對(duì)話非常有價(jià)值,比如當(dāng)你正在嘗試遙控器設(shè)置時(shí),電視上出現(xiàn)了一個(gè)人。
由于 ChatGPT 并不總是準(zhǔn)確的,而且這些系統(tǒng)應(yīng)尊重個(gè)人隱私,因此OpenA還采取了技術(shù)措施,大大限制 ChatGPT 分析和直接陳述人的能力。
真實(shí)世界的使用情況和反饋將幫助OpenAI在保持工具實(shí)用性的同時(shí),使這些保障措施更加完善。
模型限制的透明度
用戶可能會(huì)依賴(lài) ChatGPT 來(lái)處理專(zhuān)業(yè)話題,例如研究領(lǐng)域。OpenAI對(duì)模型的局限性保持透明,不鼓勵(lì)未經(jīng)適當(dāng)驗(yàn)證的高風(fēng)險(xiǎn)用例。此外,該模型精通英語(yǔ)文本的轉(zhuǎn)錄,但對(duì)其他一些語(yǔ)言,尤其是非羅馬字母的語(yǔ)言,表現(xiàn)不佳。OpenAI建議非英語(yǔ)用戶不要使用 ChatGPT。
用戶可以在圖像輸入系統(tǒng)卡中閱讀更多有關(guān)安全方法以及與 Be My Eyes 合作的信息。
OpenAI將擴(kuò)大訪問(wèn)范圍
Plus 和 Enterprise 用戶將在未來(lái)兩周內(nèi)體驗(yàn)語(yǔ)音和圖像,很高興不久后能向包括開(kāi)發(fā)人員在內(nèi)的其他用戶群推出這些功能。
-
模型
+關(guān)注
關(guān)注
1文章
3342瀏覽量
49270 -
OpenAI
+關(guān)注
關(guān)注
9文章
1158瀏覽量
6748 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1570瀏覽量
8115
原文標(biāo)題:重磅!OpenAI 在 ChatGPT 內(nèi)推出語(yǔ)言和圖像功能
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來(lái)了
科技大廠競(jìng)逐AIGC,中國(guó)的ChatGPT在哪?
如何注冊(cè)使用OpenAI ChatGPT
![如何注冊(cè)使用<b class='flag-5'>OpenAI</b> <b class='flag-5'>ChatGPT</b>](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
openai和chatGPT什么關(guān)系
ChatGPT重磅升級(jí)!新語(yǔ)音和圖像輸入功能,讓ChatGPT能看、能聽(tīng)、能說(shuō)
ChatGPT重磅更新 OpenAI發(fā)布GPT-4 Turbo模型價(jià)格大降2/3
![<b class='flag-5'>ChatGPT</b><b class='flag-5'>重磅</b>更新 <b class='flag-5'>OpenAI</b>發(fā)布GPT-4 Turbo模型價(jià)格大降2/3](https://file1.elecfans.com/web2/M00/AC/E4/wKgaomVKD5OAaGI6AAEPx8sA-aU692.png)
評(píng)論