未來(lái),基礎(chǔ)科研領(lǐng)域的發(fā)展將構(gòu)筑于數(shù)據(jù)與人工智能的基礎(chǔ)之上。對(duì)此,我應(yīng)該抓住AI 2.0時(shí)代的發(fā)展契機(jī),積極構(gòu)建基礎(chǔ)科研數(shù)據(jù)庫(kù),高效利用人工智能技術(shù),搶占技術(shù)創(chuàng)新高地,實(shí)現(xiàn)材料、化學(xué)、物理等基礎(chǔ)科研領(lǐng)域的“彎道超車(chē)”。
材料、化學(xué)、物理等基礎(chǔ)科研領(lǐng)域的研究過(guò)程中充滿(mǎn)了“大數(shù)據(jù)”,從設(shè)計(jì)、實(shí)驗(yàn)、測(cè)試到證明等環(huán)節(jié),科學(xué)家們都離不開(kāi)數(shù)據(jù)的搜集、選擇和分析。人工智能技術(shù)(機(jī)器學(xué)習(xí)算法)擅長(zhǎng)在海量數(shù)據(jù)中尋找“隱藏”的因果關(guān)系,可用于解決基礎(chǔ)科研中的種種問(wèn)題,因此得到了科研工作者的廣泛關(guān)注。
近兩年,人工智能在材料、化學(xué)、物理等領(lǐng)域的研究上展現(xiàn)出巨大優(yōu)勢(shì),正在引領(lǐng)基礎(chǔ)科研的“后現(xiàn)代化”。在AI2.0時(shí)代,把握人工智能技術(shù)不僅意味著科研效率的提升,更意味著科研“彎道超車(chē)”機(jī)遇的到來(lái)。
一、人工智能如何影響材料、化學(xué)、物理等基礎(chǔ)科研?
2016年,谷歌AlphaGo的橫空出世,將世人的焦點(diǎn)吸引到了人工智能領(lǐng)域。短短兩年時(shí)間,人工智能技術(shù)在商業(yè)領(lǐng)域獲得了空前的成功。語(yǔ)音識(shí)別、圖像識(shí)別、無(wú)人駕駛、智慧金融等領(lǐng)域,無(wú)一不在影響著人們的生活。
但不為大眾所關(guān)注的是,人工智能技術(shù)在科研領(lǐng)域也掀起了巨大的“波瀾”。本文以2018年P(guān)hys.org網(wǎng)站(物理學(xué)家組織網(wǎng))和頂級(jí)期刊上的文章為基礎(chǔ),向大家介紹人智能在材料、化學(xué)、物理等領(lǐng)域如何產(chǎn)生作用。
(一)新材料領(lǐng)域
2018年7月,Keith Butler等人在《Nature》期刊上發(fā)表題為“分子和材料研究用的機(jī)器學(xué)習(xí)”的文章,對(duì)人工智能技術(shù)在材料、化學(xué)中的作用進(jìn)行了綜述。
文章認(rèn)為,計(jì)算化學(xué)/材料學(xué)的研究流程已經(jīng)更迭至第三代。第一代是“結(jié)構(gòu)-性能”計(jì)算,主要利用局部?jī)?yōu)化算法從結(jié)構(gòu)預(yù)測(cè)出性能;第二代為“晶體結(jié)構(gòu)預(yù)測(cè)”,主要利用全局優(yōu)化算法從元素組成預(yù)測(cè)出結(jié)構(gòu)與性能;第三代為“統(tǒng)計(jì)驅(qū)動(dòng)的設(shè)計(jì)”,主要利用機(jī)器學(xué)習(xí)算法從物理、化學(xué)數(shù)據(jù)預(yù)測(cè)出元素組成、結(jié)構(gòu)和性能。
其中,機(jī)器學(xué)習(xí)主要分為四個(gè)步驟:一是數(shù)據(jù)搜集,包括從實(shí)驗(yàn)、模擬和數(shù)據(jù)庫(kù)中獲取;二是數(shù)據(jù)選擇,包括格式優(yōu)化、噪點(diǎn)消除和特征提??;三是機(jī)器學(xué)習(xí)方法選擇,包括監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí);四是模型選擇,包括交叉驗(yàn)證、集成和異常檢測(cè)。
在實(shí)際的新材料研發(fā)中,人工智能技術(shù)已經(jīng)在文獻(xiàn)數(shù)據(jù)獲取、性能預(yù)測(cè)、測(cè)試結(jié)果分析等各環(huán)節(jié)展現(xiàn)出巨大優(yōu)勢(shì):
2018年1月,美國(guó)加州大學(xué)和馬薩諸塞大學(xué)的研究人員合作開(kāi)發(fā)人工智能平臺(tái),可自動(dòng)分析材料科學(xué)研究文獻(xiàn),并可根據(jù)文本中提及的合成溫度、時(shí)間、設(shè)備名稱(chēng)、制備條件及目標(biāo)材料等關(guān)鍵詞進(jìn)行自動(dòng)分類(lèi)。結(jié)果表明,該平臺(tái)識(shí)別文章段落的準(zhǔn)確度為99%,標(biāo)注關(guān)鍵詞的準(zhǔn)確度為86%。(發(fā)表于《MRSBulletin》)
2018年6月,美國(guó)斯坦福大學(xué)的物理學(xué)家開(kāi)發(fā)了一種新型的非監(jiān)督人工智能程序“Atom2Vec”。該程序只用幾個(gè)小時(shí),就“重新發(fā)現(xiàn)”了元素周期表。Atom2Vec是非監(jiān)督型人工智能,未來(lái)科學(xué)家們可以通過(guò)給它設(shè)定目標(biāo),引導(dǎo)其尋找新材料。(發(fā)表于《美國(guó)國(guó)家科學(xué)院學(xué)報(bào)》)
2018年9月,東京大學(xué)利用理論計(jì)算方法建立了與原子結(jié)構(gòu)相匹配的光譜數(shù)據(jù)庫(kù),并利用層聚類(lèi)和決策樹(shù)兩種機(jī)器學(xué)習(xí)方法,對(duì)光譜大數(shù)據(jù)進(jìn)行解釋和預(yù)測(cè)。結(jié)果表明,該方法可成功應(yīng)用于復(fù)雜光譜的解釋?zhuān)约安牧瞎庾V特征的預(yù)測(cè)。(發(fā)表于《Scientific Reports》)
(二)化學(xué)領(lǐng)域
2018年3月,上海大學(xué)Mark Waller團(tuán)隊(duì)在《Nature》期刊上發(fā)表題為“利用深度神經(jīng)網(wǎng)絡(luò)和符號(hào)AI規(guī)劃化學(xué)合成”的文章,引發(fā)了業(yè)內(nèi)的廣泛關(guān)注。
研究團(tuán)隊(duì)首先收集了截止到2014年發(fā)表過(guò)的幾乎所有的化學(xué)反應(yīng),加起來(lái)大約有1250萬(wàn)個(gè)反應(yīng)。然后,研究團(tuán)隊(duì)?wèi)?yīng)用深度神經(jīng)網(wǎng)絡(luò)及蒙特卡洛樹(shù)算法,成功地規(guī)劃了新的化學(xué)合成路線(xiàn),即便是權(quán)威的合成化學(xué)專(zhuān)家,也無(wú)法區(qū)分這款軟件與人類(lèi)化學(xué)家之間的區(qū)別。
與兩種傳統(tǒng)的合成方法相比(紅色和綠色),使用新型人工智能技術(shù)(藍(lán)色)在較短時(shí)間內(nèi)可以完成更多分子的合成路線(xiàn)預(yù)測(cè)。該研究是人工智能在化學(xué)合成領(lǐng)域的重大突破,Mark Waller也被媒體譽(yù)為“化學(xué)AlphaGo”的先驅(qū)。
“化學(xué)AlphaGo”僅是人工智能用于化學(xué)領(lǐng)域眾多案例中的一個(gè)。近年來(lái),人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)在合成化學(xué)、藥物化學(xué)等領(lǐng)域不斷產(chǎn)生新應(yīng)用,其熱度變得越來(lái)越高,有望為化學(xué)領(lǐng)域帶來(lái)革命性的變化。
2018年7月,英國(guó)格拉斯哥大學(xué)研究人員采用機(jī)器學(xué)習(xí)算法,開(kāi)發(fā)出可預(yù)測(cè)化學(xué)反應(yīng)的有機(jī)化學(xué)合成機(jī)器人。在學(xué)習(xí)了100種(10%)化學(xué)反應(yīng)后,該智能機(jī)器人能夠以80%的準(zhǔn)確度預(yù)測(cè)出其他化學(xué)反應(yīng),并且還能夠預(yù)測(cè)出人類(lèi)未知的新型化學(xué)反應(yīng)。(發(fā)表于《Nature》)
2018年7月,美國(guó)北卡羅來(lái)納大學(xué)開(kāi)發(fā)名為“結(jié)構(gòu)演化的機(jī)器學(xué)習(xí)”(ReLeaSE)的人工智能系統(tǒng),其包括兩個(gè)神經(jīng)網(wǎng)絡(luò),可學(xué)習(xí)170萬(wàn)個(gè)已知生物活性分子化學(xué)結(jié)構(gòu),并隨時(shí)間推移推測(cè)出新型藥物分子。(發(fā)表于《Science Advances》)
2018年7月,美國(guó)萊斯大學(xué)和賓夕法尼亞州立大學(xué)的研究人員合作,利用機(jī)器學(xué)習(xí)技術(shù)和量子化學(xué)模擬改善催化劑的設(shè)計(jì),可大幅節(jié)約時(shí)間與成本。利用量子化學(xué)模擬,研究人員可以創(chuàng)建出包含各類(lèi)催化劑屬性的數(shù)據(jù)庫(kù);機(jī)器學(xué)習(xí)技術(shù)可快速搜索數(shù)據(jù)庫(kù)中隱藏的模式,幫助研究人員設(shè)計(jì)更便宜、更高效的催化劑。(發(fā)表于《Natural Catalysis》)
(三)物理領(lǐng)域
2018年8月,美國(guó)能源部斯坦福直線(xiàn)加速器中心和費(fèi)米國(guó)家加速器實(shí)驗(yàn)室的研究人員合作,在《Nature》期刊上發(fā)表題為“在粒子物理學(xué)的能量和強(qiáng)度邊界應(yīng)用機(jī)器學(xué)習(xí)”的文章,總結(jié)了在粒子物理學(xué)的前沿使用機(jī)器學(xué)習(xí)所帶來(lái)的機(jī)遇和挑戰(zhàn)。
歐洲核子研究中心(CERN)的大型強(qiáng)子對(duì)撞機(jī)(LHC)是目前世界上最大的粒子加速器,其每秒可產(chǎn)生一百萬(wàn)吉字節(jié)(GB)的數(shù)據(jù)。如此海量的數(shù)據(jù),給存儲(chǔ)和分析帶來(lái)了極大難題。研究人員利用專(zhuān)用的硬件和軟件,通過(guò)機(jī)器學(xué)習(xí)技術(shù)來(lái)實(shí)時(shí)決定哪些數(shù)據(jù)需要保存,哪些數(shù)據(jù)可以丟棄。結(jié)果表明,機(jī)器學(xué)習(xí)算法可以至少做出其中70%的決定,大大減少了人類(lèi)科學(xué)家的工作量。
近期人工智能在物理學(xué)領(lǐng)域的應(yīng)用,除大型強(qiáng)子對(duì)撞機(jī)的數(shù)據(jù)分析外,還包括以下幾方面:
2018年9月,美國(guó)勞倫斯伯克利國(guó)家實(shí)驗(yàn)室的科研人員與英特爾、克雷公司的工程師合作,利用深度學(xué)習(xí)技術(shù)開(kāi)發(fā)出物理科學(xué)應(yīng)用程序CosmoFlow,可用于處理大型三維宇宙學(xué)數(shù)據(jù)集。(發(fā)表于arxiv.org)
2018年9月,美國(guó)加州大學(xué)伯克利分校Breakthrough Listen項(xiàng)目的研究人員利用機(jī)器學(xué)習(xí)基礎(chǔ),從距離地球約30億光年的光源中發(fā)現(xiàn)了72個(gè)新的宇宙無(wú)線(xiàn)電爆發(fā)。(發(fā)表于《The Astrophysical Journal》)
二、人工智能在基礎(chǔ)科研領(lǐng)域中扮演什么角色?
材料、化學(xué)、物理等基礎(chǔ)科研領(lǐng)域的發(fā)展,是大國(guó)科技競(jìng)爭(zhēng)力的重要保證,其直接決定了社會(huì)各方面進(jìn)步的步伐,重要性不言而喻。在AI 2.0時(shí)代,如何利用大數(shù)據(jù)挖掘和人工智能技術(shù)為基礎(chǔ)科研領(lǐng)域賦能,成為了基礎(chǔ)科學(xué)實(shí)現(xiàn)“彎道超車(chē)”的重要命題。
(一)傳統(tǒng)科研模式需要進(jìn)一步革新
2007年,圖靈獎(jiǎng)得主Jim Gray在NRC-CSTB大會(huì)上提出了科學(xué)研究的四類(lèi)范式:經(jīng)驗(yàn)科學(xué)(實(shí)驗(yàn)科學(xué))是第一范式,在研究方法上以歸納為主,帶有較多盲目性的觀測(cè)和實(shí)驗(yàn);理論科學(xué)是第二范式,偏重理論總結(jié)和理性概括,在研究方法上以演繹法為主;計(jì)算科學(xué)是第三范式,主要根據(jù)現(xiàn)有理論的模擬仿真計(jì)算,再進(jìn)行少量的實(shí)驗(yàn)驗(yàn)證;數(shù)據(jù)密集型科學(xué)即第四范式,它以大量數(shù)據(jù)為前提,運(yùn)用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘技術(shù),可從大量已知數(shù)據(jù)中得到未知理論。
以材料科學(xué)為例,當(dāng)前普遍采用的基礎(chǔ)科研模式主要以第一、二范式為主,第三范式為輔。在實(shí)際科研工作中,傳統(tǒng)模式帶來(lái)的問(wèn)題主要有:一是重復(fù)性勞動(dòng)過(guò)多,新材料研發(fā)環(huán)節(jié)中變量多,“試錯(cuò)法型”的實(shí)驗(yàn)量繁雜;二是“失敗實(shí)驗(yàn)”的數(shù)據(jù)遭拋棄,海量數(shù)據(jù)沉默,無(wú)法被人有效利用;三是耗時(shí)太長(zhǎng),以航空渦輪發(fā)動(dòng)機(jī)為例,單晶高溫合金葉片的研制周期往往長(zhǎng)達(dá)10年以上。
隨著互聯(lián)網(wǎng)時(shí)代的發(fā)展,數(shù)據(jù)傳播、分享的門(mén)檻大大降低,而計(jì)算機(jī)硬件計(jì)算能力的提升又令大數(shù)據(jù)的計(jì)算分析成為可能,從而催生了科學(xué)第四范式。隨著第四范式的誕生,所能解決的科學(xué)問(wèn)題的復(fù)雜度進(jìn)一步提升,勢(shì)必會(huì)給材料、化學(xué)、物理等基礎(chǔ)科研領(lǐng)域帶來(lái)效率和效果的極大提升?;A(chǔ)科研領(lǐng)域擁抱第四范式,已經(jīng)成為必然的趨勢(shì)。
(二)人工智能如何支撐基礎(chǔ)科研領(lǐng)域發(fā)展?
在AI 2.0時(shí)代,數(shù)據(jù)是最核心的資源,也是實(shí)踐基礎(chǔ)科研領(lǐng)域第四范式的基礎(chǔ)。當(dāng)前,不同科學(xué)領(lǐng)域數(shù)據(jù)庫(kù)的建設(shè),已經(jīng)受到各國(guó)的高度重視。例如,美國(guó)國(guó)立衛(wèi)生研究院的生物基因序列庫(kù)GenBank迄今已收錄超過(guò)2億條基因序列,并正以大約每18個(gè)月翻一番的速度增長(zhǎng);美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)院Materials Data Facility收集的數(shù)據(jù)量已達(dá)到12.5TB;日本物質(zhì)·材料研究機(jī)構(gòu)建設(shè)的MatNavi數(shù)據(jù)庫(kù)是關(guān)于高分子、陶瓷、合金、超導(dǎo)材料、復(fù)合材料和擴(kuò)散的世界上最大的數(shù)據(jù)庫(kù)之一。
21世紀(jì)以來(lái),“材料基因組”、“化學(xué)基因組”和各類(lèi)物理學(xué)數(shù)據(jù)庫(kù)的建設(shè)正加速進(jìn)行。在人工智能算法和計(jì)算機(jī)硬件不斷進(jìn)步的背景下,“數(shù)據(jù)挖掘+人工智能分析”已經(jīng)成為基礎(chǔ)科研領(lǐng)域快速發(fā)展的重要驅(qū)動(dòng)力:
人工智能變革科研數(shù)據(jù)的搜集、獲取方式。利用人工智能語(yǔ)義分析技術(shù),科研論文中的數(shù)據(jù)將更易搜集和獲取,解決了人工搜集科研數(shù)據(jù)效率低的問(wèn)題。
人工智能變革科研數(shù)據(jù)的分析方式與效率。利用深度神經(jīng)網(wǎng)絡(luò)及其他機(jī)器學(xué)習(xí)技術(shù),科學(xué)家們將可從海量的結(jié)構(gòu)化數(shù)據(jù)中高效獲得隱藏的因果關(guān)系,從而大幅提升數(shù)據(jù)分析效率。
未來(lái),基礎(chǔ)科研領(lǐng)域的發(fā)展將構(gòu)筑于數(shù)據(jù)與人工智能的基礎(chǔ)之上。對(duì)此,我應(yīng)該抓住AI 2.0時(shí)代的發(fā)展契機(jī),積極構(gòu)建基礎(chǔ)科研數(shù)據(jù)庫(kù),高效利用人工智能技術(shù),搶占技術(shù)創(chuàng)新高地,實(shí)現(xiàn)材料、化學(xué)、物理等基礎(chǔ)科研領(lǐng)域的“彎道超車(chē)”。
-
谷歌
+關(guān)注
關(guān)注
27文章
6203瀏覽量
106100 -
人工智能
+關(guān)注
關(guān)注
1796文章
47818瀏覽量
240604
原文標(biāo)題:高度關(guān)注:人工智能對(duì)材料、化學(xué)、物理等基礎(chǔ)科研的深刻影響
文章出處:【微信號(hào):drc_iite,微信公眾號(hào):全球技術(shù)地圖】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論