中文字幕无限乱码人妻,成人免费视频无码专区

一、研究背景

手寫數(shù)學(xué)公式識(shí)別是將包含數(shù)學(xué)表達(dá)式的圖像轉(zhuǎn)換為結(jié)構(gòu)表達(dá)式，例如LaTeX數(shù)學(xué)表達(dá)式或符號(hào)布局樹的過程。手寫數(shù)學(xué)表達(dá)式的識(shí)別已經(jīng)帶來了許多下游應(yīng)用，如在線教育、自動(dòng)評(píng)分和公式圖像搜索。在在線教育場(chǎng)景下，手寫數(shù)學(xué)表達(dá)式的識(shí)別率對(duì)提高學(xué)習(xí)效率和教學(xué)質(zhì)量至關(guān)重要。對(duì)比于傳統(tǒng)的文本符號(hào)識(shí)別（Optical Charac ter Recognition， OCR），公式識(shí)別具有更大的挑戰(zhàn)性。公式識(shí)別不僅需要從圖像中識(shí)別不同書寫風(fēng)格的符號(hào)，還需要建模符號(hào)和上下文之間的關(guān)系。例如，在LaTeX中，模型需要生成“^”、“_”、“{”和“}”來描述二維圖像中符號(hào)之間的位置和層次關(guān)系。編碼器-解碼器架構(gòu)由于可以編碼器部分進(jìn)行特征提取，在解碼器部分進(jìn)行語言建模，而在手寫數(shù)學(xué)公式識(shí)別任務(wù)（Handwritten Mathematical Expression Recognition， HMER）中被廣泛使用。雖然Transformer在自然語言處理領(lǐng)域已經(jīng)成為了基礎(chǔ)模型，但其在HMER任務(wù)上的性能相較于循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network， RNN）還不能令人滿意。作者觀察到現(xiàn)有的Transformer與RNN一樣會(huì)受到缺少覆蓋注意力機(jī)制的影響，即“過解析”——圖像的某些部分被不必要地多次解析，以及“欠解析”——有些區(qū)域未被解析。RNN解碼器使用覆蓋注意機(jī)制來緩解這一問題。然而，Transformer解碼器所采用的點(diǎn)積注意力沒有這樣的覆蓋機(jī)制，作者認(rèn)為這是限制其性能的關(guān)鍵因素。不同于RNN，Transformer中每一步的計(jì)算是相互獨(dú)立的。雖然這種特性提高了Transformer中的并行性，但也使得在Transformer解碼器中直接使用以前工作中的覆蓋機(jī)制變得困難。為了解決上述問題，作者提出了一種利用Transformer解碼器中覆蓋信息的新模型，稱為CoMER。受RNN中覆蓋機(jī)制的啟發(fā)，作者希望Transformer將更多的注意力分配到尚未解析的區(qū)域。具體地說，作者提出了一種新穎的注意精煉模塊（Attention Refinement Module， ARM），它可以在不影響并行性的前提下，根據(jù)過去的對(duì)齊信息對(duì)注意權(quán)重進(jìn)行精煉。同時(shí)為了充分利用來自不同層的過去對(duì)齊信息，作者提出了自覆蓋和交叉覆蓋，分別利用來自當(dāng)前層和前一層的過去對(duì)齊信息。作者進(jìn)一步證明，在HMER任務(wù)中，CoMER的性能優(yōu)于標(biāo)準(zhǔn)Transformer解碼器和RNN解碼器。

圖1 本文提出的具有注意力精煉模塊的Transformer模型

二、方法原理簡(jiǎn)述

CNN編碼器在編碼器部分，本文使用DenseNet作為編碼器。相較于ResNet，DenseNet在不同尺度特征圖上的密集連接能夠更好地反映出不同大小字符的尺度特征，有利于后續(xù)解碼不同位置大小字符的含義。為了使DenseNet輸出特征與解碼器模型尺寸對(duì)齊，作者在編碼器的末端增加了1 × 1的卷積層，得到輸出圖像特征

。

位置編碼與RNN解碼器不同，由于Transformer解碼器的Token之間不具有空間位置關(guān)系，額外的位置信息是必要的。在論文中，作者與BTTR［1］一致，同時(shí)使用圖像位置編碼和字符位置編碼。對(duì)于字符位置編碼，作者使用Transformer［2］中引入的1D位置編碼。給定編碼維數(shù)d，位置p，特征維索引i，則字符位置編碼向量

可表示為：

圖像位置編碼采用與［1，3］相同的二維歸一化位置編碼。由于模型需要關(guān)注的是相對(duì)位置，所以首先要將位置坐標(biāo)歸一化。給定二維坐標(biāo)元組，編碼維數(shù)為d，通過一維位置的拼接計(jì)算二維圖像位置編碼

。

其中和代表了輸入圖像特征的尺寸。注意力精煉模塊（ARM）如果在Transformer中直接采用RNN式的覆蓋注意力機(jī)制。那么將會(huì)產(chǎn)生一個(gè)具有空間復(fù)雜度的覆蓋矩陣，這樣的大小是難以接受的。問題的瓶頸在于覆蓋矩陣需要先與其他特征向量相加，再乘以向量。如果我們可以先將覆蓋矩陣與相乘，再加上LuongAttention［4］的結(jié)果，空間復(fù)雜度將大大降低到。因此作者將注意力機(jī)制修改為：

其中相似向量可分為注意項(xiàng)和精煉項(xiàng)。需要注意的是，精煉項(xiàng)可以通過覆蓋函數(shù)直接由累積向量生成，從而避免了具有為維數(shù)為的中間項(xiàng)。作者將上式命名為注意力精煉框架。

圖2 注意精煉模塊（ARM）的整體結(jié)構(gòu) 為了在Transformer中使用這一框架，作者提出了如圖2所示的注意精煉模塊（ARM）?？梢詫ransformer中的點(diǎn)積矩陣作為注意項(xiàng)，精煉項(xiàng)矩陣R需要從經(jīng)過Softmax后的注意權(quán)值A(chǔ)中計(jì)算出來。作者使用了注意權(quán)值A(chǔ)來提供歷史對(duì)齊信息，具體的選擇會(huì)在下一小節(jié)介紹。作者定義了一個(gè)將注意力權(quán)重作為輸入，輸出為精煉矩陣的函數(shù)：

其中是在時(shí)間步時(shí)的注意力權(quán)重。代表一個(gè)卷積核，*代表卷積操作。是一個(gè)偏置項(xiàng)，是一個(gè)線性投影矩陣。作者認(rèn)為函數(shù)可以提取局部覆蓋特征來檢測(cè)已解析區(qū)域的邊緣，并識(shí)別傳入的未解析區(qū)域。最終，作者通過減去精煉項(xiàng)R來達(dá)到精煉注意力項(xiàng)E的目的。覆蓋注意力本節(jié)將介紹注意權(quán)重A的具體選擇。作者提出了自覆蓋、交叉覆蓋以及融合覆蓋三種模式，以利用不同階段的對(duì)齊信息。自覆蓋：自覆蓋是指使用當(dāng)前層生成的對(duì)齊信息作為注意精煉模塊的輸入。對(duì)于當(dāng)前層j，首先計(jì)算注意權(quán)重，并對(duì)其進(jìn)行精煉。

其中代表了精煉后的點(diǎn)積結(jié)果。代表在j層精煉后的注意力權(quán)重。交叉覆蓋：作者利用Transformer中解碼層相互堆疊的特性，提出了一種新的交叉覆蓋方法。交叉覆蓋使用前一層的對(duì)齊信息作為當(dāng)前層ARM的輸入。j為當(dāng)前層，我們使用精煉后的注意力權(quán)重之前層來精煉當(dāng)前層的注意力項(xiàng)。

融合覆蓋：將自覆蓋和交叉覆蓋相結(jié)合，作者提出了一種新的融合覆蓋方法，充分利用從不同層生成的過去對(duì)齊信息。

其中表示來自當(dāng)前層的注意權(quán)重與來自前一層的精煉注意權(quán)重進(jìn)行拼接。

三、主要實(shí)驗(yàn)結(jié)果及可視化結(jié)果

表1 與先前工作在CROHME數(shù)據(jù)集上的效果的比較

從表1中可以看出，與使用覆蓋注意力機(jī)制的RNN的模型相比，CoMER在每個(gè)CROHME測(cè)試集上的性能優(yōu)于Ding等人［5］提出的先前最先進(jìn)的模型。在完全正確率ExpRate中，與之前性能最好的基于RNN的模型相比，CoMER平均提高了1.43%。與基于Transformer的模型相比，作者提出的帶有ARM和融合覆蓋的CoMER顯著提高了性能。具體而言，CoMER在所有指標(biāo)上都優(yōu)于基準(zhǔn)“BTTR”，在ExpRate中平均領(lǐng)先基準(zhǔn)“BTTR”3.6%。

表2 各模塊消融實(shí)驗(yàn)

在表2中，“Scale -aug”表示是否采用尺度增廣［6］。“Self-cov”和“Cross-cov”分別表示是否使用自覆蓋和交叉覆蓋。與BTTR相比，采用ARM和覆蓋機(jī)制的CoMER的性能有了明顯的提高。

圖3 不同算法在CROHME 2014數(shù)據(jù)集上不同長(zhǎng)度正確率的對(duì)比從圖3中可以看到，相較于基準(zhǔn)方法與本文提出的三種覆蓋方法，融合覆蓋可以大大增強(qiáng)模型對(duì)長(zhǎng)公式的識(shí)別率。這也驗(yàn)證了覆蓋機(jī)制能夠更好地引導(dǎo)注意力對(duì)齊歷史信息。

圖4 公式圖像識(shí)別中的精煉項(xiàng)R可視化。

如圖4所示，作者將識(shí)別過程中的精煉項(xiàng)R可視化。可以看到，經(jīng)過解析的區(qū)域顏色較深，這表明ARM將抑制這些解析區(qū)域的注意權(quán)重，鼓勵(lì)模型關(guān)注未解析區(qū)域?？梢暬瘜?shí)驗(yàn)表明，作者提出的ARM可以有效地緩解覆蓋不足的問題。

四、總結(jié)及討論

作者受RNN中覆蓋注意力的啟發(fā)，提出將覆蓋機(jī)制引入到Transformer解碼器中。提出了一種新的注意精煉模塊（ARM），使得在Transformer中進(jìn)行注意力精煉的同時(shí)不損害其并行計(jì)算特性成為可能。同時(shí)還提出了自覆蓋、交叉覆蓋和融合覆蓋的方法，利用來自當(dāng)前層和前一層的過去對(duì)齊信息來優(yōu)化注意權(quán)重。實(shí)驗(yàn)證明了作者提出的CoMER緩解了覆蓋不足的問題，顯著提高了長(zhǎng)表達(dá)式的識(shí)別精度。作者認(rèn)為其提出的注意精煉框架不僅適用于手寫數(shù)學(xué)表達(dá)式識(shí)別。ARM可以幫助精煉注意權(quán)重，提高所有需要?jiǎng)討B(tài)對(duì)齊的任務(wù)的對(duì)齊質(zhì)量。為此，作者打算將解碼器中的ARM擴(kuò)展為一個(gè)通用框架，用于解決未來工作中的各種視覺和語言任務(wù)（例如，機(jī)器翻譯、文本摘要、圖像字幕）。

原文作者： Wenqi Zhao， Liangcai Gao

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

解碼器

解碼器

+關(guān)注

關(guān)注
9

文章
1153

瀏覽量
40964
ARM

ARM

+關(guān)注

關(guān)注
134

文章
9180

瀏覽量
369507
編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3675

瀏覽量
135335

評(píng)論

相關(guān)推薦

如何使用MATLAB構(gòu)建Transformer模型

LanguageProcessing, NLP）中的序列到序列任務(wù)，如機(jī)器翻譯。Transformer 通過引入自注意力機(jī)制使得處理長(zhǎng)距離依賴關(guān)系時(shí)變得高效。因此 Vaswani 等人的論文強(qiáng)調(diào)“

發(fā)表于 02-06 10:21 ?626次閱讀

如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

【正點(diǎn)原子STM32H7R3開發(fā)套件試用體驗(yàn)】手寫數(shù)字、字母的識(shí)別

【正點(diǎn)原子STM32H7R3開發(fā)套件試用體驗(yàn)】手寫數(shù)字、字母的識(shí)別 本文介紹了利用正點(diǎn)原子提供的手寫識(shí)別庫(kù)，在STM32H7R3開發(fā)板上實(shí)現(xiàn) 0-9 數(shù)字和 A-Z，a-z 字母的

發(fā)表于 01-01 17:37

一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

機(jī)電系統(tǒng)中數(shù)據(jù)驅(qū)動(dòng)故障檢測(cè)模型的性能和可解釋性。引入了一種混合因果發(fā)現(xiàn)算法來發(fā)現(xiàn)監(jiān)測(cè)變量之間的繼承因果關(guān)系。順序連接因果變量的因果路徑用作接收?qǐng)?，使用多尺度卷積來提取特征。基于分層注意力機(jī)制來聚合

發(fā)表于 11-12 09:52 ?419次閱讀

一種基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網(wǎng)絡(luò)

Llama 3 模型與其他AI工具對(duì)比

、技術(shù)架構(gòu) Llama 3模型采用了最新的Transformer架構(gòu)，并結(jié)合了自注意力機(jī)制和分組查詢關(guān)注（GQA）機(jī)制。引入了高效的tokenizer和RoPE位置編碼，提高了語言

發(fā)表于 10-27 14:37 ?547次閱讀

matlab 神經(jīng)網(wǎng)絡(luò) 數(shù)學(xué)建模數(shù)值分析

matlab神經(jīng)網(wǎng)絡(luò) 數(shù)學(xué)建模數(shù)值分析精通的可以討論下

發(fā)表于 09-18 15:14

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

并捕捉長(zhǎng)距離依賴關(guān)系的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。Transformer通過編碼器（Encoder）和解碼器（Decoder）兩部分實(shí)現(xiàn)語言的編碼和解碼。 注意力機(jī)制：Transformer中的

發(fā)表于 08-02 11:03

llm模型有哪些格式

：基于Transformer的模型 Transformer是一種基于自注意力機(jī)制的模型，廣泛應(yīng)用于NLP領(lǐng)域?；?b class='flag-5'>Transformer的

發(fā)表于 07-09 09:59 ?791次閱讀

Transformer模型在語音識(shí)別和語音生成中的應(yīng)用優(yōu)勢(shì)

隨著人工智能技術(shù)的飛速發(fā)展，語音識(shí)別和語音生成作為人機(jī)交互的重要組成部分，正逐漸滲透到我們生活的各個(gè)方面。而Transformer模型，自其誕生以來，憑借其獨(dú)特的自注意力機(jī)制和并行計(jì)算

發(fā)表于 07-03 18:24 ?1347次閱讀

數(shù)學(xué)建模神經(jīng)網(wǎng)絡(luò)模型的優(yōu)缺點(diǎn)有哪些

數(shù)學(xué)建模神經(jīng)網(wǎng)絡(luò)模型是一種基于人工神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)建模方法，它通過模擬人腦神經(jīng)元的連接和信息傳遞機(jī)制，對(duì)復(fù)雜系統(tǒng)進(jìn)行

發(fā)表于 07-02 11:36 ?1034次閱讀

神經(jīng)網(wǎng)絡(luò)在數(shù)學(xué)建模中的應(yīng)用

數(shù)學(xué)建模是一種利用數(shù)學(xué)方法和工具來描述和分析現(xiàn)實(shí)世界問題的過程。神經(jīng)網(wǎng)絡(luò)是一種模擬人腦神經(jīng)元結(jié)構(gòu)和功能的計(jì)算模型，可以用于解決各種復(fù)雜問題。在數(shù)學(xué)建

發(fā)表于 07-02 11:29 ?1134次閱讀

Transformer 能代替圖神經(jīng)網(wǎng)絡(luò)嗎？

初設(shè)計(jì)之外的數(shù)據(jù)（如圖像和其他序列數(shù)據(jù)）。然后人們也開始優(yōu)化和尋找替代方案，主要是為了減少計(jì)算成本（自注意力機(jī)制的二次方成本）。關(guān)于哪種架構(gòu)在計(jì)算成本方面更優(yōu)的討論一

發(fā)表于 07-02 08:27 ?401次閱讀

無任何數(shù)學(xué)公式理解大模型基本原理

前言為什么我們使用chatgpt問一個(gè)問題,回答時(shí),他是一個(gè)字或者一個(gè)詞一個(gè)詞的蹦出來,感覺是有個(gè)人在輸入,顯得很高級(jí),其實(shí)這這一個(gè)詞一個(gè)詞蹦不是為了高級(jí)感,而是他的實(shí)現(xiàn)原理決定的,下面我們看下為什么是一個(gè)一個(gè)蹦出來的 ? ? 大模型的本質(zhì) 特斯拉前AI總監(jiān)Andrej Karpathy將大語言模型簡(jiǎn)單的描述為: 大模型的本質(zhì)就是兩個(gè)文件,一個(gè)是參數(shù)文件，一個(gè)是包含運(yùn)行這些參數(shù)的代碼文件。參數(shù)文件是組成整個(gè)神經(jīng)網(wǎng)絡(luò)的權(quán)重，代碼文件是用來運(yùn)行這個(gè)神

發(fā)表于 06-25 14:53 ?1475次閱讀

【大規(guī)模語言模型：從理論到實(shí)踐】- 閱讀體驗(yàn)

再次感謝電子發(fā)燒友提供的書籍試讀機(jī)會(huì)。今天來分享下我在學(xué)習(xí)大模型訓(xùn)練中 注意力機(jī)制 的心得體會(huì)。雖然注意力機(jī)制可以顯著提高模型處理長(zhǎng)序列數(shù)據(jù)的能力，但這也帶來了計(jì)算成本的增加。在大型

發(fā)表于 06-07 14:44

采用單片超構(gòu)表面與元注意力網(wǎng)絡(luò)實(shí)現(xiàn)快照式近紅外光譜成像

日前，北京理工大學(xué)王涌天教授、黃玲玲教授團(tuán)隊(duì)聯(lián)合張軍院士、邊麗蘅教授團(tuán)隊(duì)，采用單片超構(gòu)表面與元注意力網(wǎng)絡(luò)實(shí)現(xiàn)快照式近紅外光譜成像。

發(fā)表于 04-25 09:08 ?1254次閱讀

視覺Transformer基本原理及目標(biāo)檢測(cè)應(yīng)用

視覺Transformer的一般結(jié)構(gòu)如圖2所示，包括編碼器和解碼器兩部分，其中編碼器每一層包括一個(gè)多頭自注意力模塊（self-attention）和一個(gè)位置前饋神經(jīng)網(wǎng)絡(luò)(FFN)。

發(fā)表于 04-03 10:32 ?3900次閱讀