欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OCR算法能較好識(shí)別水平排布的常規(guī)文本

電子工程師 ? 來源:CVer ? 作者:CVer ? 2022-08-08 16:04 ? 次閱讀

本文簡(jiǎn)要介紹ECCV 2022錄用的論文“When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition”的主要工作。該論文旨在緩解目前大部分基于注意力機(jī)制的手寫數(shù)學(xué)公式識(shí)別算法在處理較長(zhǎng)或者空間結(jié)構(gòu)較復(fù)雜的數(shù)學(xué)公式時(shí),容易出現(xiàn)的注意力不準(zhǔn)確的情況。本文通過將符號(hào)計(jì)數(shù)任務(wù)和手寫數(shù)學(xué)公式識(shí)別任務(wù)聯(lián)合優(yōu)化來增強(qiáng)模型對(duì)于符號(hào)位置的感知,并驗(yàn)證了聯(lián)合優(yōu)化和符號(hào)計(jì)數(shù)結(jié)果都對(duì)公式識(shí)別準(zhǔn)確率的提升有貢獻(xiàn)。

一、研究背景

OCR技術(shù)發(fā)展到今天,對(duì)于常規(guī)文本的識(shí)別已經(jīng)達(dá)到了較高的準(zhǔn)確率。但是對(duì)于在自動(dòng)閱卷、數(shù)字圖書館建設(shè)、辦公自動(dòng)化等領(lǐng)域經(jīng)常出現(xiàn)的手寫數(shù)學(xué)公式,現(xiàn)有OCR算法的識(shí)準(zhǔn)確率依然不太理想。不同于常規(guī)文本,手寫數(shù)學(xué)公式有著復(fù)雜的空間結(jié)構(gòu)以及多樣化的書寫風(fēng)格,如圖1所示。其中復(fù)雜的空間結(jié)構(gòu)主要是由數(shù)學(xué)公式獨(dú)特的分式、上下標(biāo)、根號(hào)等結(jié)構(gòu)造成的。雖然目前的OCR算法能較好地識(shí)別水平排布的常規(guī)文本,甚至對(duì)于一些多方向以及彎曲文本也能夠有不錯(cuò)的識(shí)別效果,但是依然不能很好地識(shí)別具有復(fù)雜空間結(jié)構(gòu)的數(shù)學(xué)公式。

563b8a44-16c2-11ed-ba43-dac502259ad0.png

圖1 手寫數(shù)學(xué)公式示例

二、研究動(dòng)機(jī)

現(xiàn)有的大部分手寫數(shù)學(xué)公式識(shí)別算法采用的是基于注意力機(jī)制的編碼器-解碼器結(jié)構(gòu),模型在識(shí)別每一個(gè)符號(hào)時(shí),需要注意到圖像中該符號(hào)對(duì)應(yīng)的位置區(qū)域。在識(shí)別常規(guī)文本時(shí),注意力的移動(dòng)規(guī)律比較單一,往往是從左至右或從右至左。但是在識(shí)別數(shù)學(xué)公式時(shí),注意力在圖像中的移動(dòng)具有更多的可能性。因此,模型在解碼較復(fù)雜的數(shù)學(xué)公式時(shí),容易出現(xiàn)注意力不準(zhǔn)確的現(xiàn)象,導(dǎo)致重復(fù)識(shí)別某符號(hào)或者是漏識(shí)別某符號(hào)。

為了緩解上述現(xiàn)象,本文提出將符號(hào)計(jì)數(shù)引入手寫數(shù)學(xué)公式識(shí)別。這種做法主要基于以下兩方面的考慮:1)符號(hào)計(jì)數(shù)(如圖2(a)所示)可以隱式地提供符號(hào)位置信息,這種位置信息可以使得注意力更加準(zhǔn)確(如圖2(b)所示)。2)符號(hào)計(jì)數(shù)結(jié)果可以作為額外的全局信息來提升公式識(shí)別的準(zhǔn)確率。

564af72c-16c2-11ed-ba43-dac502259ad0.png

圖2 (a)符號(hào)計(jì)數(shù)任務(wù);(b)符號(hào)計(jì)數(shù)任務(wù)讓模型擁有更準(zhǔn)確的注意力

三、方法簡(jiǎn)述

模型整體框架:如圖3所示,CAN模型由主干特征提取網(wǎng)絡(luò)、多尺度計(jì)數(shù)模塊(MSCM)和結(jié)合計(jì)數(shù)的注意力解碼器(CCAD)構(gòu)成。主干特征提取網(wǎng)絡(luò)采用的是DenseNet[1]。對(duì)于給定的輸入圖像,主干特征提取網(wǎng)絡(luò)提取出2D特征圖F。隨后該特征圖F被輸入到多尺度計(jì)數(shù)模塊MSCM,輸出計(jì)數(shù)向量V。特征圖F和計(jì)數(shù)向量V都會(huì)被輸入到結(jié)合計(jì)數(shù)的注意力解碼器CCAD來產(chǎn)生最終的預(yù)測(cè)結(jié)果。

5659117c-16c2-11ed-ba43-dac502259ad0.png

圖3 CAN模型整體框架

多尺度計(jì)數(shù)模塊:在人群計(jì)數(shù)等任務(wù)中,部分方法采用弱監(jiān)督的范式,在不需要使用人群位置標(biāo)注的情況下預(yù)測(cè)人群密度圖。本文借鑒了這一做法,在只使用公式識(shí)別原始標(biāo)注(即LaTeX序列)而不使用符號(hào)位置標(biāo)注的情況下進(jìn)行多類符號(hào)計(jì)數(shù)。針對(duì)符號(hào)計(jì)數(shù)任務(wù),該計(jì)數(shù)模塊做了兩方面獨(dú)特的設(shè)計(jì):1)用計(jì)數(shù)圖的通道數(shù)表征類別數(shù),并在得到計(jì)數(shù)圖前使用Sigmoid激活函數(shù)將每個(gè)元素的值限制在(0,1)的范圍內(nèi),這樣在對(duì)計(jì)數(shù)圖進(jìn)行H和W維度上的加和后,可以直接表征各類符號(hào)的計(jì)數(shù)值。2)針對(duì)手寫數(shù)學(xué)公式符號(hào)大小多變的特點(diǎn),采用多尺度的方式提取特征以提高符號(hào)計(jì)數(shù)準(zhǔn)確率。

56693f16-16c2-11ed-ba43-dac502259ad0.png

圖4 多尺度計(jì)數(shù)模塊MSCM

結(jié)合計(jì)數(shù)的注意力解碼器:為了加強(qiáng)模型對(duì)于空間位置的感知,使用位置編碼表征特征圖中不同空間位置。另外,不同于之前大部分公式識(shí)別方法只使用局部特征進(jìn)行符號(hào)預(yù)測(cè)的做法,在進(jìn)行符號(hào)類別預(yù)測(cè)時(shí)引入符號(hào)計(jì)數(shù)結(jié)果作為額外的全局信息來提升識(shí)別準(zhǔn)確率。

568c5d98-16c2-11ed-ba43-dac502259ad0.png

圖5 結(jié)合計(jì)數(shù)的注意力解碼器CCAD

四、實(shí)驗(yàn)結(jié)果

在廣泛使用的CROHME數(shù)據(jù)集以及新出現(xiàn)的HME100K[2]數(shù)據(jù)集上都進(jìn)行了實(shí)驗(yàn)并與之前的最優(yōu)方法做了比較。如表1和表2所示,可以看出CAN取得了目前最高的識(shí)別準(zhǔn)確率。此外,使用經(jīng)典模型DWAP[3]作為baseline得到的CAN-DWAP以及使用之前最優(yōu)模型ABM[4]作為baseline得到的CAN-ABM,其結(jié)果都分別優(yōu)于對(duì)應(yīng)的baseline模型,這說明本文所提出的方法可以被應(yīng)用在目前大部分編碼器-解碼器結(jié)構(gòu)的公式識(shí)別模型上并提升它們的識(shí)別準(zhǔn)確率。

表1 在CROHME數(shù)據(jù)集上的結(jié)果 56a7e824-16c2-11ed-ba43-dac502259ad0.png 表2 在HME100K數(shù)據(jù)集上的結(jié)果? 56e3dd5c-16c2-11ed-ba43-dac502259ad0.png ? 56f70800-16c2-11ed-ba43-dac502259ad0.png

圖6 在CROHME數(shù)據(jù)集上DWAP和CAN-DWAP的識(shí)別結(jié)果展示

對(duì)于模型各部分帶來的提升,本文做了消融實(shí)驗(yàn)。如表3所示,加入位置編碼、將兩種任務(wù)聯(lián)合優(yōu)化以及融合符號(hào)計(jì)數(shù)結(jié)果進(jìn)行預(yù)測(cè)都能提升模型對(duì)于手寫數(shù)學(xué)公式的識(shí)別準(zhǔn)確率。此外,為了驗(yàn)證采用多尺度的方式提取特征的有效性以及研究符號(hào)計(jì)數(shù)結(jié)果對(duì)于公式識(shí)別準(zhǔn)確率的影響,本文做了實(shí)驗(yàn)進(jìn)行驗(yàn)證。如表4所示,使用大小不同的卷積核提取多尺度特征有助于獲得更高的符號(hào)計(jì)數(shù)準(zhǔn)確率。并且計(jì)數(shù)結(jié)果越準(zhǔn)確,對(duì)公式識(shí)別的提升也越大。表5則展示了當(dāng)使用符號(hào)計(jì)數(shù)的GT(Ground Truth)時(shí)對(duì)于模型識(shí)別準(zhǔn)確率的提升。

表3 模型各部分帶來的提升

5710f17a-16c2-11ed-ba43-dac502259ad0.png

表4 計(jì)數(shù)模塊中卷積核大小的影響

572529f6-16c2-11ed-ba43-dac502259ad0.png 表5 符號(hào)計(jì)數(shù)結(jié)果對(duì)公式識(shí)別準(zhǔn)確率的影響? 5738e8e2-16c2-11ed-ba43-dac502259ad0.png

符號(hào)計(jì)數(shù)對(duì)于公式識(shí)別有促進(jìn)作用,那么反過來公式識(shí)別能否提升符號(hào)計(jì)數(shù)的準(zhǔn)確率呢?本文對(duì)這一問題也做了探討,實(shí)驗(yàn)結(jié)果和符號(hào)計(jì)數(shù)可視化結(jié)果如表6和圖7所示,可以看出公式識(shí)別任務(wù)也可以提升符號(hào)計(jì)數(shù)的準(zhǔn)確率。本文認(rèn)為這是因?yàn)楣阶R(shí)別的解碼過程提供了符號(hào)計(jì)數(shù)任務(wù)缺少的上下文語義信息。

表6 公式識(shí)別對(duì)符號(hào)計(jì)數(shù)準(zhǔn)確率的影響

57473e9c-16c2-11ed-ba43-dac502259ad0.png

5757917a-16c2-11ed-ba43-dac502259ad0.png 圖7 符號(hào)計(jì)數(shù)結(jié)果及計(jì)數(shù)圖可視化

五、文本結(jié)論

本文設(shè)計(jì)了一種新穎的多尺度計(jì)數(shù)模塊,該計(jì)數(shù)模塊能夠在只使用公式識(shí)別原始標(biāo)注(即LaTeX序列)而不使用符號(hào)位置標(biāo)注的情況下進(jìn)行多類別符號(hào)計(jì)數(shù)。通過將該符號(hào)計(jì)數(shù)模塊插入到現(xiàn)有的基于注意力機(jī)制的編碼器-解碼器結(jié)構(gòu)的公式識(shí)別網(wǎng)絡(luò)中,能夠提升現(xiàn)有模型的公式識(shí)別準(zhǔn)確率。此外,本文還驗(yàn)證了公式識(shí)別任務(wù)也能通過聯(lián)合優(yōu)化來提升符號(hào)計(jì)數(shù)的準(zhǔn)確率。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3673

    瀏覽量

    135281
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3329

    瀏覽量

    49245
  • OCR
    OCR
    +關(guān)注

    關(guān)注

    0

    文章

    147

    瀏覽量

    16433

原文標(biāo)題:ECCV 2022 | 白翔團(tuán)隊(duì)提出CAN:手寫數(shù)學(xué)公式識(shí)別新算法

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    提供銀行卡識(shí)別API免費(fèi)接入的OCR SDK開發(fā)者平臺(tái)

    戶進(jìn)行綁定銀行卡的操作,而這時(shí)實(shí)現(xiàn)“拍照輸入銀行卡號(hào)”的云脈OCR銀行卡識(shí)別技術(shù),就成了他們的香餑餑了。云脈銀行卡識(shí)別,它是利用OCR技術(shù)
    發(fā)表于 09-16 17:35

    首發(fā) | 告別手動(dòng)錄入,開放平臺(tái)OCR上線印刷文字識(shí)別!

    的就是印刷字體的轉(zhuǎn)化。二、印刷文字識(shí)別應(yīng)用廣泛正如文章開頭我們提到的,生活中有很多需要將印刷字體轉(zhuǎn)換為設(shè)備可編輯的文本場(chǎng)景。而作為OCR家族的重要成員,印刷文字識(shí)別在這時(shí)候就大有作為,
    發(fā)表于 05-17 15:18

    c#+halcon1.5 ocr字符識(shí)別

    `一直以來halcon都是工業(yè)界高效穩(wěn)定準(zhǔn)確的視覺算法庫(kù)的代表,其定位,檢測(cè)和識(shí)別算法都比較好,有很多學(xué)員不太了解其ocr字符
    發(fā)表于 07-26 01:36

    自編通用視覺框架實(shí)現(xiàn)基本算子以及OCR識(shí)別功能

    進(jìn)行算法添加,如下圖:利用左鍵以下拉列表的形式設(shè)置算法參數(shù)至表格中如下圖:然后將表格數(shù)據(jù)轉(zhuǎn)換視覺參數(shù)進(jìn)行有序的步驟運(yùn)行:OCR字符識(shí)別在上次的公眾文章中有進(jìn)行講解,這里就不多說了,我們
    發(fā)表于 08-16 17:56

    Python OCR 識(shí)別庫(kù)-ddddocr

    與易用,讓不會(huì)用 opencv, pytorch, tensorflow 的小伙伴也快速的破解網(wǎng)站的登錄驗(yàn)證碼。小伙伴們?nèi)绻衅渌玫?ocr 識(shí)別也可以在留言中分享出來。
    發(fā)表于 03-30 17:26

    【KV260視覺入門套件試用體驗(yàn)】七、VITis AI字符和文本檢測(cè)(OCR&Textmountain)

    _pt sample_ocr.jpg OCR 該網(wǎng)絡(luò)用于光學(xué)字符識(shí)別,包括文本檢測(cè)和文本識(shí)別
    發(fā)表于 09-26 16:31

    基于FPGA的OCR文字識(shí)別技術(shù)的深度解析

    OCR在通用文字識(shí)別等場(chǎng)景下有廣泛應(yīng)用,基于FPGA異構(gòu)加速的OCR識(shí)別相比CPU/GPU實(shí)現(xiàn)具有延時(shí)小、成本低的優(yōu)勢(shì)。我們?cè)O(shè)計(jì)了多FPGA芯片協(xié)同的異構(gòu)加速架構(gòu),
    發(fā)表于 01-26 12:19 ?4061次閱讀

    關(guān)于開放平臺(tái)OCR上線印刷文字識(shí)別的介紹

    我們?yōu)槭裁从?b class='flag-5'>OCR?因?yàn)榭梢钥焖賹⑽淖洲D(zhuǎn)為可在設(shè)備上編輯的數(shù)字文本。因此能夠得到用戶青睞的OCR小編認(rèn)為應(yīng)能夠準(zhǔn)確生成文本,所見即所得,同時(shí)對(duì)不同字體,不同環(huán)境,不同顏色形狀的
    的頭像 發(fā)表于 09-27 09:51 ?2691次閱讀

    一篇包羅萬象的場(chǎng)景文本檢測(cè)算法綜述

    提到文本檢測(cè)識(shí)別,我們會(huì)聯(lián)想到的一個(gè)詞就是 OCR,OCR 是光學(xué)字符識(shí)別 Optical Character Recognition的簡(jiǎn)稱
    的頭像 發(fā)表于 08-21 14:18 ?6116次閱讀

    OCR識(shí)別技術(shù)

    在爬蟲對(duì)驗(yàn)證碼進(jìn)行破解時(shí),經(jīng)常需要對(duì)圖片中的文字內(nèi)容進(jìn)行識(shí)別,這時(shí)就需要用到OCR技術(shù)了,那么 OCR識(shí)別技術(shù)是如何實(shí)現(xiàn)對(duì)文字內(nèi)容“即拍即得”的呢?
    的頭像 發(fā)表于 03-12 09:07 ?4878次閱讀

    一篇包羅萬象的場(chǎng)景文本檢測(cè)算法綜述

    提到文本檢測(cè)識(shí)別,我們會(huì)聯(lián)想到的一個(gè)詞就是 OCR,OCR 是光學(xué)字符識(shí)別 Optical Character Recognition的簡(jiǎn)稱
    的頭像 發(fā)表于 04-15 14:52 ?3727次閱讀
    一篇包羅萬象的場(chǎng)景<b class='flag-5'>文本</b>檢測(cè)<b class='flag-5'>算法</b>綜述

    機(jī)器視覺運(yùn)動(dòng)控制一體機(jī)應(yīng)用例程|OCR字符識(shí)別應(yīng)用

    應(yīng)用背景 OCR字符識(shí)別的應(yīng)用場(chǎng)景非常廣泛,例如在生產(chǎn)型企業(yè)領(lǐng)域中,OCR具有多樣性的應(yīng)用,比如讀取儀表儀器上的文本,進(jìn)行實(shí)時(shí)監(jiān)控、讀取產(chǎn)品上的生產(chǎn)日期、批號(hào),以此來獲得產(chǎn)品的信息和可
    的頭像 發(fā)表于 02-24 17:27 ?1469次閱讀
    機(jī)器視覺運(yùn)動(dòng)控制一體機(jī)應(yīng)用例程|<b class='flag-5'>OCR</b>字符<b class='flag-5'>識(shí)別</b>應(yīng)用

    OCR實(shí)戰(zhàn)教程

    OCR 是光學(xué)字符識(shí)別(英語:Optical Character Recognition,OCR)是指對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理,
    的頭像 發(fā)表于 02-24 10:36 ?1074次閱讀
    <b class='flag-5'>OCR</b>實(shí)戰(zhàn)教程

    easyocr:超級(jí)簡(jiǎn)單且強(qiáng)大的OCR文本識(shí)別工具

    今天給大家介紹一個(gè)超級(jí)簡(jiǎn)單且強(qiáng)大的OCR文本識(shí)別工具: easyocr . 這個(gè)模塊支持70多種語言的即用型OCR,包括中文,日文,韓文和泰文等。 下面是這個(gè)模塊的實(shí)戰(zhàn)教程。 1.準(zhǔn)備
    的頭像 發(fā)表于 10-30 09:30 ?3014次閱讀
    easyocr:超級(jí)簡(jiǎn)單且強(qiáng)大的<b class='flag-5'>OCR</b><b class='flag-5'>文本</b><b class='flag-5'>識(shí)別</b>工具

    OCR如何自動(dòng)識(shí)別圖片文字

    OCR 是光學(xué)字符識(shí)別(英語:Optical Character Recognition,OCR)是指對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理,
    的頭像 發(fā)表于 10-31 16:45 ?853次閱讀
    <b class='flag-5'>OCR</b>如何自動(dòng)<b class='flag-5'>識(shí)別</b>圖片文字