據了解,1997年,兩位科學家Sepp Hochreiter和Jürgen Schmidhuber共同創(chuàng)建了長短期記憶(LSTM)神經網絡結構,用于改善循環(huán)神經網絡(RNN)的長期記憶功能。
近期,Hochreiter在arXiv平臺發(fā)表論文,推出了一款新型的XLSTM(擴展LSTM)架構,有效克服了傳統(tǒng)LSTM互聯(lián)網結構“僅能按時間順序處理信息”的局限性,有望挑戰(zhàn)當前熱門的Transformer架構。
該論文指出,Hochreiter在新的XLSTM架構中運用了指數型門控循環(huán)網絡,并引入了“sLSTM”和“mLSTM”兩種記憶規(guī)則,使神經網絡能夠更高效地利用RAM,實現(xiàn)類似于Transformer的并行化處理。
研究團隊通過對基于XLSTM和Transformer架構的兩款模型進行150億個Token的訓練和測試,結果顯示,XLSTM表現(xiàn)更為出色,特別是在“語言能力”方面表現(xiàn)尤為突出。因此,研究人員預測,未來XLSTM有可能與Transformer展開競爭。
-
神經網絡
+關注
關注
42文章
4783瀏覽量
101236 -
RAM
+關注
關注
8文章
1369瀏覽量
115068 -
架構
+關注
關注
1文章
520瀏覽量
25564
發(fā)布評論請先 登錄
相關推薦
如何使用MATLAB構建Transformer模型
![如何使用MATLAB構建<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>](https://file1.elecfans.com/web3/M00/07/4B/wKgZO2ekHTSALohNAAA6ahd1Llg923.png)
評論