2025年Next Token Prediction范式會統(tǒng)一多模態(tài)嗎
訓練方法與推理策略 性能評測體系 現(xiàn)存挑戰(zhàn)與未來方向 綜述的完整目錄如下: 多模態(tài)的 Tokeniz....
大連理工提出基于Wasserstein距離(WD)的知識蒸餾方法
自 Hinton 等人的開創(chuàng)性工作以來,基于 Kullback-Leibler 散度(KL-Div)....
SparseViT:以非語義為中心、參數(shù)高效的稀疏化視覺Transformer
? 背景簡介 隨著圖像編輯工具和圖像生成技術(shù)的快速發(fā)展,圖像處理變得非常方便。然而圖像在經(jīng)過處理后不....
港大提出SparX:強化Vision Mamba和Transformer的稀疏跳躍連接機制
本文分享香港大學計算和數(shù)據(jù)科學學院俞益洲教授及其研究團隊發(fā)表于 AAAI 2025 的論文——Spa....
準確性超Moshi和GLM-4-Voice,端到端語音雙工模型Freeze-Omni
GPT-4o 提供的全雙工語音對話帶來了一股研究熱潮,目前諸多工作開始研究如何利用 LLM 來實現(xiàn)端....
CNN, RNN, GNN和Transformer模型的統(tǒng)一表示和泛化誤差理論分析
背景介紹 本文是基于我們之前的 RPN(Reconciled Polynomial Network)....
經(jīng)典圖神經(jīng)網(wǎng)絡(GNNs)的基準分析研究
本文簡要介紹了經(jīng)典圖神經(jīng)網(wǎng)絡(GNNs)的基準分析研究,發(fā)表在 NeurIPS 2024。 文章回顧....
再登Nature!DeepMind大模型突破60年數(shù)學難題,解法超出人類已有認知
用大模型解決困擾數(shù)學家60多年的問題,谷歌DeepMind最新成果再登 Nature。 作者之一、谷....
OCR終結(jié)了?曠視提出可以文檔級OCR的多模態(tài)大模型框架Vary,支持中英文,已開源!
想將一份文檔圖片轉(zhuǎn)換成 Markdown 格式?以往這一任務需要文本識別、布局檢測和排序、公式表格處....
ICLR 2024高分投稿:用于一般時間序列分析的現(xiàn)代純卷積結(jié)構(gòu)
這篇是 ICLR 上用 TCN 來做一般的時間序列分析的論文,在 Rebuttal 之后的分數(shù)為 8....
DeepMind論文登上Nature:困擾數(shù)學家?guī)资甑碾y題,大模型發(fā)現(xiàn)全新解
除了模仿人類說話、寫作、寫代碼,大模型還能用來發(fā)現(xiàn)新知識。 作為今年 AI 圈的頂流,大型語言模型(....
大規(guī)模神經(jīng)網(wǎng)絡優(yōu)化:超參最佳實踐與規(guī)模律
從理論分析入手把握大規(guī)模神經(jīng)網(wǎng)絡優(yōu)化的規(guī)律,可以指導實踐中的超參數(shù)選擇。反過來,實踐中的超參數(shù)選擇也....
陶哲軒用 AI 形式化的證明究竟是什么?一文看懂 PFR 猜想的前世今生
正是包括兩位菲爾茲獎獲得者在內(nèi)四位數(shù)學家的堅持,才得以證明了一個堪稱「加性組合學圣杯」的猜想,其中 ....
星載傳算能力——天地一體化網(wǎng)絡在軌邊緣計算產(chǎn)業(yè)發(fā)展的攔路虎
2023年11月18日CCF YOCSEF太原在太原理工大學明向校區(qū)信計學院北樓一層會議室舉辦“衛(wèi)星....
任意文本、視覺、音頻混合生成,多模態(tài)有了強大的基礎引擎CoDi-2
研究者表示,CoDi-2 標志著在開發(fā)全面的多模態(tài)基礎模型領域取得了重大突破。 今年 5 月,北卡羅....
NeurIPS 2023 | AI Agents先行者CAMEL:首個基于大模型的多智能體框架
AI Agents 是當下大模型領域備受關注的話題,用戶可以引入多個扮演不同角色的 LLM Agen....
全新近似注意力機制HyperAttention:對長上下文友好、LLM推理提速50%
本文介紹了一項近似注意力機制新研究,耶魯大學、谷歌研究院等機構(gòu)提出了 HyperAttention,....
13B模型全方位碾壓GPT-4?這背后有什么貓膩
你的測試集信息在訓練集中泄漏了嗎? 一個參數(shù)量為 13B 的模型竟然打敗了頂流 GPT-4?就像下圖....