DeepSeek開源新模型!單張A100日處理可超20萬頁數(shù)據(jù):宏鑫機械設(shè)備有限公司

DeepSeek又發(fā)新模型了,這次是一個OCR 模型宏鑫機械設(shè)備有限公司 。10月20日,DeepSeek在Github開源了這一新模型,并發(fā)布《DeepSeek-OCR:Contexts Optical Compression》(《DeepSeek OCR:上下文光學(xué)壓縮》)論文,解釋了這一成果。

DeepSeek開源新模型<strong></p>
<p>宏鑫機械設(shè)備有限公司
</strong>!單張A100日處理可超20萬頁數(shù)據(jù):宏鑫機械設(shè)備有限公司

論文提到,當前的大語言模型在處理過程中面臨著重大的計算挑戰(zhàn),文本內(nèi)容過長,因此團隊探索了一種具有潛力的解決方案:利用視覺模態(tài)作為文本信息的高效壓縮介質(zhì)宏鑫機械設(shè)備有限公司 。

具體來說,這一OCR模型可以將文本壓縮成視覺模態(tài),所謂“一圖勝千言”,這樣可以消耗更少的Token,測試顯示,通過文本到圖像的方法可以實現(xiàn)近 10 倍無損上下文壓縮,OCR 準確率還能保持在 97% 以上宏鑫機械設(shè)備有限公司 。

論文提到,在實際應(yīng)用中,單張A100-40G顯卡,可支持每日20萬頁以上的大語言模型/視覺語言模型訓(xùn)練數(shù)據(jù)生成宏鑫機械設(shè)備有限公司 。

簡單來看,團隊的思路是,既然一張圖就能包含大量文字信息,同時用的 Token 更少,那就可以將文本轉(zhuǎn)成圖像,這就是題目中提到的“光學(xué)壓縮”,用視覺模態(tài)壓縮文本信息宏鑫機械設(shè)備有限公司 。這一結(jié)果顯示出該方法在長上下文壓縮和大模型的記憶遺忘機制等研究方向上具有相當潛力。

DeepSeek-OCR由兩個核心組件組成,其中DeepEncoder(編碼器)負責(zé)圖像特征提取和壓縮,DeepSeek3B-MoE(解碼器)負責(zé)從壓縮后的視覺 Token 中重建文本宏鑫機械設(shè)備有限公司 。

解碼器用的是 DeepSeek-3B-MoE 架構(gòu)宏鑫機械設(shè)備有限公司 。雖然只有 3B 參數(shù),但采用了 MoE(混合專家)設(shè)計,64 個專家中激活 6 個,再加 2 個共享專家,實際激活參數(shù)約 5.7 億。這也讓模型既有 30 億參數(shù)模型的表達能力,又保持了5億參數(shù)模型的推理效率。

實驗數(shù)據(jù)顯示,當文本 token 數(shù)量在視覺 token 的 10 倍以內(nèi)(即壓縮率小于10倍)時,模型的解碼(OCR)精度可達 97%;即使在壓縮率達到 20倍的情況下,OCR 準確率仍保持在約60%宏鑫機械設(shè)備有限公司 。

DeepSeek 團隊在論文里還提出了具有想象力的未來——用光學(xué)壓縮模擬人類的遺忘機制宏鑫機械設(shè)備有限公司 。人類的記憶會隨時間衰退,越久遠的事情記得越模糊,那是否AI也能這樣?于是,團隊設(shè)計將更久遠的上下文,逐步縮小渲染圖像的大小,以進一步減少token消耗。隨著圖像越來越小,內(nèi)容也越來越模糊,最終達到“文本遺忘”的效果,就像人類記憶的衰退曲線一樣。

論文中提到,這還是個需要進一步調(diào)查的早期研究方向,但這對于平衡理論上無限的上下文信息是一個很好的方法,如果真能實現(xiàn),對于處理超長上下文將是個巨大突破宏鑫機械設(shè)備有限公司 。因此,這次發(fā)布的DeepSeek-OCR 表面上是個 OCR 模型,但從另一個角度來看,其研究代表了一個有前景的新方向。

有網(wǎng)友認為,這是一步好棋,人類就是閱讀視覺文字,同時理解物理世界的時空概念,如果能統(tǒng)一語言和視覺,可能通向超級智能宏鑫機械設(shè)備有限公司 。

這一OCR模型發(fā)布不久就在GitHub獲得超過1400顆星星宏鑫機械設(shè)備有限公司 。從論文署名來看,這一項目由 DeepSeek 三位研究員 Haoran Wei、Yaofeng Sun、Yukun Li 共同完成。行業(yè)消息顯示,其中一作 Haoran Wei 曾在階躍星辰工作過,曾主導(dǎo)開發(fā)了旨在實現(xiàn)“第二代 OCR”的 GOT-OCR2.0 系統(tǒng),因此由其主導(dǎo) DeepSeek 的 OCR 項目也在情理之中。

不過,DeepSeek遲遲不發(fā)R2這樣的新模型,市場已經(jīng)有一些聲音認為其落后了,也有觀點認為,DeepSeek目前只是在修煉“內(nèi)功”,為下一代模型蓄力宏鑫機械設(shè)備有限公司 。

(本文來自第一財經(jīng))

本站內(nèi)容來自用戶投稿,如果侵犯了您的權(quán)利,請與我們聯(lián)系刪除。聯(lián)系郵箱:835971066@qq.com

本文鏈接:http://www.machinery123.cn/post/1166.html