6616AI

百度发布新模型,一次读完几十页文档,像人类一样只记重点

2026-06-29

一句话总结

百度刚刚开源了一个叫 Unlimited OCR 的新模型,它能一口气读完几十页的文档,把每页的文字都识别出来,而且速度很快、不消耗太多电脑资源。对普通人意味着:以后扫描厚合同、长PDF或整本书时,不用一页一页手动处理,直接一次性搞定,结果更准确。

传统方法:一页一页读,再拼起来,又慢又容易错

OCR(光学字符识别)就是把图片里的文字变成我们能编辑的文字。以前做长文档时,模型每读一页都要清空记忆,重新开始,最后再手动把各页结果拼在一起。这就像一个人抄书,每抄完一页就合上书,再从下一页重新读起——不仅效率低,还容易漏行、搞混顺序。

新模型怎么做到一口气读完?

Unlimited OCR 模仿了人类抄书时的自然习惯:

  • 原书始终摊开在桌上:模型始终能看到整份文档的原始图片,不会丢失整体信息。
  • 手边只保留最近写下的几行:模型只记住自己刚生成的几十个字,用来确认当前进度,更早的内容自然“遗忘”。
  • 注意力固定,不随文档变长而膨胀:通过一个叫“参考滑动窗口注意力”的机制,无论文档有多长,模型用来记东西的内存(KV Cache)都保持固定大小。

这样,模型就像一位专心抄书的人,不会因为前面写过很多页而卡顿或迷路。

效果到底怎么样?

在权威测试集OmniDocBench上,Unlimited OCR综合得分达到93.92%,比之前最好的DeepSeek OCR高出6%以上。即使一次处理40页以上的超长文档,识别质量几乎没有下降。更关键的是,速度也提升了约35%——生成长文本时几乎匀速,不会越读越慢。

背后的人是谁?

论文作者中有一位署名“YY”的技术总监,网友推测很可能是前DeepSeek OCR团队的核心研究员魏浩然。他之前参与开发了多个重要的OCR开源模型,这次加入百度带来了新的思路。

为什么这件事不只关于OCR?

Unlimited OCR 的核心创新不在于识别文字本身,而在于它改变了AI“记东西”的方式。以前人们总是想让模型记住更多内容(扩大记忆容量),而它反其道而行之,教会模型如何“忘记”——只保留当前最需要的信息。这种思路未来还可能应用到语音识别、机器翻译等领域,让AI处理长任务时更高效。