百度发布新模型，一次读完几十页文档，像人类一样只记重点

一句话总结

百度刚刚开源了一个叫 Unlimited OCR 的新模型，它能一口气读完几十页的文档，把每页的文字都识别出来，而且速度很快、不消耗太多电脑资源。对普通人意味着：以后扫描厚合同、长PDF或整本书时，不用一页一页手动处理，直接一次性搞定，结果更准确。

OCR（光学字符识别）就是把图片里的文字变成我们能编辑的文字。以前做长文档时，模型每读一页都要清空记忆，重新开始，最后再手动把各页结果拼在一起。这就像一个人抄书，每抄完一页就合上书，再从下一页重新读起——不仅效率低，还容易漏行、搞混顺序。

Unlimited OCR 模仿了人类抄书时的自然习惯：

这样，模型就像一位专心抄书的人，不会因为前面写过很多页而卡顿或迷路。

在权威测试集OmniDocBench上，Unlimited OCR综合得分达到93.92%，比之前最好的DeepSeek OCR高出6%以上。即使一次处理40页以上的超长文档，识别质量几乎没有下降。更关键的是，速度也提升了约35%——生成长文本时几乎匀速，不会越读越慢。

论文作者中有一位署名“YY”的技术总监，网友推测很可能是前DeepSeek OCR团队的核心研究员魏浩然。他之前参与开发了多个重要的OCR开源模型，这次加入百度带来了新的思路。

Unlimited OCR 的核心创新不在于识别文字本身，而在于它改变了AI“记东西”的方式。以前人们总是想让模型记住更多内容（扩大记忆容量），而它反其道而行之，教会模型如何“忘记”——只保留当前最需要的信息。这种思路未来还可能应用到语音识别、机器翻译等领域，让AI处理长任务时更高效。