DeepSeek OCR 人工智能模型在单个 Nvidia A100 GPU 上每天可处理 20 万页文档

Nvidia A100 GPU（图片来源：Nvidia）

DeepSeek 正准备利用新的开源 OCR 压缩模型彻底改变人工智能学习。得益于其先进的光学编码技术，DeepSeek 每天可在单个 Nvidia A100 GPU 上学习 20 多万页文档。

Daniel Zlatev (translated by Ninh Duy), Published 10/22/2025 🇺🇸 🇪🇸 ...

AI Nvidia

随着人工智能数据中心和相关处理成本的激增，算法效率成为当务之急，而在这一点上，似乎没有任何语言模型能比 DeepSeek.DeepSeek 的模型是开源的，其训练成本远远低于 OpenAI 的 ChatGPT 或谷歌的 Gemini。

新发布的 DeepSeek-OCR 模型是学习效率的最佳范例。通过使用光学映射，它可以将超长文档转换为图像进行压缩，识别精度高达 97%，压缩比低于 10 倍。

通过使用先进的编码器和解码器，九个以上的文档文本标记可以转换成一个视觉标记，大大减少了处理内容所需的计算资源。即使在 20 倍压缩比的情况下，新的 DeepSeek-OCR 系统也能达到 60% 的光学识别准确率，这是前所未有的壮举。

得益于新的人工智能压缩算法，DeepSeek-OCR可以从单个Nvidia A100数据中心GPU以每天20万页的速度处理的科学或历史文本中学习。因此，一个20节点的A100集群每天可以处理3300万页文档，这是文本繁重的LLM学习模式的转变。根据OmniDocBench的排名，DeepSeek-OCR在每页使用的视觉令牌数量上远远超过GOT-OCR2.0或MinerU2.0等其他流行解决方案。

新的 DeepEncoder 算法可以处理各种尺寸和分辨率的文档，而不会降低速度或准确性，DeepSeek3B-MoE-A570M 解码器则依赖于所谓的专家混合架构，该架构将知识分布到每个 OCR 任务所需的专业模型中。因此，DeepSeel-OCR 可以处理包含图形、科学公式、图表或图像的复杂文档，即使是用多种语言编写的文档也不在话下。

为了达到这样的规模和精度，DeepSeek 用近 100 种语言处理了 3000 万页便携式文档格式（PDF），其中包括从报纸和科学手迹到教科书和博士论文等所有类别。尽管新的 DeepSeek-OCR 系统实现的可视化标记化的速度和效率是不可否认的，但与当前基于文本的标记范式相比，这是否会在实际推理时带来语言模型性能的提高，还有待观察。