Notebookcheck Logo

DeepSeek OCR 人工智能模型在单个 Nvidia A100 GPU 上每天可处理 20 万页文档

Nvidia A100 GPU(图片来源:Nvidia)
Nvidia A100 GPU(图片来源:Nvidia)
DeepSeek 正准备利用新的开源 OCR 压缩模型彻底改变人工智能学习。得益于其先进的光学编码技术,DeepSeek 每天可在单个 Nvidia A100 GPU 上学习 20 多万页文档。
AI Nvidia

随着人工智能数据中心和相关处理成本的激增,算法效率成为当务之急,而在这一点上,似乎没有任何语言模型能比 DeepSeek.DeepSeek 的模型是开源的,其训练成本远远低于 OpenAI 的 ChatGPT 或谷歌的 Gemini。

新发布的 DeepSeek-OCR 模型是学习效率的最佳范例。通过使用光学映射,它可以将超长文档转换为图像进行压缩,识别精度高达 97%,压缩比低于 10 倍。

通过使用先进的编码器和解码器,九个以上的文档文本标记可以转换成一个视觉标记,大大减少了处理内容所需的计算资源。即使在 20 倍压缩比的情况下,新的 DeepSeek-OCR 系统也能达到 60% 的光学识别准确率,这是前所未有的壮举。

得益于新的人工智能压缩算法,DeepSeek-OCR可以从单个Nvidia A100数据中心GPU以每天20万页的速度处理的科学或历史文本中学习。因此,一个20节点的A100集群每天可以处理3300万页文档,这是文本繁重的LLM学习模式的转变。根据OmniDocBench的排名,DeepSeek-OCR在每页使用的视觉令牌数量上远远超过GOT-OCR2.0或MinerU2.0等其他流行解决方案。

新的 DeepEncoder 算法可以处理各种尺寸和分辨率的文档,而不会降低速度或准确性,DeepSeek3B-MoE-A570M 解码器则依赖于所谓的专家混合架构,该架构将知识分布到每个 OCR 任务所需的专业模型中。因此,DeepSeel-OCR 可以处理包含图形、科学公式、图表或图像的复杂文档,即使是用多种语言编写的文档也不在话下。

为了达到这样的规模和精度,DeepSeek 用近 100 种语言处理了 3000 万页便携式文档格式(PDF),其中包括从报纸和科学手迹到教科书和博士论文等所有类别。尽管新的 DeepSeek-OCR 系统实现的可视化标记化的速度和效率是不可否认的,但与当前基于文本的标记范式相比,这是否会在实际推理时带来语言模型性能的提高,还有待观察。

资料来源

Please share our article, every link counts!
Mail Logo
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2025 10 > DeepSeek OCR 人工智能模型在单个 Nvidia A100 GPU 上每天可处理 20 万页文档
Daniel Zlatev, 2025-10-22 (Update: 2025-10-22)