DeepSeek新OCR系统震撼来袭!压缩率90%信息保真97%

admin 百科 12

近日,deepseek正式发布全新ocr系统,使ai能够在不突破内存约束的前提下高效处理超长文档。其开源代码已托管于github:https://www.php.cn/link/9d55db9e54e6dfb6ae280528ee34a0a1 。该系统的核心创新在于——将文字内容视作图像进行压缩,相较直接处理原始文本,图像化表征显著降低计算开销。在确保97%信息完整保留的前提下,文档体积可压缩至原大小的十分之一。例如,一本百页级pdf经该系统处理后,所需token数量仅为原先的1/10,语言模型即可实现端到端精准解析。

DeepSeek OCR系统由两大核心组件协同构成:

一是图像编码模块 DeepEncoder,参数量达3.8亿,专用于将输入的文档图像解析为高度压缩的视觉token;
二是文本生成模块,基于 Deepseek-3B-MoE 架构微调而来,负责从视觉token中重建原始文字内容与文档结构。

技术层面,系统深度融合了Meta推出的 SAM(Segment Anything Model) 与OpenAI开发的 CLIP 模型:SAM承担细粒度局部区域分割任务,CLIP则提供跨模态语义对齐能力。二者之间嵌入一个16倍压缩单元,大幅削减视觉token总量。以一张1024×1024像素图像为例,初始生成4096个token,经压缩后仅剩256个,极大缓解CLIP模块的推理压力。在低分辨率场景下,单图仅需64个视觉token;高分辨率模式下亦不超过400个,而传统OCR方案通常需数千token才能完成同等精度识别。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

DeepSeek新OCR系统震撼来袭!压缩率90%信息保真97%-第1张图片-佛山资讯网

DeepSeek OCR不仅支持常规文字识别,还可精准解析图表、化学分子式、几何图形等复杂非文本元素。研究团队指出,系统能直接从上市公司财报中的折线图、柱状图中抽取结构化数值,并自动输出标准Markdown表格。在“深度解析模式”下,金融图表与几何示意图更可被重绘为矢量格式,同时完整保留图注、坐标说明及上下文标注。

基准测试结果表明,DeepSeek OCR在 OmniDocBench 综合评测中表现卓越:当仅使用100个视觉token时,性能已超越GOT-OCR 2.0在256 token下的表现;在800 token预算内,全面领先MinerU 2.0(后者每页平均消耗超6000 token)。其专属的 Gundam-M模式 在中英文混合文档识别任务中斩获最低编辑距离(Edit Distance)分数,达到当前最优水平。系统具备智能模式调度能力——面对简易演示文档自动启用64-token轻量模式;普通业务报告匹配约100-token配置;而面对排版密集的报纸类多栏文档,则激活“Gundam模式”,上限设为800 token。此外,还提供 Resize、Padding、Multi-page、Sliding 四种预处理策略,灵活兼顾多页文档的压缩效率与识别准确率。

标签: deepseek markdown git go github 编码 硬盘 工具 ai pdf openai 金融 大模

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~