DeepSeek-OCR 发布:1个视觉token,抵得上10个文本tokenagent智能体

OCR技术的演进,正在从“识别能力”走向“压缩效率”。本文深度解析DeepSeek-OCR如何通过上下文光学压缩实现SOTA级性能,以更少的视觉Token完成更精准的识别任务,重塑AI文档解析的工程范式,为产品人和技术团队提供一套可部署、可扩展的智能入口。智能体和ai的区别

DeepSeek-OCR 发布:1个视觉token,抵得上10个文本token

之前和 OpenAI 的做交流,突然提了一个问题文字,是信息压缩的最好方式吗?kimi手机版

当时没想太多,直到今天DeepSeek 开源了 DeepSeek-OCR用 10 个视觉 token,表达 100 个文本 tokenai开源什么意思

DeepSeek-OCR 发布:1个视觉token,抵得上10个文本token

github.com/deepseek-ai/DeepSeek-OCR龙虾ai下载

我突然意识到:这个问题可能有答案了具体对比:智能体和ai的区别

  • DeepSeek-OCR用100个token,超过了GOT-OCR2.0的256个token
  • DeepSeek-OCR用800个token,超过了MinerU2.0的6000+token
  • 即使压缩到20倍,准确率还有60%
DeepSeek-OCR 发布:1个视觉token,抵得上10个文本token

DeepSeek-OCR在不同压缩比下的准确率ai开源什么意思

为什么重要al工具

现在所有的多模态大模型都面临一个瓶颈:token 消耗太多了ai智能找客户

处理一页 PDF 就要消耗几千个 token如果你想处理一本书、一份研究报告、一堆财务文档context window 立刻就爆了每个 token 都要算钱、消耗显存、拖慢推理速度a1官方免费下载

DeepSeek-OCR 用数据告诉你10 倍压缩,几乎无损viggle ai

信息论视角agent智能体

对于这个问题Hacker News 上展开了很大的讨论a1官方免费下载

DeepSeek-OCR 发布:1个视觉token,抵得上10个文本token

是当前 Hacker News 上的最火话题龙虾ai下载

“为什么这种方法有效?”ai智能找客户

“是不是文本 token 太粒状了,没接近理想的熵编码?”可灵ai国际版

“切换到视觉 token 是不是逃脱了’一次一个词’的限制?”商汤科技

DeepSeek-OCR 发布:1个视觉token,抵得上10个文本token

Hacker News 评论第一条豆包打开

有个回答说的很有意思文本 token 本质上是离散的查找表你有个小整数(token ID)然后查表得到一个向量ai智能找客户

但视觉 token 是连续值向量没有查找表直接从图像编码成向量龙虾ai下载

这意味着什么?文本 token 的「token 空间」是有限的通常就 10 万个可能的 token每个 token 对应一小段 UTF-8 字节而且大多数分词器不会创建跨越词边界的 token即梦官网网页版

视觉 token 的「token 空间」要大得多它是高维浮点数向量,每个维度都可以取很多值所以视觉 token 能传达更多的 bits per token这才是压缩的关键即梦官网网页版

DeepSeek-OCR 发布:1个视觉token,抵得上10个文本token

另一个人补充文本 token 是子词单元视觉 token 在语义空间语义空间显然比子词切片压缩得多即梦官网网页版

DeepSeek-OCR 发布:1个视觉token,抵得上10个文本token

免责声明:我不懂ai的可怕之处

还有人从视觉角度解释人类就是通过视觉看文本的所以文本必须有适应视觉噪声的机制看起来相似的词不能出现在相似的上下文否则会混淆ai智能找客户

挺有意思的文本为了适应视觉识别反而在编码上有些”冗余”而视觉 token 直接在语义空间工作可以更高效所以 10 倍的压缩比ai无限制词,免费

从信息论角度看其实挺合理的DeepSeek-OCR 做的事情是把这个直觉量化了用实验数据证明:一图确实胜千言kimi手机版

当然,我并不是这个领域的,评价不到正确与否,有懂的兄弟,还请评论区指导商汤科技

怎么做到的agent智能体

DeepSeek 这个东西的核心是一个叫 DeepEncoder 的架构380M 参数ai的可怕之处

这东西的设计很讲究它由三部分组成80M 的 SAM-base + 16 倍的卷积压缩器 + 300M 的 CLIP-large龙虾ai下载

DeepSeek-OCR 发布:1个视觉token,抵得上10个文本token

DeepEncoder架构流程图agent智能体

这个设计有两个关键ai智能找客户

第一个关键是「低激活」大部分 VLM 的视觉编码器激活值特别大InternVL2-76B 的激活参数是 76BQwen2.5-VL-72B 的激活参数是 72BDeepSeek-OCR 的解码器虽然是 3B 参数但激活参数只有 570M因为它用了 MoE 架构每次只激活一部分专家这意味着推理时显存占用小、速度快a1官方免费下载

第二个关键是「多分辨率统一」它设计了 6 种模式从 Tiny 模式的 64 个 token到 Gundam 模式的 800+ 个 token你可以根据文档复杂度选择幻灯片用 Tiny 就够了报纸得用 Gundam豆包打开

另外值得一提的是DeepSeek-OCR 不只能识别文字还能「深度解析」文档里的图表、几何图形、化学式论文里叫这个能力 OCR 2.0比如金融报告里的图表它能直接转成结构化数据化学文档里的结构式它能转成 SMILES 格式百度ai虚拟聊天

DeepSeek-OCR 发布:1个视觉token,抵得上10个文本token

化学结构,也不在话下龙虾ai下载

这对金融、科研、教育领域太关键了ai智能体十大龙头

最有想象力的部分人工智能ia

论文最后有个很酷的设想kimi手机版

用降低图像分辨率来模拟人类的记忆遗忘可灵ai国际版

这个类比特别有意思人类记忆有个特点越久远的事情,记得越模糊刚发生的事,记得清清楚楚ai智能找客户

一小时前的事,还很清晰一天前的事,开始模糊一周前的事,已经很模糊一年前的事,几乎忘光了kimi手机版

视觉感知也是这样10cm 的东西看得清清楚楚20m 的东西几乎看不清DeepSeek-OCR 提出可以用分辨率来模拟这种衰减商汤科技

DeepSeek-OCR 提出了一个对应关系他们把不同的分辨率模式对应到人类记忆和视觉感知的清晰度等级这个类比是这样的千问是个什么软件

  • 一小时前的事,还很清晰,对应Gundam模式(800+tokens)
  • 一周前的事,已经很模糊,对应Base模式(256tokens)
  • 一年前的事,几乎忘光了,对应Tiny模式(64tokens)
DeepSeek-OCR 发布:1个视觉token,抵得上10个文本token

记忆遗忘机制:时间维度、距离维度、分辨率维度a1官方免费下载

最近的对话用高分辨率更早的对话逐渐降低分辨率这样既保留了历史信息又控制了 token 数量远期记忆自然「淡化」就像人类遗忘一样可灵ai国际版

这个设想论文里说还是早期阶段但想象空间很大如果真的能做到就能实现「理论上无限的 context window」viggle ai

因为你不需要保持所有信息的高保真度只需要让信息随时间衰减就像人类记忆一样a1官方免费下载

开源和局限agent智能体

整个项目采用 MIT 许可证开源代码、模型权重、技术论文全部公开viggle ai

DeepSeek-OCR 发布:1个视觉token,抵得上10个文本token

GitHub:人工智能ia

github.com/deepseek-ai/DeepSeek-OCR百度ai虚拟聊天

Hugging Face:viggle ai

huggingface.co/deepseek-ai/DeepSeek-OCR可灵ai国际版

说回来这个模型也有局限它不是聊天机器人因为没有 SFT 阶段某些能力需要用特定的 prompt 才能激活千问是个什么软件

超过 10 倍的压缩准确率会明显下降记忆遗忘机制还只是设想真正验证它在长上下文场景的效果需要更多实验agent智能体

但即使有这些局限DeepSeek-OCR 已经证明了一件事视觉-文本压缩这条路是走得通的al工具

最后kimi手机版

DeepSeek-OCR 最有价值的地方不在于它是一个好用的 OCR 工具而在于它用数据验证了一个假设视觉 token 确实可以更高效地表达信息ai无限制词,免费

现在所有的 VLM 都是几千个 token 起步推理慢、显存占用大、长文档处理困难如果能把视觉 token 压缩 10 倍还几乎无损整个多模态系统的效率都能提升一个量级智能体和ai的区别

记忆遗忘机制的设想也很有意思人类会遗忘不是因为大脑容量不够而是因为遗忘本身是一种优化策略viggle ai

你不需要记住所有细节只需要记住重要的、近期的信息如果这条路真的走通了可能会改变我们对长上下文问题的理解不是无限扩大 context window而是让信息自然衰减就像人类记忆一样viggle ai

回到开头 OpenAI 朋友的那个问题文字,是信息压缩的最好方式吗?DeepSeek-OCR 用数据给出了答案千问是个什么软件

而且,它是开源的任何人都可以用、可以改进、可以基于它做研究千问是个什么软件

 ai的可怕之处

作者【赛博禅心】,微信公众号:【赛博禅心】商汤科技

© 版权声明

相关文章