AndrejKarpathy对DeepSeek-OCR的评价:------

蚁工厂 2025-10-21 09:16:58

Andrej Karpathy对 DeepSeek-OCR 的评价:

------------------

我很喜欢 DeepSeek-OCR 这篇新论文。它本身是一个很不错的 OCR 模型(可能比 dots.ocr 稍差一点),当然,它的成功离不开数据收集等工作,但这不重要。

对我来说,更有趣的部分在于它提出的一个核心问题(尤其我骨子里是个搞计算机视觉的,只是暂时伪装成搞自然语言处理的):对于大语言模型(LLM)来说,像素(图像)会不会是比文本更好的输入形式? 换句话说,我们现在用的文本令牌 (text tokens) 作为输入,是不是既浪费又糟糕?

也许,未来所有给 LLM 的输入都只应该是图像,这样可能更合理。就算你拿到的是纯文本,或许也应该先把它“渲染”成图片再输入给模型,因为这样做有几个显而易见的好处:

1️⃣更高的信息压缩率:就像这篇论文展示的那样 ,把文本转为图像,可以用更少的视觉令牌表示更多的内容。这意味着更短的上下文窗口和更高的效率 。

2️⃣信息流变得更加通用:输入不再局限于纯文本,还可以轻松包含加粗、彩色文字以及任意图片等丰富格式。

3️⃣输入处理可以更强大:图像作为输入,可以很自然地默认使用双向注意力机制(bidirectional attention)进行处理,而不是自回归(autoregressive)方式,这通常会更强大。

4️⃣干掉(输入端的)分词器 (tokenizer)!!:我早就想吐槽分词器了。分词器是一个丑陋、独立、非端到端的模块。它引入了 Unicode、字节编码等所有历史遗留的麻烦,还带来了安全和越狱的风险(比如利用连续字节攻击)。它会让两个肉眼看起来一模一样的字符,在网络内部被识别成完全不同的令牌 (token)。一个笑脸 emoji,在模型看来只是一个奇怪的令牌,而不是一个由像素构成的、真正的笑脸,也无法利用到图像带来的迁移学习优势。分词器必须被淘汰。

OCR 只是众多有用的“视觉到文本”(vision -> text) 任务中的一种。而实际上,所有的“文本到文本”(text -> text) 任务都可以被转化为“视觉到文本”任务,反之则不行。

所以,未来可能用户的输入(User message)是图像,但模型的解码器输出(Assistant response)仍然是文本。毕竟,如何让模型逼真地输出像素图像,或者说我们是否真的需要它这样做,还是一个远未明确的问题。

现在我得克制一下自己,别立马就跑题去搞一个只有图像输入的 nanochat 版本了……

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注