AndrejKarpathy对DeepSeek-OCR的评价：------

蚁工厂 2025-10-21 09:16:58

Andrej Karpathy对 DeepSeek-OCR 的评价：

------------------

我很喜欢 DeepSeek-OCR 这篇新论文。它本身是一个很不错的 OCR 模型（可能比 dots.ocr 稍差一点），当然，它的成功离不开数据收集等工作，但这不重要。

对我来说，更有趣的部分在于它提出的一个核心问题（尤其我骨子里是个搞计算机视觉的，只是暂时伪装成搞自然语言处理的）：对于大语言模型（LLM）来说，像素（图像）会不会是比文本更好的输入形式？换句话说，我们现在用的文本令牌 (text tokens) 作为输入，是不是既浪费又糟糕？

也许，未来所有给 LLM 的输入都只应该是图像，这样可能更合理。就算你拿到的是纯文本，或许也应该先把它“渲染”成图片再输入给模型，因为这样做有几个显而易见的好处：

1️⃣更高的信息压缩率：就像这篇论文展示的那样，把文本转为图像，可以用更少的视觉令牌表示更多的内容。这意味着更短的上下文窗口和更高的效率。

2️⃣信息流变得更加通用：输入不再局限于纯文本，还可以轻松包含加粗、彩色文字以及任意图片等丰富格式。

3️⃣输入处理可以更强大：图像作为输入，可以很自然地默认使用双向注意力机制（bidirectional attention）进行处理，而不是自回归（autoregressive）方式，这通常会更强大。

4️⃣干掉（输入端的）分词器 (tokenizer)!!：我早就想吐槽分词器了。分词器是一个丑陋、独立、非端到端的模块。它引入了 Unicode、字节编码等所有历史遗留的麻烦，还带来了安全和越狱的风险（比如利用连续字节攻击）。它会让两个肉眼看起来一模一样的字符，在网络内部被识别成完全不同的令牌 (token)。一个笑脸 emoji，在模型看来只是一个奇怪的令牌，而不是一个由像素构成的、真正的笑脸，也无法利用到图像带来的迁移学习优势。分词器必须被淘汰。

OCR 只是众多有用的“视觉到文本”(vision -> text) 任务中的一种。而实际上，所有的“文本到文本”(text -> text) 任务都可以被转化为“视觉到文本”任务，反之则不行。

所以，未来可能用户的输入（User message）是图像，但模型的解码器输出（Assistant response）仍然是文本。毕竟，如何让模型逼真地输出像素图像，或者说我们是否真的需要它这样做，还是一个远未明确的问题。

现在我得克制一下自己，别立马就跑题去搞一个只有图像输入的 nanochat 版本了……