我们过去的观点里面:文字是精简的,抽象的;图像和视频体积一个比一个大,因为包含了很多的无效信息
然而 Deepseek 的 OCR 小模型,识别图象是直接用图像 token 而不是文本 token,精简 10 倍以上
也就是说:在 AI 眼里,图像和视频可以比文本更精简
这是反常识的,人类需要适应
我们过去的观点里面:文字是精简的,抽象的;图像和视频体积一个比一个大,因为包含了很多的无效信息
然而 Deepseek 的 OCR 小模型,识别图象是直接用图像 token 而不是文本 token,精简 10 倍以上
也就是说:在 AI 眼里,图像和视频可以比文本更精简
这是反常识的,人类需要适应
猜你喜欢
【1评论】【4点赞】
【90评论】【58点赞】
【36评论】【3点赞】
【3评论】【8点赞】
【7评论】【6点赞】
作者最新文章
热门分类
汽车TOP
汽车最新文章