开云体育

开云app在线体育官网 “鲸鱼开眼”?DeepSeek灰度上线“识图格式”

发布日期:2026-05-02 22:28 点击次数:171

开云app在线体育官网 “鲸鱼开眼”?DeepSeek灰度上线“识图格式”

文丨晓静

裁剪|徐青阳

" Soon, we see you. "

DeepSeek 多模态团队负责东谈主陈小康在 X 平台发出这么一句话。配图中,DeepSeek 瑰丽性的蓝色鲸鱼,一只眼睛被玄色眼罩蒙住,另一只摘下了眼罩。

4 月 29 日,DeepSeek 正在网页端和 App 端灰度测试"识图格式",与"快速格式""各人格式"比肩,用户干预后可上传图片,并让 DeepSeek 对图片践诺进行交融、态状和分析。部分用户如故不错平素使用,另一些用户暗示诚然能看到进口,但会收到"识图格式暂不行用,请稍后再试"的指示。

但更准确地说,此次灰度上线的是多模态交融智商,而不是圆善意旨上的多模态生成智商。所谓"多模态",并不一定意味着同期具备识图、生图、语音、视频等沿途智商。只好模子梗概处理不啻一种输入模态,举例文本与图片,就不错被称为多模态智商。

但从腾讯科技体验来看,DeepSeek 此次绽开的主如果图片交融,也即是"看图、读图、分析图",尚未看到图像生成、视频交融或跨模态生成智商上线。

Deepseek 识图智商测试

实测 Deepseek 还不具备图片生成智商

从居品界面看,"识图格式"并不是毛糙附加在输入框中的图片上传功能,而是被放在与"快速格式""各人格式"统一级的居品进口中。用户干预后,页面会知道"使用识图格式驱动对话",输入框旁也出现图片上传按钮。这表现 DeepSeek 正在将视觉交融看成一个寂寞格式进行灰度,开云app在线体育并不是仅看成文本模子的赞助功能。

但现阶段,"识图格式"的居品定位更接近视觉问答、图片交融和截图分析,而非访佛文生图、图生图的视频或图像生成器用。

事实上,DeepSeek 并不是第一次作念多模态。

早在 2024 年,DeepSeek 就发布过 DeepSeek-VL 系列模子,主打果然寰宇视觉话语交融,消散图表、网页、公式、科学文件、当然图片等场景。尔后,DeepSeek 又推出过 Janus 系列,尝试将多模态交融和视觉生成放在协调框架下;Janus-Pro 曾经被视为 DeepSeek 在图像生成场地的一次弥留尝试。此外,DeepSeek 还发布过 DeepSeek-OCR,强调从诳言语模子角度重新友融视觉编码器的作用,面向文档、截图和结构化信息识别。

从本领悟径看,"识图"相似不是毛糙 OCR。OCR 主要处分的是图片中笔墨的识别,比如截图、单据、文档和表格;视觉话语模子则要进一步交融图片践诺,包括物体关系、图表含义、页面结构、场景态状和用户意图。

关于 DeepSeek 此次灰度的"识图格式"而言,底层看起来可能更像是勾通 OCR 与文本推理模子完成图片分析。

但当今,DeepSeek 官方尚未败露"识图格式"的底层模子称号、参数边界、纯熟神态和绽开贪图。DeepSeek API 文档当今仍主要知道 V4 Preview、V4-Pro、V4-Flash、1M 险峻文和器用调用等智商,并未出现 Vision、Image Input 或识图关系接口。这意味着,至少在 API 层面,DeepSeek 多模态智商尚未平定绽开。

但这一步对 DeepSeek 仍然弥留。以前一年,DeepSeek 的中枢标签主要洽商在推明智商、开源、低本钱和长险峻文。不管是 R1 如故 V4 Preview,DeepSeek 更卓越的齐是文本推理和 Agent 场景智商。"识图格式"的出现开云app在线体育官网,意味着 DeepSeek 可能行将在多模态智商上发力。

幸运彩票app官方手机版
开云体育 开云盘口 开云滚球 亚洲盘 欧洲盘 2026世界杯
电话:
邮箱:
地址:
开云app在线体育官网

Copyright © 1998-2026 开云app在线体育官网™版权所有

syqjxx.com 备案号 备案号: 

技术支持:®开云app  RSS地图 HTML地图

Powered by站群系统