阶跃星辰多模态开源模型上线GiteeAI，在线体验即将上线

2月18日，头部大模型创业公司阶跃星辰宣布开源了两款 Step 系列多模态模型——Step-Video-T2V视频生成模型和Step-Audio语音交互模型，现均已正式上线 Gitee AI 供开发们下载体验。

Step-Video-T2V：https://ai.gitee.com/hf-models/stepfun-ai/stepvideo-t2v

Step-Audio-Chat ：https://ai.gitee.com/hf-models/stepfun-ai/Step-Audio-Chat

Step-Video-T2V：性能领跑全球开源视频生成大模型

据阶跃星辰公布的数据，Step-Video-T2V模型的参数量达到 300 亿，可以直接生成 204 帧 540P 分辨率的高质量视频。这意味着生成的视频内容具有极高的信息密度和强大的一致性。

为了对开源视频生成模型的性能进行全面评测，阶跃发布并开源了针对文生视频质量评测的新基准数据集Step-Video-T2V-Eval。

该测试集包含 128 条源于真实用户的中文评测问题，旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等 11 个内容类别上质量。

测评结果显示，Step-Video-T2V的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现均显著超过市面上既有的效果最佳的开源视频模型。

在生成效果上，Step-Video-T2V 在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力，且语义理解和指令遵循能力突出，能够高效助力视频创作者实现精准创意呈现。

Step-Audio：业内首款产品级开源语音交互模型

Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤），方言（如粤语，四川话），可控制语速及韵律风格，支持 RAP 和哼唱等。其核心技术突破体现在以下四大技术亮点：

1300 亿多模态模型：单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能，开源千亿参数多模态模型 Step-Audio-Chat。高效数据生成链路：基于130B 突破传统 TTS 对人工采集数据的依赖，生成高质量的合成音频数据，并同步开源首个基于大规模合成数据训练，支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B 。精细语音控制：支持多种情绪（如生气，高兴，悲伤）、方言（包括粤语、四川话等）和唱歌（包括 RAP、干声哼唱）的精准调控，满足用户对多样化语音生成的需求。扩展工具调用：通过 ToolCall 机制和角色扮演增强，进一步提升其在 Agents 和复杂任务中的表现。

在LlaMA Question、Web Questions等 5 大主流公开测试集中，Step-Audio模型性能均超过了行业内同类型开源模型，位列第一。

此外，阶跃星辰还开源了多维度评估体系StepEval-Audio-360基准测试，从角色扮演、逻辑推理、生成控制、文字游戏、创作能力、指令控制等 9 项基础能力的维度对开源语音模型进行全面测评。

通过人工横评后的结果显示，Step-Audio的模型能力十分均衡，且在各个维度上均超过了此前市面上效果最佳的开源语音模型。

沐曦曦云 GPU 适配即将完成

在阶跃星辰正式开源之前，沐曦团队已与 Gitee AI 团队开始了前期模型适配的工作。目前适配工作已接近尾声，运行在沐曦曦云 GPU 的Step-Video-T2V视频生成模型和Step-Audio语音交互模型即将上线 Serverless API，供开发者们体验和调用，敬请关注。

曦云系列通用 GPU 产品（包括 C550、C500、C500X、C290、C280、N260 等型号）采用完全自主研发的 GPU IP，拥有完整的知识产权，并具备强大的多精度混合计算能力及高带宽显存支持。同时，沐曦产品搭载先进的时空互联技术和全球兼容的 MXMACA 软件栈，可广泛应用于智能、通用计算和数据处理等场景。