云知声推出创新大模型“山海”：实现多模态实时生成

2024年8月27日星期二

News

每天一分钟，AI资讯握手中

云知声公司今日发布了其最新多模态大模型“山海”，该模型集成了文本、音频和图像的生成与理解能力。通过统一的神经网络架构，山海能够接受多种输入格式，并实时生成相应的输出，无论是文本、音频还是图像。此技术的突破使得创作者和开发者能够在一个平台上实现多样化的互动体验，极大地提升了创作效率和用户参与度。

北京成立国内首个人工智能标准化研究机构

2024年世界机器人大会期间，北京人工智能标准化研究院正式成立。该研究院是国内首个致力于AI标准化的研究机构，将专注于制定和推广AI技术标准，以保障技术发展的规范性和安全性。研究院位于北京经济技术开发区，将成为推动中国乃至全球AI技术标准化的重要力量。

索尼旗下工作室顽皮狗加速AI技术应用，招募新兵扩大团队

索尼下属的顽皮狗工作室正在积极招募AI相关人才，以实现其创意领导Neil Druckmann的愿景，即通过AI技术“彻底改变内容创作方式”。顽皮狗希望通过这些新技术降低开发成本并突破技术限制，从而推动游戏和娱乐内容创作的创新。

亚马逊 AI 助手 'Amazon Q' 大幅提高开发效率

亚马逊 CEO 安迪·贾西宣布，其内部使用的AI助手 'Amazon Q' 已显著提升开发效率，特别是在自动化代码转换和应用程序升级方面。该工具将开发周期从数周缩短至几小时，预计一年内可节约4500名开发人员的工作量，显著降低了公司的人力成本。

Meta推出Sapiens视觉模型，深化人类动作理解

Meta最新推出的视觉模型Sapiens，能够精准分析和理解图片或视频中的人类动作。该模型结合了二维姿态预估、身体部位分割等多种技术，使其能在各种复杂场景下进行高精度的视觉任务处理。Sapiens的推出将大幅提升自动内容生成和增强现实技术的能力，特别是在交互式应用和虚拟现实领域。

西湖心辰推出突破性语音大模型 Lingo，性能超越GPT-40

西湖心辰科技最新推出的端到端语音大模型Lingo，在实时打断和指令控制方面表现出色，其中文语音效果被评为行业领先。Lingo模型将于下月在外滩大会上正式亮相并开放内测，预计将为语音交互技术带来革命性的进步。

摩尔线程发布开源音频理解大模型 MOoER，国产GPU加持

摩尔线程公司今天宣布开源其最新音频理解大模型MOoER，该模型是行业首个完全在国产GPU上训练和推理的大型语音模型。MOoER模型在处理中英文语音识别和翻译任务时展现出优异性能，特别是在Covost2中译英测试中取得了接近工业级的效果。

Meta推出个性化图像生成模型Imagine Yourself

Meta公司最近推出了一个创新的AI图像生成模型Imagine Yourself，该模型可以在没有特定对象微调的情况下生成个性化图像。此技术意在简化图像创建过程，提高生成效率，使用户能够更加快速地得到符合个人风格和需求的定制图像。

Meshy最新升级：一句话生成高质量3D资产

Meshy平台最新版本现已上线，用户现在可以通过简单的文本指令快速生成高质量的3D资产。这一升级大幅提高了模型的几何质量，无论是游戏开发者还是3D艺术家，都能够利用Meshy的强大功能，以前所未有的速度和准确度创造出复杂的3D模型和场景。

世良情感网