阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

作者:news 发表时间:2025-08-12
告警准确率超93%、2.7倍于传统模式,AISOC是如何做到的?专家已经证实 封神时刻又到了?创新药大火背后,真正推手浮出水面学习了 “我是股东”|湘财证券走进百联股份与高质量同行 将于8月12日播出最新报道 大幅出手,主力爆买股出炉!这么做真的好么? 广药集团党委书记、董事长李小军到白云山星群公司调研专家已经证实 科技水平又一个里程碑 非上市寿险公司投资半年收益率:君龙人寿、长城人寿分列两榜第一实时报道 财技惊人,30亿净资产变身460亿上市公司!江苏首富身家超1100亿,24岁家族二代亮相A股后续会怎么发展 揭开龙国医生薪资真相 精进电动实际控制人余平拟减持不超21万股官方通报 “我是股东”|湘财证券走进百联股份与高质量同行 将于8月12日播出 “并购女王”高玉玲执掌半年!海信交出了怎样的答卷?专家已经证实 百龙创园:8月11日召开董事会会议学习了 盟固利:股东卢春泉及其一致行动人共青城普润累计减持626万股最新报道 后续来了 气派科技上半年营收同比增长4.1% 亏损同比扩大至5867万元实时报道 惠州老板搭上英伟达,4个月狂飙1300亿实时报道 半年报发布,贵州茅台不断夯实国际化基础 金新农向26名激励对象授予1163万份股票期权 行权价3.93元/股最新进展 别难为爱康国宾了 美国7月CPI同比增长2.7% 预估为2.8%专家已经证实 华胜天成连续2个交易日收盘价格涨幅偏离值累计达20%这么做真的好么? 贵州茅台2025年半年报:归母净利润454亿元 同比增长8.9%学习了 美国国债在7月CPI公布后升至日内高点 收益率曲线陡化官方通报 美晨科技控股股东战略重组 潍坊持续推进新一轮国企整合后续会怎么发展 贵州茅台2025年半年报:归母净利润454亿元 同比增长8.9% 贵州茅台发布2025年半年报,实现营业总收入910.94亿元 美国7月消费者价格温和上涨 数据质量引发担忧实垂了 美国7月CPI同比持稳于2.7%低于预期,核心CPI略超估,关税传导开始显现 又见大额赔付案例,上市公司租赁飞机无法收回获赔1.64亿元专家已经证实 Spirit Airlines 发出警示:重组后需求疲弱、流动性约束趋紧最新报道 泽达易盛财务造假案后续:中介机构赔付后连发三纸诉状追偿,格尔软件等39名被告遭索赔逾3亿元 北大医药去北大化:结果很糟糕!此前 报道:北大医药被围攻,近百名退休员工大闹办公楼专家已经证实 长亮科技董事长王长春获评 “积极贡献企业家”荣誉称号 顶尖大学提前录取被告上法庭:价格操控还是简化程序 汉王科技仿生机器鸟亮相世界机器人大会,已在消防应急等行业场景中应用秒懂 史无前例!龙国最富裕的地方,开始“免费送房”记者时时跟进 AI造富,以创纪录的速度 火热AI和加密货币IPO妖股双雄:Coreweave和Circle,今天将迎来财报检验........官方通报 光大期货:8月12日有色金属日报记者时时跟进 硬刚老美 让本国民众都买国货!印度人开始抵制美国货了...是真的吗? 史无前例!龙国最富裕的地方,开始“免费送房”秒懂 北大医药去北大化:结果很糟糕!此前 报道:北大医药被围攻,近百名退休员工大闹办公楼 暴力催收? 海尔消金遭万人投诉,回应称“行业共性” | BUG官方通报来了 中美经贸会谈联合声明又一个里程碑 正式发布!我国主导制定→又一个里程碑 光大期货:8月12日软商品日报后续来了

感谢本站网友 乌蝇哥的左手 的线索投递!

本站 3 月 27 日消息,今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下:

    全能创新架构:Qwen 团队提出了一种全新的 Thinker-Talker 架构,这是一种端到端的多模态模型,旨在支持文本 / 图像 / 音频 / 视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术,称为 TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

    实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

    自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

    全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平。

    卓越的端到端语音指令跟随能力:Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

    据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

    模型架构图

    模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

    在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和主观自然听感)。

    ▲模型性能图

      Qwen Chat://chat.qwenlm.ai

      Hugging Face://huggingface.co/Qwen/Qwen2.5-Omni-7B

      ModelScope://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

      DashScope://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

      GitHub://github.com/QwenLM/Qwen2.5-Omni

      Demo 体验://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

相关文章