实用软件

美团发布并开源 LongCat-Flash-Omni 模型:支持实时音视频交互,达到 SOTA 水平

辅助网|游戏辅助·软件教程·建站源码一站式导航

2025-11-03 12:30约 1 分钟阅读阅读 172

1 月 3 日消息,9 月 1 日,美团正式发布 LongCat-Flash 系列模型,现已开源 LongCat-Flash-Chat 和 LongCat-Flash-Thinking 两大版本,获得了开发者的关注。今天 LongCat-Flash 系列正式发布全新家族成员 ——LongCat-Flash-Omni。

从官方介绍获悉,LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架构设计为基础( Shortcut-Connected MoE,含零计算专家),同时创新性集成了高效多模态感知模块与语音重建模块。即便在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现了低延迟的实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。

综合评估结果表明,LongCat-Flash-Omni 在全模态基准测试中达到开源最先进水平(SOTA),同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。LongCat-Flash-Omni 是业界首个实现 “全模态覆盖、端到端架构、大参数量高效推理” 于一体的开源大语言模型,首次在开源范畴内实现了全模态能力对闭源模型的对标,并凭借创新的架构设计与工程优化,让大参数模型在多模态任务中也能实现毫秒级响应,解决了行业内推理延迟的痛点。

责编:暂无

免责声明:本文内容来源于公开网络或合规渠道,仅用于信息交流与学习参考,不构成任何商业建议或结论。若涉及版权或权利争议,请联系我们核实后及时处理。