Mini-Omni是一个开源的多模型大语言模型,可以边听边思考。具有实时端到端语音输入和流音频输出对话功能。

Mini-Omni:可以在流媒体中一边听一边思考的语言模型(图1)

Mini-Omni特征:

  • 实时语音对话功能。无需额外的 ASR 或 TTS 模型。

  • 边说话边思考,能够同时生成文本和音频。

  • 流媒体音频输出功能。

  • 通过“音频到文本”和“音频到音频”批量推理进一步提升性能。

Mini-Omni是清华大学启元实验室开源的项目,能听、能说也能实时思考,在实时语音交互上媲美GPT-4o。

Mini-Omni项目地址:

Mini-Omni:可以在流媒体中一边听一边思考的语言模型