Mini-Omni是一个开源的多模型大语言模型,可以边听边思考。具有实时端到端语音输入和流音频输出对话功能。
Mini-Omni特征:
实时语音对话功能。无需额外的 ASR 或 TTS 模型。
边说话边思考,能够同时生成文本和音频。
流媒体音频输出功能。
通过“音频到文本”和“音频到音频”批量推理进一步提升性能。
Mini-Omni是清华大学启元实验室开源的项目,能听、能说也能实时思考,在实时语音交互上媲美GPT-4o。
Mini-Omni项目地址:
Mini-Omni是一个开源的多模型大语言模型,可以边听边思考。具有实时端到端语音输入和流音频输出对话功能。
实时语音对话功能。无需额外的 ASR 或 TTS 模型。
边说话边思考,能够同时生成文本和音频。
流媒体音频输出功能。
通过“音频到文本”和“音频到音频”批量推理进一步提升性能。
Mini-Omni是清华大学启元实验室开源的项目,能听、能说也能实时思考,在实时语音交互上媲美GPT-4o。
Mini-Omni项目地址: