Mini-Omni：可以在流媒体中一边听一边思考的语言模型

Mini-Omni于09-03发布在博客/Ai项目

Mini-Omni是一个开源的多模型大语言模型，可以边听边思考。具有实时端到端语音输入和流音频输出对话功能。

Mini-Omni：可以在流媒体中一边听一边思考的语言模型(图1)

Mini-Omni特征:

实时语音对话功能。无需额外的 ASR 或 TTS 模型。
边说话边思考，能够同时生成文本和音频。
流媒体音频输出功能。
通过“音频到文本”和“音频到音频”批量推理进一步提升性能。

Mini-Omni是清华大学启元实验室开源的项目，能听、能说也能实时思考，在实时语音交互上媲美GPT-4o。

Mini-Omni项目地址：

https://github.com/gpt-omni/mini-omni

Buildel：一个无代码AI自动化工作流平台

HivisionIDPhotos：一款轻量级AI证件照制作工具

相关文章

最新文章

GoMaxAI：一个集合了ChatGPT、Midjourney、Suno、Sora视频等多类AI 功能的AIGC平台

GoMaxAI：一个集合了ChatGPT、Midjourney、Suno、Sora视频等多类AI 功能的AIGC平台

09-17

FaceSwap:一款识别和交换图片和视频中的面孔的工具

FaceSwap:一款识别和交换图片和视频中的面孔的工具

09-07

MoneyPrinterPlus：一键批量生成短视频及自动发布工具

MoneyPrinterPlus：一键批量生成短视频及自动发布工具

09-05

Buildel：一个无代码AI自动化工作流平台

Buildel：一个无代码AI自动化工作流平台

09-04

Mini-Omni：可以在流媒体中一边听一边思考的语言模型

Mini-Omni：可以在流媒体中一边听一边思考的语言模型

09-03

HivisionIDPhotos：一款轻量级AI证件照制作工具

HivisionIDPhotos：一款轻量级AI证件照制作工具

09-01

人生若只如初见

爱兔AI,遇见未来!

人生若只如初见

甄选好用的Ai工具
发现受欢迎的Ai产品榜
了解当前Ai产品动态和趋势

用户登录

其它登录方式

注册 | 忘记密码

客服

QQ咨询

微信客服
收录
关注我即可获取VIP资格

关注我，一起组团出道！
顶部