OpenAI 刚刚发布了 GPT-4o,这是一种新的人工智能模式,集合了文本、图片、视频、语音的全能模型。GPT-4o可以实时推理文本、音频和视频。 它用途极其广泛,玩起来很有趣,并且是迈向更自然的人机交互形式(甚至人机机交互)的一步。
GPT-4o模型特点
全能模型:集成了文本、图片、视频、语音的处理能力。
实时响应:能够实时响应用户需求,通过语音回答问题。
视觉能力:识别物体,快速响应和回答问题,具有强逻辑推理能力。
性能提升:速度是 GPT-4 Turbo 的两倍,成本降低50%。
多语言支持:支持超过50种语言的注册、登录、用户设置等。
GPT-4o新功能
文本、推理和编码智能:达到 GPT-4 Turbo 水平。
多模态输入输出:整合文本、音频和图像输入,生成任意组合输出。
编码和数据分析能力:提供数据分析和图表创建功能。
图像理解与讨论:理解用户分享的图像,提供翻译、历史和推荐。
语音模式:计划推出新的语音模式,支持实时语音对话和视频对话。
用户访问
用户层次:向 ChatGPT Plus 和团队用户推出,企业用户即将可用。
消息限制:Plus 用户消息限制是 Free 用户的5倍。
逐步推出:文本和图像功能已开始推出,语音和视频功能计划在未来几周内推出。
GPT-4o其他更新
桌面应用程序:为 macOS 推出新的 ChatGPT 桌面应用程序。
用户界面改版:更友好、更会话的用户界面。
使命与目标:提供强大而高效的AI工具,基本免费,无广告干扰。
语音和视频模式:前所未有的计算机界面体验,接近人类水平的响应速度和表达能力。
GPT-4o什么时候可以用
GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。
将在免费版中提供 GPT-4o,并为 Plus 用户提供高达 5 倍的消息限制。
将在未来几周内在 ChatGPT Plus 中推出带有 GPT-4o 的 Voice Mode 的新版本。
开发者现在也可以通过 API 访问 GPT-4o 作为文本和视觉模型。
安全与测试
红队测试:与外部专家合作进行测试,涵盖多个领域。
持续风险缓解:发现并缓解新风险。
资源链接
详细功能介绍:https://openai.com/index/hello-gpt-4o/
Sam Altman评价
使命:创造AI并利用它为世界带来益处。
商业与免费服务:尽管OpenAI是商业机构,但目标是向全球提供免费的AI服务。
未来展望:个性化选项、访问用户信息、代表用户采取行动,使计算机使用更加激动人心。
注意事项
使用限制:Free 用户有使用限制,Plus 用户和团队用户有更高的限制。
性能与成本:GPT-4o 在API中的性能提升和成本效率显著。
语音模式:新语音模式将提供更自然的实时语音对话能力。
以上是OpenAI发布会的内容总结,涵盖了OpenAI发布的GPT-4o的主要特点、功能、用户访问方式、安全测试、未来展望以及Sam Altman的评价。
GPT-4o模型更详细的功能见下面链接: