标签

#多模态

共 5 条相关资讯

AI资讯5 条

AI资讯AI大模型

热点

DeepMind发布新一代多模态AI模型Gemini Ultra 2.0，性能再创新高

Google DeepMind宣布其旗舰大模型Gemini Ultra 2.0正式上线，在多项基准测试中超越GPT-5，尤其在视频理解和复杂推理方面表现突出。

Google DeepMind今日正式发布了其最新一代多模态AI模型Gemini Ultra 2.0。据官方介绍，该模型在MMLU（大规模多任务语言理解）和MMMU（大规模多模态多任务理解）等多个权威基准测试中均取得了领先成绩，尤其在处理长视频内容理解和跨模态复杂推理任务时，展现出前所未有的能力。DeepMind表示，Gemini Ultra 2.0的推出将进一步推动AI在科研、教育和商业领域的应用，为用户提供更智能、更直观的交互体验。目前，该模型已开始向部分企业客户和开发者开放API接口，预计将在未来几个月内逐步向公众推广。

AI大模型多模态 Google DeepMind

来源：

DeepMind官方博客·The Verge·Google AI Blog

02.27

AI资讯AI大模型

开源社区发布多模态大模型Phoenix-3

新模型在图像和文本理解方面表现出色，并能生成高质量的代码，为开发者提供了更强大的工具。

近日，一个名为“Nexus AI”的开源社区发布了其最新的多模态大语言模型Phoenix-3。该模型不仅在传统的文本生成任务上表现优异，还展示了强大的图像理解和代码生成能力。根据官方发布的技术报告，Phoenix-3在多项基准测试中超越了部分商业模型。社区表示，他们希望通过开源模式，推动AI技术的普及和发展，让更多开发者能够参与到AI应用的创新中来。

Phoenix-3 开源大模型多模态代码生成

来源：

GitHub·TechCrunch

02.17

AI资讯AI大模型

热点

谷歌发布新一代AI模型Gemini 3，多模态能力再升级

在今日的开发者大会上，谷歌正式推出了其最新的Gemini 3系列大模型，展示了其在视频理解和长文本处理方面的显著进步。

Gemini 3能够直接处理和分析长达2小时的视频内容，并能处理超过100万字的文本上下文，创下行业新纪录。该模型在多个基准测试中超越了GPT-4等竞争对手，特别是在多模态任务上表现出色。谷歌CEO表示，Gemini 3将首先在企业级应用中部署，并逐步向消费者产品开放。

Gemini 3 谷歌多模态大语言模型

来源：

TechCrunch·谷歌AI博客

02.05

AI资讯AI大模型

DeepMind推出Gemini 2.5，主打端侧部署与多模态能力

谷歌旗下DeepMind发布新一代大模型Gemini 2.5，显著提升了在移动设备上的运行效率，并增强了对视频和音频的理解能力。

谷歌DeepMind今日正式发布其最新多模态大模型Gemini 2.5。新模型在保持强大性能的同时，大幅优化了模型结构，使其能够在智能手机等端侧设备上高效运行，延迟显著降低。此外，Gemini 2.5在视频理解和音频处理方面取得了突破，能够更精准地从复杂场景中提取信息并进行实时交互。此举被视为谷歌在AI领域与苹果、OpenAI竞争，抢占端侧AI入口的关键一步。

DeepMind Gemini 2.5 多模态端侧AI 谷歌

来源：

The Verge

01.22

AI资讯AI大模型

热点

OpenAI发布全新多模态大模型GPT-5，性能再创里程碑

GPT-5在理解和生成多种数据类型方面取得突破性进展，引发业界广泛关注。

OpenAI今日正式发布其最新一代多模态大模型GPT-5。据悉，GPT-5在文本、图像、音频乃至视频理解与生成方面均展现出前所未有的能力，特别是在跨模态推理和内容创作方面，其表现远超前代模型。此次发布预示着通用人工智能（AGI）的实现又迈出了坚实一步，有望彻底改变人机交互模式和内容生产流程，为各行各业带来颠覆性影响。

GPT-5 OpenAI 多模态 AGI 人工智能

来源：

OpenAI官方博客·TechCrunch

01.08