综合资讯平台
返回标签列表
标签

#多模态

共 5 条相关资讯

AI资讯5 条
AI资讯AI大模型
热点

DeepMind发布新一代多模态AI模型Gemini Ultra 2.0,性能再创新高

Google DeepMind宣布其旗舰大模型Gemini Ultra 2.0正式上线,在多项基准测试中超越GPT-5,尤其在视频理解和复杂推理方面表现突出。

Google DeepMind今日正式发布了其最新一代多模态AI模型Gemini Ultra 2.0。据官方介绍,该模型在MMLU(大规模多任务语言理解)和MMMU(大规模多模态多任务理解)等多个权威基准测试中均取得了领先成绩,尤其在处理长视频内容理解和跨模态复杂推理任务时,展现出前所未有的能力。DeepMind表示,Gemini Ultra 2.0的推出将进一步推动AI在科研、教育和商业领域的应用,为用户提供更智能、更直观的交互体验。目前,该模型已开始向部分企业客户和开发者开放API接口,预计将在未来几个月内逐步向公众推广。

AI资讯AI大模型

开源社区发布多模态大模型Phoenix-3

新模型在图像和文本理解方面表现出色,并能生成高质量的代码,为开发者提供了更强大的工具。

近日,一个名为“Nexus AI”的开源社区发布了其最新的多模态大语言模型Phoenix-3。该模型不仅在传统的文本生成任务上表现优异,还展示了强大的图像理解和代码生成能力。根据官方发布的技术报告,Phoenix-3在多项基准测试中超越了部分商业模型。社区表示,他们希望通过开源模式,推动AI技术的普及和发展,让更多开发者能够参与到AI应用的创新中来。

来源:
GitHub·TechCrunch
02.17
AI资讯AI大模型
热点

谷歌发布新一代AI模型Gemini 3,多模态能力再升级

在今日的开发者大会上,谷歌正式推出了其最新的Gemini 3系列大模型,展示了其在视频理解和长文本处理方面的显著进步。

Gemini 3能够直接处理和分析长达2小时的视频内容,并能处理超过100万字的文本上下文,创下行业新纪录。该模型在多个基准测试中超越了GPT-4等竞争对手,特别是在多模态任务上表现出色。谷歌CEO表示,Gemini 3将首先在企业级应用中部署,并逐步向消费者产品开放。

来源:
TechCrunch·谷歌AI博客
02.05
AI资讯AI大模型

DeepMind推出Gemini 2.5,主打端侧部署与多模态能力

谷歌旗下DeepMind发布新一代大模型Gemini 2.5,显著提升了在移动设备上的运行效率,并增强了对视频和音频的理解能力。

谷歌DeepMind今日正式发布其最新多模态大模型Gemini 2.5。新模型在保持强大性能的同时,大幅优化了模型结构,使其能够在智能手机等端侧设备上高效运行,延迟显著降低。此外,Gemini 2.5在视频理解和音频处理方面取得了突破,能够更精准地从复杂场景中提取信息并进行实时交互。此举被视为谷歌在AI领域与苹果、OpenAI竞争,抢占端侧AI入口的关键一步。

来源:
The Verge
01.22
AI资讯AI大模型
热点

OpenAI发布全新多模态大模型GPT-5,性能再创里程碑

GPT-5在理解和生成多种数据类型方面取得突破性进展,引发业界广泛关注。

OpenAI今日正式发布其最新一代多模态大模型GPT-5。据悉,GPT-5在文本、图像、音频乃至视频理解与生成方面均展现出前所未有的能力,特别是在跨模态推理和内容创作方面,其表现远超前代模型。此次发布预示着通用人工智能(AGI)的实现又迈出了坚实一步,有望彻底改变人机交互模式和内容生产流程,为各行各业带来颠覆性影响。

来源:
OpenAI官方博客·TechCrunch
01.08