标签

#多模态模型

共 3 条相关资讯

AI资讯3 条

AI资讯AI大模型

谷歌发布新一代多模态大模型“Gemini 3.0”，原生支持视频理解与生成

在年度I/O大会的预热活动中，谷歌出人意料地发布了其最新的旗舰级AI模型Gemini 3.0，展示了其在视频内容理解和生成方面的突破性进展。

谷歌今日通过其官方博客宣布推出Gemini 3.0。据介绍，该模型不仅在文本、图像处理能力上超越了前代，更实现了对视频内容的原生理解和实时生成。在演示中，Gemini 3.0能够根据简单的文字描述，快速生成高质量、高连贯性的短视频片段。谷歌表示，该模型将首先通过Vertex AI平台向企业客户开放，并逐步集成到YouTube和Google Photos等产品中。

谷歌 Gemini 3.0 多模态模型视频生成

来源：

谷歌AI官方博客

02.20

AI资讯AI大模型

DeepMind发布多模态模型“Fusion-Net”，可同时理解文本、图像和音频

新模型在多项基准测试中刷新纪录，能够执行跨模态的复杂推理任务，为更强大的通用AI铺平道路。

谷歌旗下AI研究机构DeepMind今日发布了一款名为“Fusion-Net”的全新多模态模型。该模型能够同时处理和理解文本、图像、音频等多种信息格式，并在多项跨模态基准测试中取得了破纪录的成绩。研究人员表示，“Fusion-Net”的核心创新在于其高效的跨模态注意力机制，使其能够进行复杂的逻辑推理和生成任务。该模型的发布标志着AI在模拟人类综合感知能力方面又迈出了重要一步。

DeepMind Fusion-Net 多模态模型通用AI

来源：

MIT Technology Review·VentureBeat

02.02

AI资讯AI大模型

DeepMind推出通用AI模型‘Gemini 3’，多模态能力再获突破

新模型在视频理解和代码生成方面表现卓越，能够直接根据复杂的视频内容生成可执行的应用程序代码，推动人机交互进入新阶段。

谷歌旗下AI研究机构DeepMind今日发布了其最新的通用人工智能模型‘Gemini 3’。据官方介绍，‘Gemini 3’在多模态理解和生成能力上取得了重大突破，特别是在视频内容分析和跨模态代码生成方面。在演示中，研究人员向模型输入了一段复杂的制造流程视频，‘Gemini 3’成功理解了其中的逻辑和步骤，并直接生成了一个用于监控该流程的Python应用程序。此项进展预示着AI在自动化软件开发和复杂任务处理方面的巨大潜力。

DeepMind Gemini 3 多模态模型代码生成通用人工智能

来源：

The Verge

01.24