综合资讯平台
返回标签列表
标签

#多模态模型

共 3 条相关资讯

AI资讯3 条
AI资讯AI大模型

谷歌发布新一代多模态大模型“Gemini 3.0”,原生支持视频理解与生成

在年度I/O大会的预热活动中,谷歌出人意料地发布了其最新的旗舰级AI模型Gemini 3.0,展示了其在视频内容理解和生成方面的突破性进展。

谷歌今日通过其官方博客宣布推出Gemini 3.0。据介绍,该模型不仅在文本、图像处理能力上超越了前代,更实现了对视频内容的原生理解和实时生成。在演示中,Gemini 3.0能够根据简单的文字描述,快速生成高质量、高连贯性的短视频片段。谷歌表示,该模型将首先通过Vertex AI平台向企业客户开放,并逐步集成到YouTube和Google Photos等产品中。

来源:
谷歌AI官方博客
02.20
AI资讯AI大模型

DeepMind发布多模态模型“Fusion-Net”,可同时理解文本、图像和音频

新模型在多项基准测试中刷新纪录,能够执行跨模态的复杂推理任务,为更强大的通用AI铺平道路。

谷歌旗下AI研究机构DeepMind今日发布了一款名为“Fusion-Net”的全新多模态模型。该模型能够同时处理和理解文本、图像、音频等多种信息格式,并在多项跨模态基准测试中取得了破纪录的成绩。研究人员表示,“Fusion-Net”的核心创新在于其高效的跨模态注意力机制,使其能够进行复杂的逻辑推理和生成任务。该模型的发布标志着AI在模拟人类综合感知能力方面又迈出了重要一步。

来源:
MIT Technology Review·VentureBeat
02.02
AI资讯AI大模型

DeepMind推出通用AI模型‘Gemini 3’,多模态能力再获突破

新模型在视频理解和代码生成方面表现卓越,能够直接根据复杂的视频内容生成可执行的应用程序代码,推动人机交互进入新阶段。

谷歌旗下AI研究机构DeepMind今日发布了其最新的通用人工智能模型‘Gemini 3’。据官方介绍,‘Gemini 3’在多模态理解和生成能力上取得了重大突破,特别是在视频内容分析和跨模态代码生成方面。在演示中,研究人员向模型输入了一段复杂的制造流程视频,‘Gemini 3’成功理解了其中的逻辑和步骤,并直接生成了一个用于监控该流程的Python应用程序。此项进展预示着AI在自动化软件开发和复杂任务处理方面的巨大潜力。

来源:
The Verge
01.24