Google Omni说出来,看见它,分享出去
Google 新一代统一多模态模型——用对话生成、混剪与编辑可直接上线的视频。文字、图片、视频与音频在同一工作流中完成,适合广告、讲解片与短视频内容。
最多 1 段,单文件不超过 30 秒、100MB;裁剪区间 ≤ 10 秒。上传后输出时长由模型自动决定。
参考配额:0/7(图片=1,视频=2,角色=1)
视频预览将在这里显示
创造一切,源于一切
融合文字、图片与视频,让创意在动态中落地。Google Omni 是你的多模态创作伙伴——可以把它理解为视频版的 Nano Banana。

用自然对话编辑视频
上传 AI 生成的片段或手机实拍,用日常语言逐步调整。替换背景、更换造型、调整光线或稳定画面——每一步都建立在上一轮结果之上,场景持续演进而非重置。
- 多轮连续编辑
逐步微调机位、环境与细节,每一轮修改都保持场景连贯一致。
- 对话式混剪
延长场景、替换道具或添加画面文字——无需时间线,无需插件,只需对话。
- 保留镜头灵魂
在迁移风格或替换元素时,保持动作、走位与时间节奏逐帧一致。

业界领先的文字渲染与一致性
画面内的排版、公式与 UI 元素清晰可读,并在帧间保持一致——相较多数现有视频模型有明显优势,适合广告、讲解片与教育内容。
- 文字精准落地
标题、字幕与画面内文案从缩略图到全屏播放都保持清晰可读。
- 文字与动作同步
让画面文字与镜头内容连贯呼应——不只是渲染文字,更是完整叙事。
- 可直接上线的输出
画质与文字表现足以支撑广告、短视频、UI 演示与课程素材,无需大量后期。

引用任意素材——统一多模态输入
将文字、照片、视频或音频的任意组合,融合成一条连贯成片。最多引用 5 张图片、从其他素材迁移动作,或用新创意方向混剪已有片段。
- 文字 + 图片 + 视频 + 音频
单一原生模型处理所有输入类型——无需在图像、视频、音频系统间来回传递。
- 动作与风格迁移
将参考图或参考片段中的姿态、镜头运动或视觉风格应用到输出视频。
- 草图变实拍
以涂鸦作为运动指引——将手绘稿转化为写实视频,且成片中不显示草图本身。

扎根真实世界知识与物理规律
Google Omni 将物理直觉与深厚的世界知识相结合——重力、流体动力学、历史与叙事逻辑——让输出更贴近真实世界的运行方式,讲出更有意义的故事。
- 原生音频生成
业界领先的语音质量与干净的环境音——对话与氛围可直接从提示词中生成。
- 物理感知的运动
重力、动能等力的相互作用,让动作与物体场景的运动更加可信。
- SynthID 与 C2PA 溯源
每条输出均附带不可见的 SynthID 水印与 C2PA 内容凭证,保障内容透明度。
价格
选择最适合你的方案
- 每月 1,000 积分
- 最多 50 张图片
- 使用 Google Omni
- 新功能抢先体验
- 2K 画质图片生成
- 商用授权许可
- 每月 3,000 积分
- 最多 150 张图片
- 使用 Google Omni
- 新功能抢先体验
- 优先客服支持
- 2K 画质,可选 4K 放大
- 数据永久存储
- 商用授权许可
- 每月 14,000 积分
- 最多 700 张图片
- 使用 Google Omni
- 新功能抢先体验
- 优先客服支持
- 2K 画质,可选 4K 放大
- 数据永久存储
- 商用授权许可
常见问题
关于 Google Omni 的常见问题