Google Omni说出来，看见它，分享出去

Google 新一代统一多模态模型——用对话生成、混剪与编辑可直接上线的视频。文字、图片、视频与音频在同一工作流中完成，适合广告、讲解片与短视频内容。

试用 Google Omni

提示词

0/20000

源视频（可选）

最多 1 段，单文件不超过 30 秒、100MB；裁剪区间 ≤ 10 秒。上传后输出时长由模型自动决定。

参考配额：0/7（图片=1，视频=2，角色=1）

时长

8 秒

4 秒10 秒

分辨率

画幅比例

150

视频预览将在这里显示

创造一切，源于一切

融合文字、图片与视频，让创意在动态中落地。Google Omni 是你的多模态创作伙伴——可以把它理解为视频版的 Nano Banana。

用自然对话编辑视频

上传 AI 生成的片段或手机实拍，用日常语言逐步调整。替换背景、更换造型、调整光线或稳定画面——每一步都建立在上一轮结果之上，场景持续演进而非重置。

多轮连续编辑
逐步微调机位、环境与细节，每一轮修改都保持场景连贯一致。
对话式混剪
延长场景、替换道具或添加画面文字——无需时间线，无需插件，只需对话。
保留镜头灵魂
在迁移风格或替换元素时，保持动作、走位与时间节奏逐帧一致。

业界领先的文字渲染与一致性

画面内的排版、公式与 UI 元素清晰可读，并在帧间保持一致——相较多数现有视频模型有明显优势，适合广告、讲解片与教育内容。

文字精准落地
标题、字幕与画面内文案从缩略图到全屏播放都保持清晰可读。
文字与动作同步
让画面文字与镜头内容连贯呼应——不只是渲染文字，更是完整叙事。
可直接上线的输出
画质与文字表现足以支撑广告、短视频、UI 演示与课程素材，无需大量后期。

引用任意素材——统一多模态输入

将文字、照片、视频或音频的任意组合，融合成一条连贯成片。最多引用 5 张图片、从其他素材迁移动作，或用新创意方向混剪已有片段。

文字 + 图片 + 视频 + 音频
单一原生模型处理所有输入类型——无需在图像、视频、音频系统间来回传递。
动作与风格迁移
将参考图或参考片段中的姿态、镜头运动或视觉风格应用到输出视频。
草图变实拍
以涂鸦作为运动指引——将手绘稿转化为写实视频，且成片中不显示草图本身。

扎根真实世界知识与物理规律

Google Omni 将物理直觉与深厚的世界知识相结合——重力、流体动力学、历史与叙事逻辑——让输出更贴近真实世界的运行方式，讲出更有意义的故事。

原生音频生成
业界领先的语音质量与干净的环境音——对话与氛围可直接从提示词中生成。
物理感知的运动
重力、动能等力的相互作用，让动作与物体场景的运动更加可信。
SynthID 与 C2PA 溯源
每条输出均附带不可见的 SynthID 水印与 C2PA 内容凭证，保障内容透明度。

价格

选择最适合你的方案

基础版

$12.9 /月

适合入门使用

每月 1,000 积分
最多 50 张图片
使用 Google Omni
新功能抢先体验
2K 画质图片生成
商用授权许可

常见问题

关于 Google Omni 的常见问题

开始用 Google Omni 创作视频

在单一对话中生成、混剪与编辑可直接上线的视频——为创作者实际工作方式而生的统一多模态模型。

试用 Google Omni

Google Omni说出来，看见它，分享出去

创造一切，源于一切

用自然对话编辑视频

业界领先的文字渲染与一致性

引用任意素材——统一多模态输入

扎根真实世界知识与物理规律

价格

常见问题

什么是 Google Omni？

如何开始使用？

Google Omni 与 Veo 有何不同？

可以用后续提示词继续编辑视频吗？

Google Omni 的输出可以用于商业项目吗？

如何判断视频是否由 AI 生成？

开始用 Google Omni 创作视频