加载工具中…
参考图 + MiniMax 配音 · FAL Kling Avatar · YouTube 横版
上传真人或卡通参考图,搭配配音音频,一键生成唇同步说话数字人视频。
基于 FAL Kling AI Avatar v2,支持写实、卡通、肉叔杂谈等多种风格,输出 16:9 横版 MP4。
音频可本地上传,也可从 TTS 历史选用;生成结果自动保存到「我的作品」。
FAL API Key 保存在服务端,按生成秒数计费,提交前会显示积分预估。
用卡通或虚拟形象代替真人录制,降低制作门槛。
MiniMax TTS 配音 + Kling 唇同步,一次完成口播视频。
16:9 参考图生成横版视频,适合 YouTube 科普频道。
FAL 最新 Talking Avatar 模型,唇同步自然。
直接选用 MiniMax 生成的配音,工作流无缝衔接。
写实 / 卡通 / 肉叔杂谈 / 自定义提示词。
生成完成自动入库,支持在线预览与下载。
上传 16:9 人像或卡通形象,或使用肉叔预设。
从 TTS 历史选择或上传 MP3/WAV 音频。
选择写实/卡通/肉叔风格,点击生成。
在页面或「我的作品」预览、下载 MP4。
单次建议 30 秒以内效果最佳,最长 120 秒。更长文案请分段生成 TTS 后分别制作。
正面清晰人像或卡通形象,建议 16:9 横版,中性表情。
内置杂谈风格卡通大叔参考图,可在 public/presets/laorou-avatar.png 替换为你的形象。
标准版 25 积分起 + 按时长递增;Pro 版单价更高。提交前会显示预估。
通常 1–5 分钟,取决于音频长度与 FAL 队列。
自动保存到「我的作品」,模型标记为 AI 数字人。
上传参考图与配音音频,生成唇同步说话视频(音频可本地上传,也可选用 TTS 历史)
建议上传 16:9 横版图片,适合 YouTube 发布
支持 MP3 / WAV / M4A,与 TTS 功能无关,可直接上传任意配音