输入该段对话的文本内容。
为该段对话选择对应的声音角色。
输入该段对话的文本内容。
为该段对话选择对应的声音角色。
单人语音
Xavier: [calm] Welcome to Lati AI, where you can bring photos to life with AI Avatar Lip Sync. [excited] Upload an image and audio and watch your avatar talk naturally.
多人对话
Juniper: [excitedly] Hey James! Have you tried the new ElevenLabs V3?
James: [curiously] Yeah, just got it! The emotion is so amazing. I can actually do whispers now— [whispering] like this!
AI 文字转语音 — 113 种声音、39 个音频标签、多说话人对话
多数语音合成工具只提供声音选择器和语速旋钮。这款引擎额外支持 39 个内嵌音频标签 — [excited]、[whispering]、[laughing]、[sigh]、[British accent] — 精确控制每行台词的演绎方式,甚至可以在句中切换情感。引擎基于 ElevenLabs v3 多说话人对话模型,能在一次生成请求中为不同说话人分配不同声音。声音库包含 113 个预设,分布在 8 大类别(best-v3、对话风格、故事叙述、游戏角色、TikTok、好莱坞、播音员、冥想放松),覆盖 75 种语言并支持自动检测。单次生成上限 5,000 字符。输出的 MP3 可直接导入 AI 数字人口型同步工具,构成从文字到口播视频的完整管线,无需麦克风或配音演员。
什么是多说话人 AI 文字转语音?
AI 文字转语音利用神经语音合成技术将书面文字转换为拟人语音。本工具背后的 ElevenLabs v3 引擎对韵律进行建模 — 音高轮廓、重音分布和时值控制 — 其水平远超传统拼接式 TTS。旧系统靠拼贴预录的音节片段,而该模型从对每种声音的学习表征中直接生成波形,产出自然的语调变化、呼吸停顿和跟随文义的重音。
多说话人对话功能是它区别于单声音 TTS 工具的关键。为对话中的每行分配不同声音,引擎即可生成包含自然轮转的单个音频文件。再搭配 6 大类别的 39 个音频标签 — 情感(excited、sad、angry)、演绎方式(whispering、shouting、singing)、非言语声音(sigh、gasp、laugh)、音效(door knocking、rain)、口音(British、Australian)、节奏控制(slowly、dramatically) — 你不仅控制声音说什么,还控制怎么说。生成的 MP3 可独立下载,也可导入 AI 数字人口型同步生成口播视频。
文字转语音核心功能
ElevenLabs v3 对话引擎,113 种声音、39 个音频标签、75 种语言。
单次请求多说话人对话
为每行对话分配不同声音,一次生成包含完整对话的音频文件。引擎自动处理说话人之间的轮转时序、节奏衔接以及逐行音频标签应用。播客、有声书章节、游戏过场动画和访谈脚本均可在一次调用中完成 — 无需手动剪辑拼接。
6 大类别 39 个音频标签
情感(excited、sad、angry、surprised)、演绎方式(whispering、shouting、singing)、非言语声音(sigh、gasp、laugh、cough)、音效(door knocking、rain、footsteps)、口音(British、American、Australian、Indian)、节奏控制(slowly、quickly、dramatically、with a pause)。标签可插入行首设定整体风格,也可放在句中触发戏剧性转折。
8 大类别 113 个预设声音
best-v3(37 个)、对话风格(17 个)、TikTok(10 个)、游戏角色(18 个)、故事叙述(8 个)、好莱坞(9 个)、播音员(9 个)、冥想放松(13 个)。每个声音拥有独特的音色、音高和节奏。生成前可在浏览器内预览试听。稳定性滑块可从 创意 (0) 经 自然 (0.5) 调至 稳健 (1)。
75 种语言自动检测
支持中文、英语、日语、韩语、法语、德语、西班牙语、葡萄牙语、阿拉伯语、印地语、俄语等 75 种语言的文字转语音。自动检测模式根据文本内容识别语言 — 也可手动指定,在混合语种或特定方言场景下获得更准确的发音。
直通 AI 数字人
输出的 MP3 与 AI 数字人口型同步工具格式兼容。生成对话音频后下载,搭配一张人像照片上传至数字人工具即可生成口播视频 — 完整的文字到视频管线。一段 5,000 字符的 TTS 脚本加上 15 秒的 Latiai Lip Sync(480p),音频与视频在同一工作流中完成,无需麦克风或摄像头。
浏览器内使用,无需安装
113 种声音均可在浏览器中免注册试听。生成语音需要账户和积分。输出以 MP3 格式下载。无需安装软件、无需格式转换、无需本地处理 — ElevenLabs v3 引擎在服务端运行,直接返回成品音频。
音频标签参考指南
6 大类别 39 个内嵌标记 — 这是本工具区别于所有同类产品的核心功能。
音频标签是插入对话脚本中的文本标记,告诉 AI 语音引擎如何演绎每个短语。在行首插入标签可设定整行情感基调,在句中插入则触发戏剧性变化。所有标签均适用于全部 113 种声音和 75 种语言。引擎在波形生成阶段处理标签,而非后期叠加,因此韵律效果自然融入语音。
情感(10 个标签)
excited, happy, sad, angry, surprised, disgusted, fearful, calm, serious, confused
[excited] 我们刚突破一百万用户![surprised] 等等,你说真的?
演绎方式(7 个标签)
whispering, shouting, singing, laughing, crying, mumbling, yelling
[whispering] 别告诉任何人,但是 [shouting] 我们拿下了那份合同!
非言语声音(7 个标签)
sigh, gasp, laugh, cough, clearing throat, sniff, yawn
[gasp] 你吓到我了![laugh] 好吧,确实挺好笑的。
音效(7 个标签)
phone ringing, door knocking, footsteps, rain, wind, thunder, birds chirping
[rain] 预报说中午会放晴。[thunder] 或许不会。
口音(4 个标签)
British accent, American accent, Australian accent, Indian accent
[British accent] 会议定在三点半。[American accent] 没错,就是 3:30。
节奏控制(4 个标签)
slowly, quickly, with a pause, dramatically
[dramatically] 获奖者是…… [with a pause] 我们团队。
TTS + AI 数字人:文字到口播视频
写脚本、生成语音、制作口型同步视频 — 全程无需麦克风。
本平台的独特价值在于文字转语音与 AI 数字人口型同步之间的直通管线。编写一段 5,000 字符的多说话人脚本,生成音频,再导入 Latiai Lip Sync(480p)即可获得口播视频。整条从脚本到视频的管线无需录音棚、无需预约配音演员、无需视频剪辑软件。
编写并标注脚本
在编辑器中输入对话。从 113 个预设声音中为每位说话人选定声音。在情感节点插入 [excited] 或 [whispering] 等音频标签。单次生成上限 5,000 字符。
生成多说话人音频
ElevenLabs v3 引擎输出一个包含自然轮转的 MP3 文件。通过稳定性滑块(创意 0 / 自然 0.5 / 稳健 1)控制声音一致性。处理耗时从数秒到数分钟不等,取决于脚本长度。
上传至 AI 数字人口型同步
将生成的 MP3 搭配一张人像照片导入 AI 数字人工具,即可生成口播视频。口型同步引擎将音频的音素时序映射为嘴型、头部运动和面部表情 — 照片中的人物会说出你写的台词。
如何使用 AI 文字转语音
编写对话、分配声音、添加音频标签、生成 — 全部在浏览器内完成。
编写并标注对话
在编辑器中输入文本。如需多说话人内容,分行书写并为每位说话人分配声音。在情感节点插入 [excited]、[whispering] 或 [sigh] 等音频标签。所有文本合计不超过 5,000 字符。
从 113 种声音中选择
浏览 8 大类别:best-v3(37 个)、对话风格(17 个)、TikTok(10 个)、游戏角色(18 个)、故事叙述(8 个)、好莱坞(9 个)、播音员(9 个)、冥想放松(13 个)。一键预览试听。从 75 种语言中选择或启用自动检测。
生成并下载 MP3
调节稳定性滑块 — 创意 (0) 获得富有表现力的变化,自然 (0.5) 获得均衡的演绎,稳健 (1) 获得一致的音调。点击生成。短文本数秒完成,5,000 字符脚本至多需要几分钟。下载 MP3 或导入 AI 数字人口型同步。
文字转语音应用场景
从播客对话到游戏过场 — 音频标签和多说话人声音解决不同制作需求。
播客对话制作
无需邀请嘉宾即可生成访谈
为主持人和嘉宾分配不同声音,用 [laugh] 和 [gasp] 标签添加自然反应,一次生成完整的播客音频。一段 4,000 字符的访谈脚本数秒即可生成。修改脚本、重新生成、对比不同版本 — 迭代成本仅为积分,不占用录音室时间。
有声书角色配音
赋予每个角色独特声音
将 113 种声音映射到不同章节的角色。用 [whispering] 营造紧张氛围,[dramatically] 渲染高潮段落,[with a pause] 控制节奏。稳定性滑块设为 稳健 (1) 可确保角色声音在长篇脚本中保持一致。单次请求可处理 5,000 字符的章节。
游戏过场动画预演
正式录音前先听到台词效果
游戏角色类别包含 18 种专业声音 — 战士、科学家、旁白、反派。用 [shouting] 生成战斗呐喊,[whispering] 演绎密谋场景,[angry] 呈现对峙冲突。反复打磨脚本直至导演满意,再将定稿交给真人配音演员。
多语种课程旁白
同一脚本,75 种语言版本
编写一次课程脚本,翻译后(或让自动检测识别语言)即可生成中文、英语、西班牙语、阿拉伯语等 75 种语言的旁白。再搭配 AI 数字人口型同步生成讲师口播视频 — 同一张面孔说出每种语言。
规模化 A/B 配音测试
生成多版本用于分流测试
同一广告脚本在几分钟内产出 5 个配音版本 — 不同声音、不同音频标签、不同稳定性设置。测试受众对 [excited] 和 [calm] 演绎的反应差异、男声与女声的效果对比、快节奏与慢节奏的接受度,无需为每个版本重新预约配音演员。
TikTok 和 Reels 配音
10 种 TikTok 风格声音随取随用
TikTok 声音类别包含 10 种为短视频优化的声音。添加 [sarcastic]、[excited] 或 [whispering] 标签贴合热门演绎风格。500 字符的配音数秒完成。搭配 AI 数字人(480p)即可在社交平台实现免出镜的视频呈现。
文字转语音实用技巧
脚本撰写建议
- Write dialogue as spoken language — contractions, informal phrasing, and sentence fragments sound more natural than formal prose
- Keep individual dialogue lines under 500 characters — the engine optimizes prosody within shorter segments
- Use punctuation to control rhythm: commas create brief pauses, em dashes create longer ones, ellipses signal trailing off
- Spell out numbers and abbreviations ('twenty three' not '23', 'doctor' not 'Dr.') for correct pronunciation
- 用口语化的方式撰写对话 — 缩略语、非正式表达和短句比书面语更自然
- 单行对话控制在 500 字符以内 — 引擎在较短片段中能生成更优的韵律
- 善用标点控制节奏:逗号产生短停顿,破折号产生较长停顿,省略号表示话音渐弱
- 数字和缩写写成完整形式('二十三'而非'23','博士'而非'Dr.')以确保准确发音
音频标签使用建议
- Tag emotional beats, not every line — over-tagging produces exaggerated delivery that sounds unnatural
- Combine tags for nuance: [excited] then [quickly] in the same line creates urgent enthusiasm
- Non-verbal tags ([sigh], [laugh], [gasp]) work best at the start of a line — mid-sentence placement can interrupt flow
- Test the same line with 3-4 different tags at Stability 0.5 to find the delivery that fits your script's tone
- 只在情感节拍处加标签 — 过度标注会让语音夸张失真
- 组合标签实现细腻效果:同一行先 [excited] 再 [quickly] 可营造急切的热情
- 非言语标签([sigh]、[laugh]、[gasp])放在行首效果最自然 — 句中插入可能打断节奏
- 同一行用 3-4 种不同标签在 稳定性 0.5 下对比试听,找到最贴合脚本基调的演绎
文字转语音技术规格
AI 引擎
- Engine: ElevenLabs v3 Multi-Speaker Dialogue
- Voices: 113 presets across 8 categories (preview in-browser)
- Audio Tags: 39 tags across 6 categories (emotion, delivery, non-verbal, SFX, accent, pacing)
- Stability slider: Creative (0) / Natural (0.5) / Robust (1)
- 引擎:ElevenLabs v3 多说话人对话模型
- 声音:113 个预设,8 大类别(浏览器内可预览)
- 音频标签:39 个标签,6 大类别(情感、演绎、非言语、音效、口音、节奏)
- 稳定性滑块:创意 (0) / 自然 (0.5) / 稳健 (1)
输入
- Text: up to 5,000 characters per generation (all lines combined)
- Multi-speaker: assign different voice per line, unlimited lines per request
- Languages: 75 supported with auto-detect
- Per-generation limit: 5,000 characters across all dialogue lines
- 文本:单次生成最多 5,000 字符(所有对话行合计)
- 多说话人:每行可指定不同声音,行数不限
- 语言:支持 75 种,含自动检测
- 单次生成上限:所有对话行合计 5,000 字符
输出
- Format: MP3 audio file, compatible with AI Avatar Lip Sync
- Processing: seconds to minutes depending on script length
- Download: immediate after generation completes
- Compatible with AI Avatar Lip Sync for direct video output
- 格式:MP3 音频文件,兼容 AI 数字人口型同步
- 处理耗时:数秒到数分钟,取决于脚本长度
- 下载:生成完成后即可获取
- 可直接导入 AI 数字人口型同步生成视频
相关 AI 工具
文字转语音常见问题
关于 AI 语音生成、音频标签、积分计费和 TTS 转数字人管线的解答。
写台词,加标签,听效果
编写脚本,从 113 个预设声音中分配角色,添加音频标签控制情感 — 单次请求可处理 5,000 字符的多说话人对话音频。将输出导入 AI 数字人口型同步,构建完整的文字到口播视频管线。