模型

对话0 / 5,000

对话 1

文本

输入该段对话的文本内容。

声音

为该段对话选择对应的声音角色。

音频标签

[excited][happy][sad][angry][surprised]更多标签

语言

稳定性

单人语音

文生语音

Xavier: [calm] Welcome to the AI studio, where photos come to life with AI Avatar Lip Sync. [excited] Upload an image and an audio file, then watch your avatar speak naturally.

多人对话

文生对话

Juniper: [excitedly] Hey James! Have you tried the new ElevenLabs V3?

James: [curiously] Yeah, just got it! The emotion is so amazing. I can actually do whispers now— [whispering] like this!

AI 文字转语音 — 113 种声音、39 个音频标签、多说话人对话

多数语音合成工具只提供声音选择器和语速旋钮。这款引擎额外支持 39 个内嵌音频标签 — [excited]、[whispering]、[laughing]、[sigh]、[British accent] — 精确控制每行台词的演绎方式，甚至可以在句中切换情感。引擎基于 ElevenLabs v3 多说话人对话模型，能在一次生成请求中为不同说话人分配不同声音。声音库包含 113 个预设，分布在 8 大类别（best-v3、对话风格、故事叙述、游戏角色、TikTok、好莱坞、播音员、冥想放松），覆盖 75 种语言并支持自动检测。单次生成上限 5,000 字符。输出的 MP3 可直接导入 AI 数字人口型同步工具，构成从文字到口播视频的完整管线，无需麦克风或配音演员。

多说话人对话

音频标签控制

113 种声音

75 种语言

免费在线

试用 AI 数字人口型同步

什么是多说话人 AI 文字转语音？

AI 文字转语音利用神经语音合成技术将书面文字转换为拟人语音。本工具背后的 ElevenLabs v3 引擎对韵律进行建模 — 音高轮廓、重音分布和时值控制 — 其水平远超传统拼接式 TTS。旧系统靠拼贴预录的音节片段，而该模型从对每种声音的学习表征中直接生成波形，产出自然的语调变化、呼吸停顿和跟随文义的重音。

多说话人对话功能是它区别于单声音 TTS 工具的关键。为对话中的每行分配不同声音，引擎即可生成包含自然轮转的单个音频文件。再搭配 6 大类别的 39 个音频标签 — 情感（excited、sad、angry）、演绎方式（whispering、shouting、singing）、非言语声音（sigh、gasp、laugh）、音效（door knocking、rain）、口音（British、Australian）、节奏控制（slowly、dramatically） — 你不仅控制声音说什么，还控制怎么说。生成的 MP3 可独立下载，也可导入 AI 数字人口型同步生成口播视频。

文字转语音核心功能

ElevenLabs v3 对话引擎，113 种声音、39 个音频标签、75 种语言。

单次请求多说话人对话

为每行对话分配不同声音，一次生成包含完整对话的音频文件。引擎自动处理说话人之间的轮转时序、节奏衔接以及逐行音频标签应用。播客、有声书章节、游戏过场动画和访谈脚本均可在一次调用中完成 — 无需手动剪辑拼接。

6 大类别 39 个音频标签

情感（excited、sad、angry、surprised）、演绎方式（whispering、shouting、singing）、非言语声音（sigh、gasp、laugh、cough）、音效（door knocking、rain、footsteps）、口音（British、American、Australian、Indian）、节奏控制（slowly、quickly、dramatically、with a pause）。标签可插入行首设定整体风格，也可放在句中触发戏剧性转折。

8 大类别 113 个预设声音

best-v3（37 个）、对话风格（17 个）、TikTok（10 个）、游戏角色（18 个）、故事叙述（8 个）、好莱坞（9 个）、播音员（9 个）、冥想放松（13 个）。每个声音拥有独特的音色、音高和节奏。生成前可在浏览器内预览试听。稳定性滑块可从创意 (0) 经自然 (0.5) 调至稳健 (1)。

75 种语言自动检测

支持中文、英语、日语、韩语、法语、德语、西班牙语、葡萄牙语、阿拉伯语、印地语、俄语等 75 种语言的文字转语音。自动检测模式根据文本内容识别语言 — 也可手动指定，在混合语种或特定方言场景下获得更准确的发音。

直通 AI 数字人

输出的 MP3 与 AI 数字人口型同步工具格式兼容。生成对话音频后下载，搭配一张人像照片上传至数字人工具即可生成口播视频 — 完整的文字到视频管线。一段 5,000 字符的 TTS 脚本加上 15 秒的 Latiai Lip Sync（480p），音频与视频在同一工作流中完成，无需麦克风或摄像头。

浏览器内使用，无需安装

113 种声音均可在浏览器中免注册试听。生成语音需要账户和积分。输出以 MP3 格式下载。无需安装软件、无需格式转换、无需本地处理 — ElevenLabs v3 引擎在服务端运行，直接返回成品音频。

音频标签参考指南

6 大类别 39 个内嵌标记 — 这是本工具区别于所有同类产品的核心功能。

音频标签是插入对话脚本中的文本标记，告诉 AI 语音引擎如何演绎每个短语。在行首插入标签可设定整行情感基调，在句中插入则触发戏剧性变化。所有标签均适用于全部 113 种声音和 75 种语言。引擎在波形生成阶段处理标签，而非后期叠加，因此韵律效果自然融入语音。

情感（10 个标签）

excited, happy, sad, angry, surprised, disgusted, fearful, calm, serious, confused

[excited] 我们刚突破一百万用户！[surprised] 等等，你说真的？

演绎方式（7 个标签）

whispering, shouting, singing, laughing, crying, mumbling, yelling

[whispering] 别告诉任何人，但是 [shouting] 我们拿下了那份合同！

非言语声音（7 个标签）

sigh, gasp, laugh, cough, clearing throat, sniff, yawn

[gasp] 你吓到我了！[laugh] 好吧，确实挺好笑的。

音效（7 个标签）

phone ringing, door knocking, footsteps, rain, wind, thunder, birds chirping

[rain] 预报说中午会放晴。[thunder] 或许不会。

口音（4 个标签）

British accent, American accent, Australian accent, Indian accent

[British accent] 会议定在三点半。[American accent] 没错，就是 3:30。

节奏控制（4 个标签）

slowly, quickly, with a pause, dramatically

[dramatically] 获奖者是…… [with a pause] 我们团队。

TTS + AI 数字人：文字到口播视频

写脚本、生成语音、制作口型同步视频 — 全程无需麦克风。

本平台的独特价值在于文字转语音与 AI 数字人口型同步之间的直通管线。编写一段 5,000 字符的多说话人脚本，生成音频，再导入 Latiai Lip Sync（480p）即可获得口播视频。整条从脚本到视频的管线无需录音棚、无需预约配音演员、无需视频剪辑软件。

编写并标注脚本

在编辑器中输入对话。从 113 个预设声音中为每位说话人选定声音。在情感节点插入 [excited] 或 [whispering] 等音频标签。单次生成上限 5,000 字符。

生成多说话人音频

ElevenLabs v3 引擎输出一个包含自然轮转的 MP3 文件。通过稳定性滑块（创意 0 / 自然 0.5 / 稳健 1）控制声音一致性。处理耗时从数秒到数分钟不等，取决于脚本长度。

上传至 AI 数字人口型同步

将生成的 MP3 搭配一张人像照片导入 AI 数字人工具，即可生成口播视频。口型同步引擎将音频的音素时序映射为嘴型、头部运动和面部表情 — 照片中的人物会说出你写的台词。

试用 AI 数字人口型同步

如何使用 AI 文字转语音

编写对话、分配声音、添加音频标签、生成 — 全部在浏览器内完成。

编写并标注对话

在编辑器中输入文本。如需多说话人内容，分行书写并为每位说话人分配声音。在情感节点插入 [excited]、[whispering] 或 [sigh] 等音频标签。所有文本合计不超过 5,000 字符。

从 113 种声音中选择

浏览 8 大类别：best-v3（37 个）、对话风格（17 个）、TikTok（10 个）、游戏角色（18 个）、故事叙述（8 个）、好莱坞（9 个）、播音员（9 个）、冥想放松（13 个）。一键预览试听。从 75 种语言中选择或启用自动检测。

生成并下载 MP3

调节稳定性滑块 — 创意 (0) 获得富有表现力的变化，自然 (0.5) 获得均衡的演绎，稳健 (1) 获得一致的音调。点击生成。短文本数秒完成，5,000 字符脚本至多需要几分钟。下载 MP3 或导入 AI 数字人口型同步。

文字转语音应用场景

从播客对话到游戏过场 — 音频标签和多说话人声音解决不同制作需求。

播客对话制作

无需邀请嘉宾即可生成访谈

为主持人和嘉宾分配不同声音，用 [laugh] 和 [gasp] 标签添加自然反应，一次生成完整的播客音频。一段 4,000 字符的访谈脚本数秒即可生成。修改脚本、重新生成、对比不同版本 — 迭代成本仅为积分，不占用录音室时间。

有声书角色配音

赋予每个角色独特声音

将 113 种声音映射到不同章节的角色。用 [whispering] 营造紧张氛围，[dramatically] 渲染高潮段落，[with a pause] 控制节奏。稳定性滑块设为稳健 (1) 可确保角色声音在长篇脚本中保持一致。单次请求可处理 5,000 字符的章节。

游戏过场动画预演

正式录音前先听到台词效果

游戏角色类别包含 18 种专业声音 — 战士、科学家、旁白、反派。用 [shouting] 生成战斗呐喊，[whispering] 演绎密谋场景，[angry] 呈现对峙冲突。反复打磨脚本直至导演满意，再将定稿交给真人配音演员。

多语种课程旁白

同一脚本，75 种语言版本

编写一次课程脚本，翻译后（或让自动检测识别语言）即可生成中文、英语、西班牙语、阿拉伯语等 75 种语言的旁白。再搭配 AI 数字人口型同步生成讲师口播视频 — 同一张面孔说出每种语言。

规模化 A/B 配音测试

生成多版本用于分流测试

同一广告脚本在几分钟内产出 5 个配音版本 — 不同声音、不同音频标签、不同稳定性设置。测试受众对 [excited] 和 [calm] 演绎的反应差异、男声与女声的效果对比、快节奏与慢节奏的接受度，无需为每个版本重新预约配音演员。

TikTok 和 Reels 配音

10 种 TikTok 风格声音随取随用

TikTok 声音类别包含 10 种为短视频优化的声音。添加 [sarcastic]、[excited] 或 [whispering] 标签贴合热门演绎风格。500 字符的配音数秒完成。搭配 AI 数字人（480p）即可在社交平台实现免出镜的视频呈现。

文字转语音实用技巧

脚本撰写建议

Write dialogue as spoken language — contractions, informal phrasing, and sentence fragments sound more natural than formal prose
Keep individual dialogue lines under 500 characters — the engine optimizes prosody within shorter segments
Use punctuation to control rhythm: commas create brief pauses, em dashes create longer ones, ellipses signal trailing off
Spell out numbers and abbreviations ('twenty three' not '23', 'doctor' not 'Dr.') for correct pronunciation
用口语化的方式撰写对话 — 缩略语、非正式表达和短句比书面语更自然
单行对话控制在 500 字符以内 — 引擎在较短片段中能生成更优的韵律
善用标点控制节奏：逗号产生短停顿，破折号产生较长停顿，省略号表示话音渐弱
数字和缩写写成完整形式（'二十三'而非'23'，'博士'而非'Dr.'）以确保准确发音

音频标签使用建议

Tag emotional beats, not every line — over-tagging produces exaggerated delivery that sounds unnatural
Combine tags for nuance: [excited] then [quickly] in the same line creates urgent enthusiasm
Non-verbal tags ([sigh], [laugh], [gasp]) work best at the start of a line — mid-sentence placement can interrupt flow
Test the same line with 3-4 different tags at Stability 0.5 to find the delivery that fits your script's tone
只在情感节拍处加标签 — 过度标注会让语音夸张失真
组合标签实现细腻效果：同一行先 [excited] 再 [quickly] 可营造急切的热情
非言语标签（[sigh]、[laugh]、[gasp]）放在行首效果最自然 — 句中插入可能打断节奏
同一行用 3-4 种不同标签在稳定性 0.5 下对比试听，找到最贴合脚本基调的演绎

文字转语音技术规格

AI 引擎

Engine: ElevenLabs v3 Multi-Speaker Dialogue
Voices: 113 presets across 8 categories (preview in-browser)
Audio Tags: 39 tags across 6 categories (emotion, delivery, non-verbal, SFX, accent, pacing)
Stability slider: Creative (0) / Natural (0.5) / Robust (1)
引擎：ElevenLabs v3 多说话人对话模型
声音：113 个预设，8 大类别（浏览器内可预览）
音频标签：39 个标签，6 大类别（情感、演绎、非言语、音效、口音、节奏）
稳定性滑块：创意 (0) / 自然 (0.5) / 稳健 (1)

输入

Text: up to 5,000 characters per generation (all lines combined)
Multi-speaker: assign different voice per line, unlimited lines per request
Languages: 75 supported with auto-detect
Per-generation limit: 5,000 characters across all dialogue lines
文本：单次生成最多 5,000 字符（所有对话行合计）
多说话人：每行可指定不同声音，行数不限
语言：支持 75 种，含自动检测
单次生成上限：所有对话行合计 5,000 字符

输出

Format: MP3 audio file, compatible with AI Avatar Lip Sync
Processing: seconds to minutes depending on script length
Download: immediate after generation completes
Compatible with AI Avatar Lip Sync for direct video output
格式：MP3 音频文件，兼容 AI 数字人口型同步
处理耗时：数秒到数分钟，取决于脚本长度
下载：生成完成后即可获取
可直接导入 AI 数字人口型同步生成视频

文字转语音常见问题

关于 AI 语音生成、音频标签、积分计费和 TTS 转数字人管线的解答。

AI 文字转语音利用神经语音合成将书面文字转换为语音。本工具运行 ElevenLabs v3 多说话人对话引擎：你输入脚本，从 113 个预设声音中为每行分配声音，按需插入音频标签控制情感或演绎方式，引擎即可生成包含自然说话人轮转的单个 MP3 文件。输出基于韵律建模 — 音高、重音、时值 — 而非音节拼贴，因此听感远比旧式 TTS 系统自然。

音频标签是 [excited]、[whispering]、[sigh]、[door knocking] 等内嵌文本标记，控制 AI 声音演绎每个短语的方式。共 39 个标签，分布在 6 大类别：情感（10 个）、演绎方式（7 个）、非言语声音（7 个）、音效（7 个）、口音（4 个）、节奏控制（4 个）。在行首放置标签可设定整体基调，句中插入可触发风格转换。标签在波形生成阶段处理，而非后期叠加。

113 种独立声音，分布在 8 大类别：best-v3（37 个 — 音质最高的层级）、对话风格（17 个）、TikTok（10 个）、游戏角色（18 个）、故事叙述（8 个）、好莱坞（9 个）、播音员（9 个）、冥想放松（13 个）。每种声音拥有独特的音高、节奏和个性。生成前可在浏览器内试听。稳定性滑块（创意 0 / 自然 0.5 / 稳健 1）可进一步调节声音每次生成时引入的变化程度。

共 75 种语言，包括中文、英语、日语、韩语、法语、德语、西班牙语、葡萄牙语、阿拉伯语、印地语、俄语、意大利语、荷兰语、波兰语、土耳其语、越南语、泰语等。自动检测可根据文本内容识别语言，也可手动指定，在混合语种或特定方言场景下获得更准确的发音。

稳定性滑块通过三个档位控制声音每次生成时引入的变化程度。创意 (0) 产出最富表现力的演绎 — 音高起伏、重音变化和情感色彩更加鲜明，适合故事叙述、戏剧朗读和角色对话。自然 (0.5，默认值) 在表现力和一致性之间取得平衡 — 适合播客、营销配音和通用旁白等大部分内容。稳健 (1) 产出最可预测、最均匀的演绎，每次生成的效果几乎一致 — 在线教育旁白、企业宣讲及任何需要长篇脚本保持严格音调一致的场景不可或缺。

可以。为每行对话分配不同声音，引擎即可生成包含自然说话人轮转的单个 MP3 文件。说话人数量和行数不受限制 — 仅受 5,000 字符总量约束。每位说话人可使用不同的音频标签，例如一个角色低语而另一个角色呐喊，全部在同一音频文件中完成。

可以。生成的 MP3 与 AI 数字人口型同步工具直接兼容。下载 TTS 输出，在数字人工具中搭配一张人像照片上传即可生成口播视频。一段 5,000 字符的 TTS 脚本加上 15 秒的 Latiai Lip Sync（480p）即可完成从文字到口播视频的全流程 — 无需麦克风、摄像头或剪辑软件。

稳定性滑块控制声音每次生成时引入的变化程度。创意 (0) 产出最富表现力、变化最多的演绎 — 适合故事叙述和戏剧内容。自然 (0.5，默认值) 在表现力和一致性之间取得平衡。稳健 (1) 产出最可预测、最均匀的演绎 — 适合旁白和在线教育等需要长篇脚本保持音调一致的场景。

5,000 字符，计算所有对话行的总和。根据语速、停顿密度和音频标签使用情况，大约可产出 3-5 分钟的语音。更长的内容可拆分为多个 5,000 字符的片段分别生成。

是的。全部 113 种声音均可在浏览器中免注册、零积分试听，每种声音都有托管在 CDN 上的示范音频。生成自定义脚本音频需要账户并消耗积分。

写台词，加标签，听效果

编写脚本，从 113 个预设声音中分配角色，添加音频标签控制情感 — 单次请求可处理 5,000 字符的多说话人对话音频。将输出导入 AI 数字人口型同步，构建完整的文字到口播视频管线。

AI 文字转语音 — 113 种声音、39 个音频标签、多说话人对话

什么是多说话人 AI 文字转语音？

文字转语音实用技巧

脚本撰写建议

Write dialogue as spoken language — contractions, informal phrasing, and sentence fragments sound more natural than formal prose
Keep individual dialogue lines under 500 characters — the engine optimizes prosody within shorter segments
Use punctuation to control rhythm: commas create brief pauses, em dashes create longer ones, ellipses signal trailing off
Spell out numbers and abbreviations ('twenty three' not '23', 'doctor' not 'Dr.') for correct pronunciation
用口语化的方式撰写对话 — 缩略语、非正式表达和短句比书面语更自然
单行对话控制在 500 字符以内 — 引擎在较短片段中能生成更优的韵律
善用标点控制节奏：逗号产生短停顿，破折号产生较长停顿，省略号表示话音渐弱
数字和缩写写成完整形式（'二十三'而非'23'，'博士'而非'Dr.'）以确保准确发音

音频标签使用建议

Tag emotional beats, not every line — over-tagging produces exaggerated delivery that sounds unnatural
Combine tags for nuance: [excited] then [quickly] in the same line creates urgent enthusiasm
Non-verbal tags ([sigh], [laugh], [gasp]) work best at the start of a line — mid-sentence placement can interrupt flow
Test the same line with 3-4 different tags at Stability 0.5 to find the delivery that fits your script's tone
只在情感节拍处加标签 — 过度标注会让语音夸张失真
组合标签实现细腻效果：同一行先 [excited] 再 [quickly] 可营造急切的热情
非言语标签（[sigh]、[laugh]、[gasp]）放在行首效果最自然 — 句中插入可能打断节奏
同一行用 3-4 种不同标签在稳定性 0.5 下对比试听，找到最贴合脚本基调的演绎

文字转语音技术规格

AI 引擎

Engine: ElevenLabs v3 Multi-Speaker Dialogue
Voices: 113 presets across 8 categories (preview in-browser)
Audio Tags: 39 tags across 6 categories (emotion, delivery, non-verbal, SFX, accent, pacing)
Stability slider: Creative (0) / Natural (0.5) / Robust (1)
引擎：ElevenLabs v3 多说话人对话模型
声音：113 个预设，8 大类别（浏览器内可预览）
音频标签：39 个标签，6 大类别（情感、演绎、非言语、音效、口音、节奏）
稳定性滑块：创意 (0) / 自然 (0.5) / 稳健 (1)

输入

Text: up to 5,000 characters per generation (all lines combined)
Multi-speaker: assign different voice per line, unlimited lines per request
Languages: 75 supported with auto-detect
Per-generation limit: 5,000 characters across all dialogue lines
文本：单次生成最多 5,000 字符（所有对话行合计）
多说话人：每行可指定不同声音，行数不限
语言：支持 75 种，含自动检测
单次生成上限：所有对话行合计 5,000 字符

输出

Format: MP3 audio file, compatible with AI Avatar Lip Sync
Processing: seconds to minutes depending on script length
Download: immediate after generation completes
Compatible with AI Avatar Lip Sync for direct video output
格式：MP3 音频文件，兼容 AI 数字人口型同步
处理耗时：数秒到数分钟，取决于脚本长度
下载：生成完成后即可获取
可直接导入 AI 数字人口型同步生成视频

AI 文字转语音 — 113 种声音、39 个音频标签、多说话人对话

什么是多说话人 AI 文字转语音？

文字转语音核心功能

单次请求多说话人对话

6 大类别 39 个音频标签

8 大类别 113 个预设声音

75 种语言自动检测

直通 AI 数字人

浏览器内使用，无需安装

音频标签参考指南

情感（10 个标签）

演绎方式（7 个标签）

非言语声音（7 个标签）

音效（7 个标签）

口音（4 个标签）

节奏控制（4 个标签）

TTS + AI 数字人：文字到口播视频

编写并标注脚本

生成多说话人音频

上传至 AI 数字人口型同步

如何使用 AI 文字转语音

编写并标注对话

从 113 种声音中选择

生成并下载 MP3

文字转语音应用场景

播客对话制作

有声书角色配音

游戏过场动画预演

多语种课程旁白

规模化 A/B 配音测试

TikTok 和 Reels 配音

文字转语音实用技巧

脚本撰写建议

音频标签使用建议

文字转语音技术规格

AI 引擎

输入

输出

相关 AI 工具

文字转语音常见问题

AI 文字转语音是什么？这个工具如何工作？

音频标签是什么？共有多少个？

有多少种声音？如何分类？

支持哪些语言？

稳定性滑块如何影响语音输出？

能否在一次请求中生成多说话人对话？

输出可以直接用于 AI 数字人口型同步吗？

稳定性滑块有什么用？

单次生成的文本上限是多少？

声音预览免费吗？

写台词，加标签，听效果

AI 文字转语音 — 113 种声音、39 个音频标签、多说话人对话

什么是多说话人 AI 文字转语音？

文字转语音核心功能

单次请求多说话人对话

6 大类别 39 个音频标签

8 大类别 113 个预设声音

75 种语言自动检测

直通 AI 数字人

浏览器内使用，无需安装

音频标签参考指南

情感（10 个标签）

演绎方式（7 个标签）

非言语声音（7 个标签）

音效（7 个标签）

口音（4 个标签）

节奏控制（4 个标签）

TTS + AI 数字人：文字到口播视频

编写并标注脚本

生成多说话人音频

上传至 AI 数字人口型同步

如何使用 AI 文字转语音

编写并标注对话

从 113 种声音中选择

生成并下载 MP3

文字转语音应用场景

播客对话制作

有声书角色配音

游戏过场动画预演

多语种课程旁白