IndexTTS2今夕版最新版本号2026-04-12再次更新新添加功能SRT字幕文件生成音频以及生成音频同时生成SRT 字幕文件

张开发

• 2026/7/2 2:56:46 • 15 分钟阅读

分享文章

简介说明IndexTTS2今夕版最新版本号2026-04-12再次更新新添加功能SRT字幕文件生成音频以及生成音频同时生成SRT 字幕文件本项目基于 IndexTTS2 搭建提供本地化的零样本文本转语音能力。它可以通过一段参考音频克隆音色并结合文本内容生成对应语音同时支持情感控制、术语读音管理、示例管理和 WebUI 交互操作适合用于配音、角色语音生成、短句播报、内容创作和本地测试。当前项目的主要入口是 [webui.py](/e:/index-tts-main/webui.py)启动后可通过浏览器进行操作。## 核心能力### 1. 零样本音色克隆- 上传一段参考音频后可以让模型模仿该说话人的音色生成新语音。- 支持直接上传本地音频也支持在界面中管理和复用参考音频。### 2. 文本转语音生成- 输入目标文本即可生成语音。- 支持中文和英文场景。- 可结合参考音频实现“同音色不同文本”的语音生成。### 3. 情感控制项目支持多种情感控制方式- 与音色参考音频保持相同情感- 使用单独的情感参考音频- 使用情感向量控制- 使用情感描述文本控制可用于生成平静、喜悦、低落、愤怒等不同风格的语音表达。### 4. 分句生成与高级参数控制- 支持长文本自动分句处理。- 可设置每段最大 Token 数平衡生成质量与速度。- 可调节采样参数如 top_p、top_k、temperature、num_beams、repetition_penalty、max_mel_tokens 等。适合对生成结果进行更细粒度的控制。## WebUI 扩展功能除了模型原有能力外本项目的 WebUI 还额外加入了适合日常使用的功能增强。### 1. 多音字文本预处理- 可在生成前对指定关键词做文本替换。- 适合修正多音字、固定发音和特殊口语读法。- 支持添加、更新、删除规则。- 支持词库导入与导出。- 支持预处理结果预览和复制。例如text倒 - dao3生成前可把特定词语替换成期望读音减少错误发音。### 2. 自定义术语词汇读音- 可为专业术语、自定义词汇、品牌名、人名等设置单独读法。- 支持分别设置中文读法和英文读法。- 适合处理模型默认发音不准确的专有词汇。### 3. 停顿与拉长音控制当前 WebUI 支持在文本中直接使用简码控制停顿和局部拉长音。支持的停顿写法text[pause300][sil500]【停顿200】支持的拉长音写法text啊~啊~~啊~~~啊[stretch1.4]嗯[elong1.5x]好[拉长1.3倍]示例text今天天气真好啊~[pause300]我们继续测试。说明- 停顿建议单次 200~500ms- 拉长音建议 1.1~1.6 倍- 连续 ~ 会逐步加长- 倍数过大可能出现不自然或杂音- 当前“拉长音”更适合做轻微拖尾感不适合追求特别夸张的长音延展重点更新### 4. SRT 字幕文件处理新增强大的字幕文件处理能力支持基于时间轴的精确音频生成。#### 字幕文件上传与生成- 支持直接上传 .srt 格式字幕文件- 根据字幕时间戳自动生成对应时段的音频内容- 支持同时输出生成的 SRT 字幕文件- 智能解析标准 SRT 格式时间戳文本内容#### 字幕格式预处理工具- 自动检测和修复字幕时间段重叠问题- 基于文本长度智能估算音频时长- 批量调整时间戳避免手动处理繁琐- 处理结果可预览和下载保存#### 智能防冲突机制- 上传 SRT 文件时自动清空文本输入框- 防止文本输入和字幕上传功能同时使用导致冲突- 提升用户操作体验和生成质量更多功能### 5. Examples 示例管理WebUI 提供了示例数据管理能力方便快速复用常用配置。- 支持把当前配置保存到 Examples- 支持按名称筛选- 支持关键字搜索- 支持分页浏览- 支持切换每页显示数量- 支持删除示例- 支持显示当前选中示例避免误删适合保存常用的角色音色、情感组合和测试文本。### 5. 参考音频管理支持对参考音频进行本地管理- 搜索- 分页查看- 预览播放- 选中回填- 上传新音频- 替换旧音频- 重命名- 删除适合维护自己的音色素材库。## 适用场景本项目适合以下场景- AI 配音与旁白生成- 角色台词生成- 有声内容创作- 短视频配音- 术语播报与专业文本试读- 本地化 TTS 调试与实验## 使用方式概览### 启动常见启动方式- 运行 [start_webui.bat](/e:/index-tts-main/start_webui.bat)- 或直接运行 [webui.py](/e:/index-tts-main/webui.py)### 基本流程1. 上传或选择音色参考音频2. 输入要生成的文本3. 按需设置情感、术语读音、多音字规则、停顿或拉长音4. 点击“生成语音”5. 在生成结果中试听和保存## 项目特点总结- 支持零样本音色克隆- 支持情感控制- 支持术语和多音字发音修正- 支持文本内停顿与拉长音控制- 支持示例库和参考音频库管理- 提供本地 WebUI适合中文用户直接使用## 说明- 精确时长控制是 IndexTTS2 的研究方向之一但公开版并未完全开放所有原生时长控制能力。- 当前项目中的“停顿”和“拉长音”功能主要通过 WebUI 层的分段合成与后处理实现适合实际使用但并不等同于模型原生公开接口。- 其中“停顿”效果相对稳定“拉长音”当前更接近自然拖尾的近似控制而不是严格意义上的模型原生延音。- 如果对人声自然度要求较高建议优先使用停顿控制并把拉长音控制在较小范围内。- 如果后续需要还可以继续扩展更多文本控制简码例如重音、弱读、局部变速等。图片预览下载地址https://pan.baidu.com/s/1PChhdaUPQQxXzkFJ0ARPZw?pwdyn2z链接https://pan.quark.cn/s/7922cdd3943a

更多文章

前端开发 2026/7/2 3:03:01

2026届毕业生推荐的五大AI科研工具解析与推荐

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek AI开题报告工具，是一种源自大语言模型的智能写作辅助系统，是专门为研…

Tabula 技术架构重构：基于 PDF 表格检测算法的数据提取革新【免费下载链接】tabula Tabula is a tool for liberating data tables trapped inside PDF files 项目地址: https://gitcode.com/gh_mirrors/ta/tabula 在数字化信息处理领域，PDF 文档…

张开发

前端开发 2026/6/24 19:42:20

Whisper-large-v3金融合规：双录语音自动质检+违规话术实时拦截

Whisper-large-v3金融合规：双录语音自动质检违规话术实时拦截 1. 项目背景与价值金融行业的"双录"（录音录像）合规要求已经成为行业标准，但传统的人工质检方式面临巨大挑战。一个银行网点每天产生数百小时的双录音频&…

张开发

IndexTTS2今夕版最新版本号2026-04-12再次更新新添加功能SRT字幕文件生成音频以及生成音频同时生成SRT 字幕文件

最新文章

AI推理卡在GC上？.NET 11 GC第7代改进与Span＜T＞-First内存策略（附3个内存泄漏检测脚本）

2026届必备的五大降重复率助手横评

工业机器人智能进化的革命性突破：6自由度机械臂从理论到实践的完整技术解析

为什么你的EF Core向量搜索在K8s集群中频繁OOM？——基于eBPF追踪的内存泄漏根因分析（附诊断脚本+自动修复中间件）

荒岛求生与系统容灾：从《新概念英语》Lesson 12聊聊你的“业务救生筏”准备好了吗？

【仅限首批200名开发者】Dify API v0.12.0未公开的/batch_stream接口性能红利：吞吐提升210%实录

推荐文章

相关文章

分享文章

更多文章

2026届毕业生推荐的五大AI科研工具解析与推荐

老马失前蹄，竟然在数据库外键上翻车了，重温外键级联刎

手把手教你用VCS+Verdi在Linux下仿真蜂鸟E203 RISC-V核（附波形调试技巧）

稚晖君机械臂技术解析：从材料选择到深度学习算法的全栈实现

键鼠操作可视化革命：Keyviz如何让屏幕录制和教学演示更专业

终极指南：如何用ModTheSpire轻松扩展你的Slay The Spire游戏体验

探索AI世界：PaddleHub深度学习框架详解

Realize自定义命令和脚本：终极Golang开发自动化指南

终极指南：Zelda3快照与回放功能如何实现游戏状态保存与验证

注意力机制模块：引入 SA（Shuffle Attention）注意力到 YOLOv10，兼顾通道与空间信息

Tabula 技术架构重构：基于 PDF 表格检测算法的数据提取革新

Whisper-large-v3金融合规：双录语音自动质检+违规话术实时拦截

IndexTTS2今夕版最新版本号2026-04-12再次更新 新添加功能SRT字幕文件生成音频 以及生成音频同时生成SRT 字幕文件

最新文章

AI推理卡在GC上？.NET 11 GC第7代改进与Span＜T＞-First内存策略（附3个内存泄漏检测脚本）

2026届必备的五大降重复率助手横评

工业机器人智能进化的革命性突破：6自由度机械臂从理论到实践的完整技术解析

为什么你的EF Core向量搜索在K8s集群中频繁OOM？——基于eBPF追踪的内存泄漏根因分析（附诊断脚本+自动修复中间件）

荒岛求生与系统容灾：从《新概念英语》Lesson 12聊聊你的“业务救生筏”准备好了吗？

【仅限首批200名开发者】Dify API v0.12.0未公开的/batch_stream接口性能红利：吞吐提升210%实录

推荐文章

相关文章

分享文章

更多文章

IndexTTS2今夕版最新版本号2026-04-12再次更新新添加功能SRT字幕文件生成音频以及生成音频同时生成SRT 字幕文件