[原创]Applio：基于VITS的语音转换工具

项目简介

基于 VITS 的语音转换, 专注于简单性、质量和性能

安装

从 GitHub Releases 下载最新版本或使用编译版本。

Windows

./run-install.bat

Linux

某些基于 Linux 的操作系统可能会遇到安装程序的复杂情况。在这种情况下，我们建议在 Python 环境版本 3.9 至 3.11 中安装 requirements.txt 。

chmod +x run-install.sh

生成文件

适用于 Paperspace 等平台

make run-install

用法

请访问 Applio 文档以获取详细的 UI 使用说明。

Windows

./run-applio.bat

Linux

chmod +x run-applio.sh

Makefile

适用于 Paperspace 等平台

make run-applio

存储库增强功能

该存储库进行了重大增强，以提高其功能和可维护性：

模块化代码库：采用模块化方法重构代码库，以实现更好的组织、可读性和维护。
跳跃长度实现：实现了跳跃长度，由 @Mangio621 提供，提高了效率和性能，特别是在 Crepe（以前称为 Mangio-Crepe）上。
30 多种语言的翻译：增加了对 30 多种语言翻译的支持，增强了全球受众的可访问性。
跨平台兼容性：确保跨各种平台的无缝操作，以获得一致的用户体验。
优化的需求：微调项目需求以提高性能和资源效率。
简化的安装：简化的安装过程，提供用户友好的设置体验。
混合 F0 估计：引入了利用 nanmedian 的个性化“混合”F0 估计方法，结合各种方法的 F0 计算以获得最佳结果。
易于使用的用户界面：实现了用户友好的界面以实现直观的交互。
优化的代码和依赖关系：增强的代码和简化的依赖关系以提高效率。
插件系统：引入了用于扩展功能和定制的插件系统。
过度训练检测器：实现了过度训练检测器，一旦达到指定的历元限制，就会停止训练，从而防止过度训练。
模型搜索：将模型搜索功能直接集成到应用程序界面中，方便轻松发现模型。
预训练模型的增强：引入了额外的功能，例如自定义预训练模型，允许用户在安装时使用他们喜欢的预训练模型，而无需使用 RVC1 预训练模型。
语音混合器：开发了一种语音混合器功能，将两个经过训练的模型结合起来创建一个新模型，从而提供模型生成的多功能性。
可访问性改进：通过指示用户界面中每个元素的功能的描述性工具提示增强了可访问性，使其对所有用户更加友好。
新的 F0 提取方法：引入了新的 F0 提取方法，例如 FCPE 或混合，扩展了沥青提取的选项。
输出格式选择：实现了输出格式选择功能，允许用户选择他们想要保存音频文件的格式。
哈希系统：实施了哈希系统，为每个创建的模型分配一个唯一的 ID，以防止未经授权的复制或盗窃。
模型下载系统：增加了对从 Google Drive、Yandex、Pixeldrain、Discord、Hugging Face 或 Applio.org 等各种网站下载模型的支持，增强了模型的可访问性。
TTS 增强功能：改进了文本转语音功能，支持上传 TXT 文件，提高了输入法的灵活性。
分割音频：实现了音频分割功能，将音频分割成片段以进行推理，随后将它们合并以创建最终音频，从而缩短处理时间并可能获得更好的结果。
Discord 存在：在 Discord 上显示的存在表明 Applio 的活跃使用，并计划根据应用程序内的活动合并不同的状态。
Flask 集成：与 Flask 的集成最初默认禁用，只需单击设置选项卡中模型下载按钮旁边的 Applio 按钮即可从网络自动下载模型。
支持选项卡：添加了支持选项卡，使用户能够录制屏幕以演示遇到的问题，并允许用户创建 GitHub 问题以进行审查和故障排除，从而促进更快地解决问题。

这些增强功能有助于构建更强大且可扩展的代码库，使贡献者和用户更容易访问存储库。

项目链接

https://github.com/IAHispano/Applio

关注「GitHubStore」公众号

扫一扫以下微信

1 加入技术交流群，备注「开发语言-城市-昵称」

文章原文