什么是肠易激综合征| 溜肉段用什么肉| 蟑螂怕什么| 什么是零售| 黔驴技穷的意思是什么| 引火下行是什么意思| 眼睛变红了是什么原因| 全科门诊主要看什么| 一月四号是什么星座| 老年人睡眠多是什么原因| 心肌缺血吃什么食物好| 二氧化硅是什么东西| nz是什么意思| 宝路华手表什么档次| 银屑病吃什么药| 头晕恶心想吐吃什么药| 小孩风寒感冒吃什么药| 王为念和王芳什么关系| 心电图t波改变是什么意思| 女人为什么比男人长寿| 探囊取物是什么意思| 1969年什么时候退休| 92年五行属什么| 清朝皇帝姓什么| 没什么好怕| 普拉提和瑜伽有什么区别| 嘴巴发甜是什么原因| 爆栗什么意思| 小孩子坐飞机需要什么证件| 子宫附件彩超检查什么| 攻击是什么意思| 牒是什么意思| 痛风吃什么药效果好| 心肌缺血吃什么药效果最好| 解大便时有鲜血流出是什么原因| 三月底是什么星座| 肝不好有什么症状表现| 别人梦见我死了是什么意思| 这个季节适合种什么菜| 盆底肌高张是什么意思| 什么是百分数| 食物链是什么意思| camellia是什么意思| 死库水是什么意思| 体外射精是什么意思| 剌是什么意思| 什么洗衣液是中性的| 梦见搬家是什么意思| 僧侣是什么意思| 大红色配什么颜色好看| 虬结什么意思| 邓紫棋和华晨宇什么关系| 策反是什么意思| 脾虚吃什么食物| 断肠草长什么样| 外阴溃烂用什么药| 懋是什么意思| 半路杀出个程咬金是什么意思| 耐力是什么意思| 内分泌失调什么症状| 胎盘低置需要注意什么| bcl是什么意思| 天蝎座和什么星座配| 胃粘膜损伤吃什么药| 吃什么尿酸高| 尿道口痛什么原因| 1998年出生属什么生肖| pof是什么意思| 葵水是什么| 脾的作用是什么| 为什么会全身酸痛| 囊性结节是什么意思| 屁的成分是什么气体| 骨质欠规整是什么意思| 腹部左侧是什么器官| 东海龙王叫什么名字| 抹茶是什么茶叶做的| 上面一个处下面一个日是什么字| 妄念是什么意思| 膝盖跪着疼是什么原因| 饕餮是什么意思| 婴儿放屁臭是什么原因| 更年期皮肤瘙痒是什么原因| 什么样的人容易中暑| 脾囊肿是什么原因引起的| 嗓子疼不能吃什么| 查肝肾功能挂什么科| 羊奶不能和什么一起吃| 丈夫早亡的女人什么命| 一箭双雕是什么意思| 舌根苔白厚腻是什么原因| 黄绿色是什么颜色| 什么水什么龙| 胃疼吃什么水果| 梗米是什么| 脍炙人口什么意思| 广东属于什么气候| 什么的街道| 柔顺剂是什么| 嗓子挂什么科| 腰椎生理曲度变直是什么意思| 嗓子哑是什么病的前兆| 双皮奶是什么做的| 甲鱼喜欢吃什么| 丙肝吃什么药| 百什么争鸣| 人几读什么| 国印是什么意思| 暗是什么生肖| 描述是什么意思| 梦见包饺子是什么征兆| 肺结核吃什么药| 小孩一到晚上就发烧是什么原因| 沉香有什么作用| 炉火什么什么| 肺囊肿是什么病严重吗| 青津果的功效是什么| 没收个人全部财产是什么意思| 弄得什么| 心窦过缓是什么原因| 什么床垫好| 血热吃什么药效果好| 颈椎压迫神经挂什么科| 妇乐颗粒的功效能治什么病| 马桶堵了用什么疏通| 铁为什么会生锈| 5.4是什么星座| 人打嗝是什么原因| 下巴两边长痘痘是什么原因| 清热败火的败是什么意思| tc版是什么意思| 晚上睡觉手麻木是什么原因| 长孙是什么意思| 清洁度二度是什么意思| 伤口不容易愈合是什么原因| 烂嘴角是什么原因| 毛字出头念什么| 为什么会感染幽门螺旋杆菌| 占有欲强是什么意思| 左氧氟沙星有什么副作用| 抗坏血酸是什么意思| 什么动作容易怀孕| 猫起什么名字好| 藤壶是什么| 内火旺是什么原因| 彪是什么动物| 胸闷气短吃什么药效果好| 蛋白质偏高是什么原因| 口干舌燥吃什么中成药| 什么人不洗澡| 翼龙吃什么| 前胸疼是什么原因| 硬度不够吃什么好| 梦见奶奶去世预示什么| 夫妻肺片里面都有什么| 发痧吃什么药可以断根| 吃什么水果可以美白| 大将军衔相当于什么官| 白蛋白低吃什么补得快| 什么是富氢水| 十余年是什么意思| 黄体酮是什么| 草字头加弓念什么| 5月24日什么星座| 宗室是什么意思| 吃什么东西补钙| 为什么会得肾构错瘤| 参谋长是什么级别| 收放自如是什么意思| 绿心黑豆有什么功效| 坐月子能吃什么零食| oder是什么意思| crt是什么意思| 糖化是什么意思| 两毛二是什么军衔| 心率过快是什么原因| 跨界是什么意思| 垂涎欲滴意思是什么| 四库全书是什么| 县尉相当于现在什么官| 为什么玉镯不能戴左手| 血小板低什么症状| 小肠是干什么的| 父亲节什么时候| 阿奇霉素和头孢有什么区别| 订单号是什么| 斯德哥尔摩是什么意思| 浑身疼吃什么药管用| 什么是局限性肺纤维化| 孕早期不能吃什么| 标本是什么意思| 四季春属于什么茶| 欠钱不还被起诉会有什么后果| 蜘蛛痣是什么样的| 哈喽是什么意思| 褪黑素是什么东西| 一般手脚慢进什么工厂| 法身是什么意思| 8月27日什么星座| 逍遥丸什么人不能吃| 两弹一星是什么| 边缘性人格障碍是什么| 什么样的小鸟| 13颗珠子的手串什么意思| 胃幽门螺旋杆菌吃什么药效果好| 物上代位性是什么意思| 人鱼线是什么| 自来卷的头发适合什么发型| 凤梨不能和什么一起吃| 吃什么对甲状腺有好处| 甲亢能吃什么水果| 打包是什么意思| 左眼皮一直跳什么原因| 牛肚是什么部位| 12月生日是什么星座| 提供什么| 什么是性侵| 活血化瘀吃什么| 1991年属羊是什么命| 指检是什么| 睾丸胀痛是什么原因| 双源ct主要检查什么| nag是什么意思| 内科查什么| 地球上什么东西每天要走的距离最远| 阑尾炎疼吃什么药| 天蝎女喜欢什么样的男生| 五行白色属什么| 白蛋白低是什么意思| 下腹痛挂什么科| 睡觉爱做梦是什么原因| 食管炎吃什么药最好| 缺少维生素有什么症状| 煤气是什么味道| 意淫是什么| 海藻是什么东西| 做梦是什么原因造成的| 生理期是什么| 容易被吓到是什么原因| 降血糖吃什么| 白蜡烛代表什么| 什么只好什么| 炒菜用什么锅好| 被螨虫咬了非常痒用什么药膏好| pdl是什么意思| 睡觉喜欢流口水是什么原因| 气血不足吃什么中药| 岛屿是什么| 健康管理师是干什么的| 骨折不能吃什么东西| 粥样动脉硬化吃什么药| 脑梗适合吃什么食物| 猫发烧吃什么药| 什么是瘦马| 三多一少指的是什么| 吞咽困难是什么原因| 7月1号是什么节| 贫血打什么针效果最好| 幼小衔接班主要教什么| 早上起来手麻是什么原因| 爱因斯坦发明了什么| 马克笔是什么笔| 相亲为什么不能拖太久| 拔完智齿可以吃什么| 百度
Skip to content

AaronZ345/StyleSinger

Repository files navigation

StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis

Yu Zhang, Rongjie Huang, Ruiqi Li, JinZheng He, Yan Xia, Feiyang Chen, Xinyu Duan, Baoxing Huai, Zhou Zhao | Zhejiang University, Huawei Cloud

PyTorch Implementation of StyleSinger (AAAI 2024): Style Transfer for Out-of-Domain Singing Voice Synthesis.

arXiv zhihu Hugging Face GitHub Stars

We provide our implementation and pre-trained models in this repository.

Visit our demo page for audio samples.

News

  • 2024.09: We released the full dataset of GTSinger!
  • 2024.05: We released the code and checkpoints of StyleSinger!
  • 2023.12: StyleSinger is accepted by AAAI 2024!

Key Features

  • We present StyleSinger, the first singing voice synthesis model for zero-shot style transfer of out-of-domain reference samples. StyleSinger excels in generating exceptional singing voices with unseen styles derived from reference singing voice samples.
  • We propose the Residual Style Adaptor (RSA), which uses a residual quantization model to meticulously capture diverse style characteristics in reference samples.
  • We introduce the Uncertainty Modeling Layer Normalization (UMLN) to perturb the style information in the content representation during the training phase, and thus enhance the model generalization of StyleSinger.
  • Extensive experiments in zero-shot style transfer show that StyleSinger exhibits superior audio quality and similarity compared with baseline models.

Quick Start

We provide an example of how you can generate high-fidelity samples using StyleSinger.

To try on your own dataset or GTSinger, simply clone this repo on your local machine provided with NVIDIA GPU + CUDA cuDNN and follow the below instructions.

Pre-trained Models

You can use all pre-trained models we provide on HuggingFace or Google Drive. Notably, this StyleSinger checkpoint only supports Chinese! You should train your own model based on GTSinger for multilingual style transfer! Details of each folder are as follows:

Model Description
StyleSinger Acousitic model (config)
HIFI-GAN Neural Vocoder
Encoder Emotion Encoder

Dependencies

A suitable conda environment named stylesinger can be created and activated with:

conda create -n stylesinger python=3.8
conda install --yes --file requirements.txt
conda activate stylesinger

Multi-GPU

By default, this implementation uses as many GPUs in parallel as returned by torch.cuda.device_count(). You can specify which GPUs to use by setting the CUDA_DEVICES_AVAILABLE environment variable before running the training module.

Inference for Chinese singing voices

Here we provide a speech synthesis pipeline using StyleSinger.

  1. Prepare StyleSinger (acoustic model): Download and put checkpoint at checkpoints/StyleSinger.
  2. Prepare HIFI-GAN (neural vocoder): Download and put checkpoint at checkpoints/hifigan.
  3. Prepare Emotion Encoder: Download and put checkpoint at checkpoints/global.pt.
  4. Prepare reference information: Provide a reference_audio (48k) and input target ph, target note for each ph, target note_dur for each ph, target note_type for each ph (rest: 1, lyric: 2, slur: 3), and reference audio path. Input these information in Inference/StyleSinger.py. Notably, if you want to use Chinese data in GTSinger to infer this Chinese checkpoint, refer to phone_set, you have to delete _zh in each ph of GTSinger, and change <AP> to breathe, <SP> to _NONE!
  5. Infer for style transfer:
rm -rf ./checkpoints/checkpoints
CUDA_VISIBLE_DEVICES=$GPU python inference/StyleSinger.py --config egs/stylesinger.yaml  --exp_name checkpoints/StyleSinger

Generated wav files are saved in infer_out by default.

Train your own model based on GTSinger

Data Preparation

  1. Prepare your own singing dataset or download GTSinger.
  2. Put metadata.json (including ph, word, item_name, ph_durs, wav_fn, singer, ep_pitches, ep_notedurs, ep_types for each singing voice) and phone_set.json (all phonemes of your dictionary) in data/processed/style (Note: we provide metadata.json and phone_set.json in GTSinger, but you need to change the wav_fn of each wav in metadata.json to your own absolute path).
  3. Set processed_data_dir (data/processed/style), binary_data_dir, valid_prefixes (list of parts of item names, like ["Chinese#ZH-Alto-1#Mixed_Voice_and_Falsetto#一次就好"]), test_prefixes in the config.
  4. Download the global emotion encoder to emotion_encoder_path (training on Chinese only) or train your own global emotion encoder referring to Emotion Encoder based on emotion annotations in GTSinger.
  5. Preprocess Dataset:
export PYTHONPATH=.
CUDA_VISIBLE_DEVICES=$GPU python data_gen/tts/bin/binarize.py --config egs/stylesinger.yaml

Training StyleSinger

CUDA_VISIBLE_DEVICES=$GPU python tasks/run.py --config egs/stylesinger.yaml  --exp_name StyleSinger --reset

Inference using StyleSinger

CUDA_VISIBLE_DEVICES=$GPU python tasks/run.py --config egs/stylesinger.yaml  --exp_name StyleSinger --infer

Acknowledgements

This implementation uses parts of the code from the following Github repos: GenerSpeech, NATSpeech, ProDiff, DiffSinger as described in our code.

Citations

If you find this code useful in your research, please cite our work:

@inproceedings{zhang2024stylesinger,
  title={StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis},
  author={Zhang, Yu and Huang, Rongjie and Li, Ruiqi and He, JinZheng and Xia, Yan and Chen, Feiyang and Duan, Xinyu and Huai, Baoxing and Zhao, Zhou},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={38},
  number={17},
  pages={19597--19605},
  year={2024}
}

Disclaimer

Any organization or individual is prohibited from using any technology mentioned in this paper to generate someone's singing without his/her consent, including but not limited to government leaders, political figures, and celebrities. If you do not comply with this item, you could be in violation of copyright laws.

visitors

About

PyTorch Implementation of StyleSinger(AAAI 2024): Style Transfer for Out-of-Domain Singing Voice Synthesis

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

家和万事兴是什么意思 有龙则灵的灵是什么意思 维生素c对身体有什么好处 七年之痒是什么意思 1964年是什么年
补体c4偏低是什么意思 蒲公英有什么作用和功效 闺房之乐是什么意思 骨盐量偏高代表什么 鱼刺卡喉咙挂什么科
三月十五日是什么星座 什么是反流性食管炎 高考早点吃什么好 gpi是什么意思 吃什么食物能补钾
夜盲吃什么维生素 胎儿左肾盂分离是什么意思 中意你是什么意思 冬天穿什么 rpa是什么
提莫是什么意思ff14chat.com 股癣用什么药膏最好jasonfriends.com 艾字五行属什么hcv7jop6ns5r.cn 拉出黑色的屎是什么原因hcv7jop6ns6r.cn 什么字笔画最多hcv8jop4ns6r.cn
容易上火是什么原因hcv7jop6ns7r.cn 晨跑有什么好处cl108k.com 梦见好多衣服是什么意思hcv8jop8ns3r.cn 乖乖是什么意思hcv9jop4ns5r.cn 颜色什么fenrenren.com
孤单的反义词是什么hcv9jop3ns8r.cn 服了是什么意思hcv8jop2ns2r.cn 心脏跳的快是什么原因hcv8jop4ns2r.cn 白酒是什么酿造的hcv9jop2ns5r.cn 腰椎滑脱是什么意思dayuxmw.com
葡萄糖酸钙锌口服溶液什么时候喝hcv8jop7ns2r.cn 侬是什么意思hcv8jop8ns8r.cn 乌龟吃什么hcv8jop6ns0r.cn 吃白饭是什么意思hcv8jop4ns3r.cn 间接胆红素偏高是什么原因hcv9jop5ns6r.cn
百度