As generative models gain attention, it is crucial to adapt these models efficiently even with limited high-quality data and computational resources. In this work, we investigate a parameter-efficient fine-tuning (PEFT) for low-resource text-to-speech to transfer pre-trained knowledge to a new language leveraging only a single-speaker dataset and a single NVIDIA TITAN RTX GPU. We propose three types of adapters—Conditioning Adapter, Prompt Adapter, and DiT LoRA Adapter—where Conditioning Adapter enhances text embeddings, Prompt Adapter refines input representations, and DiT LoRA Adapter enables speech generation efficiency. We further explore the respective optimal configuration of adapters for single-speaker and multi-speaker scenarios. Consequently, under resource constraints, we successfully achieve effective adaptation to a new language using only 1.72% of the total parameters.
Audio Prompt | Text Prompt | GT | PEFT-TTS | CosyVoice 2 | F5-TTS (pre-training_O) | F5-TTS (pre-training_X) |
---|---|---|---|---|---|---|
커피를 마시면 밤에 잠이 안와요. | ||||||
그는 깊은 슬픔에 잠겨 있다. | ||||||
그것은 추측에 불과하다. | ||||||
그는 맡은 일은 반드시 해낸다. | ||||||
실습이 꼭 이론보다 중요한 것은 아니다. | ||||||
빗방울이 점점 굵어진다. | ||||||
이 책은 한국어 교과서이다. | ||||||
그는 남자 친구로서는 완벽하지만, 남편으로서는 아니다. | ||||||
우리는 공통점이 많아요. | ||||||
피부가 참 고우시네요. |
Audio Prompt | Text Prompt | GT | PEFT-TTS | CosyVoice 2 | F5-TTS (pre-training_O) | F5-TTS (pre-training_X) |
---|---|---|---|---|---|---|
영화 탐정 리턴즈가 반전 스토리를 써 내려가면서 코미디 시리즈물로 안착하고 있다. | ||||||
이 번역기는 영어를 한국어로, 한국어를 영어로 자동으로 바꾸어 주는 기계이다. | ||||||
이번 축제는 호러와 워터를 한 번에 경험할 수 있는 이색 콘텐츠로 눈길을 사로잡는다. | ||||||
수감자는 석방이라는 말에 자신의 소지품을 챙겨 유유히 교도소를 빠져나왔다. | ||||||
수두를 앓았던 사람은 모두 대상포진의 발병 가능성이 있으므로 접종 대상이다. | ||||||
된장 고추장 케첩 등이 담긴 통은 내용물을 아무리 짜내도 속을 깨끗이 씻어내기 어렵다. | ||||||
새로 임명된 경제수석의 역할이 과거 어느 때보다 막중하다. | ||||||
신혼부부는 여행사를 통해서 항공권과 숙박지를 정하고 신혼여행을 다녀왔다. | ||||||
그러나 김 대표가 다른 친문 인사들에 비해 당내 기반이 부족하다는 지적도 나온다. | ||||||
그녀가 회사에 취직했다는 소식과 연이어 곧 결혼한다는 소식이 전해졌다. |