Sinhala TTS [text2speech] v3.0
Zero-Shot Voice Cloning
Architecture
F5-TTS (Flow-Matching based Text-to-Speech)
audio clip 3300 ක් length එක පැය 7 ක dataset එකක් use කරල steps 230,000 ක් epoch 150ක් train කරල තියෙනව. පැය 28ක් විතර.
සිංහල unicode ම තමයි පාවිච්චි කරල තියෙන්නෙ. romanized කරගැනිමේ අවශ්යතාවයක් නෑ. dataset එකේ numbers, english words ඇතුලත් කරල නැහැ. ඒ නිසා numbers ඕනෙ නම් ඒක සින්හලෙන් ටයිප් කරගන්න ඕනෙ. (15-පහලව) මේක දිනවලටත් එහෙමයි. (2025-දෙදහස් විසිපහ). ඉන්ග්රීසි වචන ඕනෙ වෙනව නම් ඒකත් සින්හලෙන් ටයිප් කරගන්න වෙනව.
Learning Rate: 1e-5
✔ checkpoint එක තාම learn වෙනව. ඒ කියන්නෙ තව train කරන්න පුලුවන්.
subtle mispronunciations or strange intonation is possible.
✔ සිංහල voice clone කරගන්න පුලුවන්.
✔ clone කරන voice එකේ quality, speed, pauses මත output එක ගොඩක් වෙනස් වෙනව.
✔ f5 tts එකේ තියෙන ලොකුම ප්රශ්නයක් තමයි වචන හලන එක සහ hypothetical words use කරන එක. ඒක මගහරව ගන්න පුලුවන් පොඩි batch වලින් voice generate කරගන්න එකෙන්.
✔ pauses එන්න ඕනෙ තැන් වලට "," "." පාවිච්චි කරන්න.
huggingface model card එකෙන් මේක locally run කරගන්නෙ කොහොමද කියල ඔක්කොම විස්තර ටික දාල තියෙනව. try කරල බලන්න. මේක run කරන්න gpu එකක් ඕනෙ නෑ. cpu එකෙන් උනත් generate කරගන්න පුලුවන්. මේවත් image generate කරන models වගේම තමා. එකම text එක දුන්නට seed value එක වෙනස් වෙවී එක එක විදියෙ output එන්නෙ. output ඔක්කොම cherry picked කරල තියෙන්නෙ.
✔ cmd එකෙන් run කරන එක කරදර නිසා වෙනම gradio interlace එකක් හදල තියෙන්නෙ. python ගැන දන්නෙ නැත්නම් repo එකේ තියෙන සමහර codes run කරගන්න බෑ. ඒව මෙතන අහන්න help එකක් දෙන්නම්.
කලින් මම i2v model එකක් පාවිච්චි කරල tts output demonstrate කලා. ඒතකොට ගොඩක් අය එක i2v model ගැන කතාකරල තිබුනෙ. ඒකෙ තියෙන අඩුපාඩු. නමුත් demonstrate කරන්න ඕනෙ උනේ tts model එක නිසා මේසැරේ i2v model එක යොදාගත්තෙ නෑ.
Acknowledgements
Pathnirvana Dataset
Hugging Face
https://huggingface.co/tharindumihi/tts-si-F5-TTS
මේ models මෙහෙම release කලා කියල මට ලැබෙන දෙයක් නෑ. මේ දැනුමෙන් මෙහෙම වැඩ නොකර කුනුහරපයක් හදල දාල විවස් ගන්න පුලුවන් මීට වඩා. කලින් train කරපු sinhala tts මොඩල් දෙකක් මේ group එකේ share කලා. ඒකෙන් v1 එකට කමෙන්ට් ගානට වඩා downloads ගිහින් තියෙනව. v2 එකේ downloads ගානට reactionවත් නැහැ. ඒකියන්නෙ download කරන අයට "ස්තූතියි" කියන්නවත් වෙලාව නැති නිසා මම මේ repo එක gated කරල තියෙන්නෙ. ඕනෙ අය request එකක් එවන්න.
ස්තූතියි.
Zero-Shot Voice Cloning
Architecture
F5-TTS (Flow-Matching based Text-to-Speech)
audio clip 3300 ක් length එක පැය 7 ක dataset එකක් use කරල steps 230,000 ක් epoch 150ක් train කරල තියෙනව. පැය 28ක් විතර.
සිංහල unicode ම තමයි පාවිච්චි කරල තියෙන්නෙ. romanized කරගැනිමේ අවශ්යතාවයක් නෑ. dataset එකේ numbers, english words ඇතුලත් කරල නැහැ. ඒ නිසා numbers ඕනෙ නම් ඒක සින්හලෙන් ටයිප් කරගන්න ඕනෙ. (15-පහලව) මේක දිනවලටත් එහෙමයි. (2025-දෙදහස් විසිපහ). ඉන්ග්රීසි වචන ඕනෙ වෙනව නම් ඒකත් සින්හලෙන් ටයිප් කරගන්න වෙනව.
Learning Rate: 1e-5
✔ checkpoint එක තාම learn වෙනව. ඒ කියන්නෙ තව train කරන්න පුලුවන්.
✔ සිංහල voice clone කරගන්න පුලුවන්.
✔ clone කරන voice එකේ quality, speed, pauses මත output එක ගොඩක් වෙනස් වෙනව.
✔ f5 tts එකේ තියෙන ලොකුම ප්රශ්නයක් තමයි වචන හලන එක සහ hypothetical words use කරන එක. ඒක මගහරව ගන්න පුලුවන් පොඩි batch වලින් voice generate කරගන්න එකෙන්.
✔ pauses එන්න ඕනෙ තැන් වලට "," "." පාවිච්චි කරන්න.
huggingface model card එකෙන් මේක locally run කරගන්නෙ කොහොමද කියල ඔක්කොම විස්තර ටික දාල තියෙනව. try කරල බලන්න. මේක run කරන්න gpu එකක් ඕනෙ නෑ. cpu එකෙන් උනත් generate කරගන්න පුලුවන්. මේවත් image generate කරන models වගේම තමා. එකම text එක දුන්නට seed value එක වෙනස් වෙවී එක එක විදියෙ output එන්නෙ. output ඔක්කොම cherry picked කරල තියෙන්නෙ.
✔ cmd එකෙන් run කරන එක කරදර නිසා වෙනම gradio interlace එකක් හදල තියෙන්නෙ. python ගැන දන්නෙ නැත්නම් repo එකේ තියෙන සමහර codes run කරගන්න බෑ. ඒව මෙතන අහන්න help එකක් දෙන්නම්.
කලින් මම i2v model එකක් පාවිච්චි කරල tts output demonstrate කලා. ඒතකොට ගොඩක් අය එක i2v model ගැන කතාකරල තිබුනෙ. ඒකෙ තියෙන අඩුපාඩු. නමුත් demonstrate කරන්න ඕනෙ උනේ tts model එක නිසා මේසැරේ i2v model එක යොදාගත්තෙ නෑ.
Pathnirvana Dataset
Hugging Face
https://huggingface.co/tharindumihi/tts-si-F5-TTS
මේ models මෙහෙම release කලා කියල මට ලැබෙන දෙයක් නෑ. මේ දැනුමෙන් මෙහෙම වැඩ නොකර කුනුහරපයක් හදල දාල විවස් ගන්න පුලුවන් මීට වඩා. කලින් train කරපු sinhala tts මොඩල් දෙකක් මේ group එකේ share කලා. ඒකෙන් v1 එකට කමෙන්ට් ගානට වඩා downloads ගිහින් තියෙනව. v2 එකේ downloads ගානට reactionවත් නැහැ. ඒකියන්නෙ download කරන අයට "ස්තූතියි" කියන්නවත් වෙලාව නැති නිසා මම මේ repo එක gated කරල තියෙන්නෙ. ඕනෙ අය request එකක් එවන්න.
ස්තූතියි.

