Sinhala TTS [text2speech] v3.0 Voice Cloning

MihiCherub

Well-known member
  • Sep 14, 2009
    18,868
    1
    9,644
    113
    Gampaha
    Sinhala TTS [text2speech] v3.0
    Zero-Shot Voice Cloning
    Architecture
    F5-TTS (Flow-Matching based Text-to-Speech)



    audio clip 3300 ක් length එක පැය 7 ක dataset එකක් use කරල steps 230,000 ක් epoch 150ක් train කරල තියෙනව. පැය 28ක් විතර.
    සිංහල unicode ම තමයි පාවිච්චි කරල තියෙන්නෙ. romanized කරගැනිමේ අවශ්‍යතාවයක් නෑ. dataset එකේ numbers, english words ඇතුලත් කරල නැහැ. ඒ නිසා numbers ඕනෙ නම් ඒක සින්හලෙන් ටයිප් කරගන්න ඕනෙ. (15-පහලව) මේක දිනවලටත් එහෙමයි. (2025-දෙදහස් විසිපහ). ඉන්ග්‍රීසි වචන ඕනෙ වෙනව නම් ඒකත් සින්හලෙන් ටයිප් කරගන්න වෙනව.
    Learning Rate: 1e-5
    ✔ checkpoint එක තාම learn වෙනව. ඒ කියන්නෙ තව train කරන්න පුලුවන්.

    ⚠️ subtle mispronunciations or strange intonation is possible.

    ✔ සිංහල voice clone කරගන්න පුලුවන්.
    ✔ clone කරන voice එකේ quality, speed, pauses මත output එක ගොඩක් වෙනස් වෙනව.
    ✔ f5 tts එකේ තියෙන ලොකුම ප්‍රශ්නයක් තමයි වචන හලන එක සහ hypothetical words use කරන එක. ඒක මගහරව ගන්න පුලුවන් පොඩි batch වලින් voice generate කරගන්න එකෙන්.
    ✔ pauses එන්න ඕනෙ තැන් වලට "," "." පාවිච්චි කරන්න.
    huggingface model card එකෙන් මේක locally run කරගන්නෙ කොහොමද කියල ඔක්කොම විස්තර ටික දාල තියෙනව. try කරල බලන්න. මේක run කරන්න gpu එකක් ඕනෙ නෑ. cpu එකෙන් උනත් generate කරගන්න පුලුවන්. මේවත් image generate කරන models වගේම තමා. එකම text එක දුන්නට seed value එක වෙනස් වෙවී එක එක විදියෙ output එන්නෙ. output ඔක්කොම cherry picked කරල තියෙන්නෙ.
    ✔ cmd එකෙන් run කරන එක කරදර නිසා වෙනම gradio interlace එකක් හදල තියෙන්නෙ. python ගැන දන්නෙ නැත්නම් repo එකේ තියෙන සමහර codes run කරගන්න බෑ. ඒව මෙතන අහන්න help එකක් දෙන්නම්.



    කලින් මම i2v model එකක් පාවිච්චි කරල tts output demonstrate කලා. ඒතකොට ගොඩක් අය එක i2v model ගැන කතාකරල තිබුනෙ. ඒකෙ තියෙන අඩුපාඩු. නමුත් demonstrate කරන්න ඕනෙ උනේ tts model එක නිසා මේසැරේ i2v model එක යොදාගත්තෙ නෑ.

    🙏 Acknowledgements
    Pathnirvana Dataset
    Hugging Face
    https://huggingface.co/tharindumihi/tts-si-F5-TTS

    මේ models මෙහෙම release කලා කියල මට ලැබෙන දෙයක් නෑ. මේ දැනුමෙන් මෙහෙම වැඩ නොකර කුනුහරපයක් හදල දාල විවස් ගන්න පුලුවන් මීට වඩා. කලින් train කරපු sinhala tts මොඩල් දෙකක් මේ group එකේ share කලා. ඒකෙන් v1 එකට කමෙන්ට් ගානට වඩා downloads ගිහින් තියෙනව. v2 එකේ downloads ගානට reactionවත් නැහැ. ඒකියන්නෙ download කරන අයට "ස්තූතියි" කියන්නවත් වෙලාව නැති නිසා මම මේ repo එක gated කරල තියෙන්නෙ. ඕනෙ අය request එකක් එවන්න.

    ස්තූතියි.
     

    රෝසි ආච්චි

    Well-known member
  • Dec 10, 2011
    11,041
    23,953
    113
    මෙහෙම වැඩ නොකර කුනුහරපයක් හදල දාල විවස් ගන්න පුලුවන් මීට වඩා. .
    Nervous Steve Harvey GIF by ABC Network