@berraksismann Tebrik ederim, X-voice s2 referans metinsiz çalışmasına rağmen RTF ve WER değerleri çok iyi ve İngilizcede X-voice s1'den daha düşük WER değerine sahip bunu anlayamadım. Makalede streaming latency değerlerine hiç değinilmemiş. 30 dil arasında da Türkçe yok sebebi dataset mi ?
@kadirnardev Çoook teşekkür ederim🙏 huggingface kursuna başlamıştım devam edeceğim, ben de bu alanda bir açık olduğunu(özellikle Türkiye'de) ve tts teknolojisinin gelişime önümüzde ki en az 2-3 yıl aç olacaktır sonrasında belki hız/bellek/doğallık dengesi çok yükselirse sektör yavaşlayabilir
@kadirnardev Elinize sağlık çok güzel olmuş ben de bir Türkçe model geliştirmeye çalışacağım ama önce teknik altyapıyı oturtmaya çalışıyorum spektogramlar, fourier dönüşümü, nyquist-shannon vs. Bir tavsiye verirseniz çok mutlu olurum
@kadirnardev Paylaşmanızı dört gözle bekliyorum türkçe modeliniz vurguları ve telafuzu coqui den daha iyi ama sanki ses çok temiz değil gibi muhtemelen türkçe FT veri setlerinden kaynaklıdır, rtf 0.1'in altındaysa ve 6 GB VRAM yeterli oluyorsa kesinlikle türkçe için en iyi seçenek olur
@kadirnardev Teşekkür ederim, kokoro 82M kullanıyorum başarılı bir model bence, 1.5B ile duygu tonu eklenen elevenlabs kalitesinde bir model sunabilirseniz mükemmel olur bunu openai, google veya elevenlabs açık kaynak yapmak istemeyecektir diye düşünüyorum
@kadirnardev Artsa da 3 haneye çıkmaz muhtemelen ve fazlasıyla iyi sesli yapay zeka asistanı trendinden dolayı şu an gecikme süresi bence en önemli etken, özellikle düşük vram de tek haneli ms değerleri sesli AI projelerinde çok işe yarayacaktır. Rasp pi de çalışan bir moshi olsun isterdik