Güncel

NVIDIA’dan gerçekçi deneyimiyle öne çıkan çift yönlü konuşma modeli: PersonaPlex





Geçtiğimiz haftalarda NVIDIA, konuşma yapay zekası için çift yönlü bir model olan PersonaPlex’i duyurdu. Bu yeni model, gerçekçi konuşma deneyimleri sunmasıyla dikkat çekiyor ve asistan, öğretmen ve müşteri temsilcisi gibi farklı rollerde kullanılabiliyor. Mevcut sürümünde 16 ses profiliyle kullanıcıları karşılıyor ve her bir profil farklı bir tarz ve sunum sunuyor.

NVIDIA’nın açıklamalarına göre, geleneksel konuşma sistemleri genellikle garip duraklamalar ve doğal olmayan konuşma sırası gibi sorunlar yaşatıyor. Moshi gibi tam çift yönlü modeller ise kullanıcıları tek bir sabit role kısıtlıyor. Ancak NVIDIA PersonaPlex, çeşitli sesler arasından seçim yapma imkanı ve metin komutlarıyla kişilik tanımlama özelliği sunarak doğal konuşmaları destekliyor.

Bu yeni yaklaşım, kullanıcının konuşma esnasındaki iç durumunu güncelleyen ve hızlı yanıt veren tek bir model üzerine kurulmuş. Sesli ve metin komutlarını kullanarak tutarlı bir kişilik oluşturulmasını sağlayan PersonaPlex’in, Kyutai’nin 7 milyar parametreli Moshi mimarisi üzerine inşa edildiğini belirtmek gerek.

NVIDIA’nın iddiasına göre, PersonaPlex, soru-cevap asistanı ve müşteri hizmetleri rollerinde diğer sistemlere göre daha iyi performans gösteriyor. Yayınlanan kod ve model ağırlıkları, MIT Lisansı ve NVIDIA Açık Model Lisansı altında erişilebilir durumda. Ayrıca temel Moshi modelinin CC-BY-4.0 lisansıyla Kyutai tarafından lisanslandığı da vurgulanıyor.




Başa dön tuşu