‘VALL-E’ akıllara durgunluk verdi! 3 saniyelik bir örnek ona yetiyor, sonrası çok ilginç
Metinden görsel oluşturan söyleşi robotları, sorulan sorulara bir insan benzer biçimde cevap veren söyleşi robotları derken şimdi de suni zeka modellerine bir yenisi daha eklendiği haberi geldi. Suni zeka mevzusunda emek harcamalar dünya genelinde sürerken, Microsoft’tan araştırmacılar yeni bir metinden ses oluşturabilen suni zeka modeli duyurdu. Bu model, ismiyle OpenAI’nin metinden görsel oluşturan suni zeka programı DALL-E’yi akla getiren “VALL-E.”
ÜÇ SANİYELİK ÖRNEKLE SES TAKLİT EDEBİLEN YENİ YAPAY ZEKA MODELİ: “VALL-E”
Ars Technica’nın haberine bakılırsa, perşembe günü, Microsoft araştırmacılarının duyurduğu VALL-E adlı yeni bir metinden ses oluşturabilen suni zeka modeli. Haberde, VALL-E’nin üç saniyelik bir ses örneği verildiğinde bir kişinin sesini yakın bir şekilde yansılamak edebildiği söyleniyor. Hatta bunu konuşmacının ses tonundaki duyguyu korumaya çalışacak şekilde yapabildiği de dile getiriliyor.
Microsoft, VALL-E’yi “nöral codec dili modeli” olarak adlandırıyor ve Meta’nın Ekim 2022’de duyurduğu EnCodec adlı bir teknolojiden yararlandığını söylüyor.
Microsoft’un VALL-E’yi 7.000’den fazla konuşmacının 60.000 saatlik İngilizce konuşmasını içeren kütüphaneyle eğittiği belirtiliyor.
VALL-E’nin yüksek kaliteli metin seslendirme uygulamaları ve öteki suni zeka modelleriyle beraber ses içinde ne olduğu oluşturma için kullanılabileceğini tahmin ediliyor. Sadece suni zeka, sesleri yakın bir şekilde yansılamak edebildiği için aslına bakarsak konuşmacıların söylememiş oldukları bir şeyi de söyleyebilir.
Paylaşılan etik beyanında ise VALL-E’nin kötüye kullanılmasına ilişkin potansiyel riskler taşıyabileceğinin altı çiziliyor.
ÖRNEKLER YAYINLANDI
VALL-E’den çıkan çok sayıda ses örneği GitHub üstünden gösterildi. Bazı örnekler oldukça şaşırtıcı görünüyor. Hatta bazısında VALL-E’nin ortama ve duyguya bakılırsa sonuçlar çıkarttığı anlaşılıyor. Mesela, konuşmacının sesi yankı yapıyorsa yada bir şeyi kızarak söylüyorsa sistem de buna bakılırsa ses üretmiş benzer biçimde duruyor.


Yoruma kapalı.