Google araştırmacıları, metin komutlarından dakikalar süren müzik parçaları üretebilen ve hatta DALL-E gibi sistemlerin yazılı komutlardan görüntüler üretmesine benzer şekilde ıslık çalınan veya mırıldanılan bir melodiyi başka enstrümanlara dönüştürebilen bir yapay zeka geliştirdiler. Bu yapay zeka, Model MusicLM olarak adlandırılıyor.
Şirket, modeli kullanarak ürettiği bir grup örneği paylaştı. Örnekler oldukça etkileyici. Bir türü, havayı ve hatta belirli enstrümanları belirten paragraf uzunluğundaki açıklamalardan oluşturulan gerçek şarkılara benzeyen 30 saniyelik parçacıkların yanı sıra “melodik tekno” gibi bir veya iki kelimeden oluşturulan 5 dakikalık parçalar da var.
electronic song played in a videogame (0:00-0:15)
meditation song played next to a river (0:15-0:30)
fire (0:30-0:45)
fireworks (0:45-0:60)
Yukarıdaki komutlar verildiğinde sonuç olarak burada dinleyebileceğiniz ses ortaya çıkıyor.
Bu elbette şimdilik herkes için uygun olmayabilir, ancak bunun yapay zekanın kilometre taşlarından biri olduğu açık. Zira bir insan tarafından bestelendiğinin düşünülmesini sağlayabiliyor. Demo sitesinde ayrıca modelin çello veya marakas gibi enstrümanların 10 saniyelik kliplerini üretmesi istendiğinde ne ürettiğine dair örnekler, belirli bir türün 8 saniyelik klipleri, bir hapishane kaçışına uyacak müzik ve hatta yeni başlayan bir piyanistin ileri düzey bir piyaniste karşı nasıl çalacağı da yer alıyor. Ayrıca “fütüristik kulüp” ve “akordeon death metal” gibi ifadelerin yorumlarını da içeriyor.
MusicLM insan vokallerini bile simüle edebiliyor ve her ne kadar seslerin tonunu ve genel sesini doğru yakalıyor gibi görünse de, seslerde kesinlikle hatalı bir kalite var. (En azından şimdilik.) Bunu tanımlayabilmemin en iyi yolu, seslerin grenli veya durağan olması. Bu kalite yukarıdaki örnekte o kadar net değil, ama bizce bu örnek bunu oldukça iyi gösteriyor.
Şarkı sözlerinin saçma olduğunu da fark etmiş olabilirsiniz, ancak dikkat etmediğinizde fark edemeyeceğiniz bir şekilde – “Simlish” dilinde şarkı söyleyen birini veya İngilizce gibi görünmesi gereken ancak İngilizce olmayan bir şarkıyı dinliyormuşsunuz gibi.
Google’ın bu sonuçları nasıl elde ettiğini biliyormuş gibi davranmayacağız, ancak bunu anlayabilecek türden biriyseniz, burada ayrıntılı olarak açıklayan bir araştırma makalesi mevcut.
Kaynak: Chip