Yapay zeka felçli bir kadına sesini nasıl geri verdi?

 


Pat Bennett'in reçetesi "Birkaç aspirin al ve sabah beni ara"dan biraz daha karmaşık. Ancak beynine yerleştirilen dörtlü bebek aspirini büyüklüğündeki sensörler, kendisini ve diğerlerini hayal kırıklığına uğratan bir duruma çözüm bulmayı amaçlıyor: anlaşılır konuşma yeteneğinin kaybı. Cihazlar, Bennett'in beynindeki konuşmayla ilgili birkaç bölgeden gelen sinyalleri, beyin aktivitesinin kodunu çözen ve bunu bilgisayar ekranında görüntülenen metne dönüştüren son teknoloji ürünü yazılıma iletiyor.

Şu anda 68 yaşında olan Bennett, eski bir insan kaynakları direktörü ve bir zamanlar her gün koşan bir binicilik sporcusu. 2012 yılında kendisine, hareketi kontrol eden nöronlara saldıran, fiziksel zayıflığa ve sonunda felce neden olan ilerleyici bir nörodejeneratif hastalık olan  teşhisi konuldu.

Bennett e-postayla yapılan bir röportajda "ALS'yi düşündüğünüzde aklınıza kol ve bacak darbesi geliyor" diye yazdı. "Fakat bir grup ALS hastasında bu durum konuşma güçlükleriyle başlıyor. Ben konuşamıyorum."


Genellikle ALS ilk olarak vücudun çevresinde (kollar ve bacaklar, eller ve parmaklar) ortaya çıkar. Bennett'e göre bozulma, tipik olduğu gibi omuriliğinde değil,  başlamıştı . Gittikçe artan zorluklarla da olsa hâlâ hareket edebiliyor, giyinebiliyor ve parmaklarını kullanarak yazı yazabiliyor. Ancak artık konuşmanın yapı taşları olan fonemleri veya "ş" gibi ses birimlerini net bir şekilde telaffuz etmek için dudak, dil, gırtlak ve çene kaslarını kullanamıyor.

Her ne kadar Bennett'in beyni bu sesleri oluşturmak için gerekli talimatları hâlâ formüle edebilse de, kasları komutları yerine getiremiyor.

Araştırmacılar, yapay zekayı tüm kelimeleri tanıyacak şekilde eğitmek yerine, kelimeleri fonemlerden çözen bir sistem yarattılar. Bunlar, harflerin yazılı sözcükleri oluşturması gibi, konuşulan sözcükleri de oluşturan konuşmanın alt birimleridir. Örneğin "Merhaba" dört fonem içerir: "HH", "AH", "L" ve "OW."

Bu yaklaşımı kullanarak, bilgisayarın İngilizcedeki herhangi bir kelimeyi çözmek için yalnızca 39 ses birimini öğrenmesi gerekiyordu. Bu hem sistemin doğruluğunu arttırdı hem de üç kat daha hızlı olmasını sağladı.

29 Mart 2022'de bir Stanford Tıp beyin cerrahı, Bennett'in beyninin yüzeyi boyunca her ikisi de konuşma üretiminde rol oynayan iki ayrı bölgeye iki küçük sensör yerleştirdi. Sensörler, intrakortikal beyin-bilgisayar arayüzünün veya iBCI'nın bileşenleridir. Son teknoloji kod çözme yazılımıyla bir araya getirilen bu cihazlar, konuşma girişimlerine eşlik eden beyin aktivitesini ekrandaki kelimelere çevirmek için tasarlandı.

Ameliyattan yaklaşık bir ay sonra Stanford bilim adamlarından oluşan bir ekip, konuşmasını yorumlayan yazılımı eğitmek için haftada iki kez araştırma oturumlarına başladı. Dört ay sonra, Bennett'in söylemeye çalıştığı sözler bilgisayar ekranında dakikada 62 kelimelik bir hızla kelimelere dönüştürülmeye başlandı; bu, BCI destekli iletişimde önceki rekorun üç katından daha hızlıydı.

Bennett, "Bu ilk sonuçlar konsepti kanıtladı ve sonunda teknoloji, konuşamayan insanlar için de bu konsepti kolayca erişilebilir hale getirecek şekilde yetişecek" diye yazdı. "Sözlü olmayanlar için bu, daha büyük dünyayla bağlantıda kalabilecekleri, belki de çalışmaya devam edebilecekleri, arkadaşlarını ve aile ilişkilerini sürdürebilecekleri anlamına geliyor."

0 Yorumlar