Yapay Zeka Öğreniminin Geleceği: Öncü Sentetik Veri Teknikleri

Chatbotların sağladığı akıllı yanıtların arkasında, genellikle makalelerden, kitaplardan ve çevrimiçi yorumlardan elde edilen trilyonlarca kelimeyi içeren dev bir veritabanı bulunmaktadır. Bu veritabanı, yapay zeka sistemlerini kullanıcı sorgularını anlamak için eğiten ve genellikle endüstride, mümkün olduğunca fazla bilgi biriktirmenin, gelecek nesil yapay zeka ürünlerinin gelişimi için anahtar olduğuna inanılmaktadır.

Ancak, bu yaklaşımla önemli bir zorluk söz konusudur: yalnızca belirli miktarda yüksek kaliteli veri çevrimiçi olarak erişilebilirdir. Bu verileri edinmek için, yapay zeka şirketleri genellikle yayıncılardan içerik lisansları karşılığında milyonlarca dolar öder veya web sitelerinden bilgi toplarlar ve telif hakkı ihlali davaları riskiyle karşı karşıya kalırlar.

Önde gelen yapay zeka şirketleri, yapay veriler veya temelde ‘sahte’ veri kullanımını keşfetmektedir ve bu yöntem AI topluluğu içerisinde alternatif ve biraz tartışmalı bir yaklaşım olarak kabul edilmektedir. Örneğin, teknoloji şirketleri AI sistemlerindeki metinler ve medyaları üretmektedir. Bu yapay veriler daha sonra bu yapay zekâ sistemlerinin gelecekteki sürümlerini eğitmek için kullanılmaktadır ve Anthropic’in CEO’su Dario Amodei, bu yöntemi bir potansiyel “sonsuz veri oluşturma aracı” olarak tanımlamaktadır. Bu metodoloji, yapay zeka şirketlerinin bir dizi yasal, etik ve gizlilik sorununu atlamalarını sağlar.

Bilgisayar biliminde, sentetik veri yeni değildir – kişisel bilgileri anonimleştirmek ve otonom araç teknolojileri için sürüş koşullarını simüle etmek de dahil olmak üzere çeşitli amaçlar için yıllardır kullanılmaktadır. Ancak, yapay zeka üretken ilerlemeleri, daha büyük ölçeklerde daha yüksek kaliteli sentetik veri üretimini kolaylaştırmıştır ve bunun uygulanmasına aciliyet kazandırmıştır.

Öncelikle yeni bilgiler oluşturmaya odaklanan üretken yapay zeka, makine öğrenimi ve derin öğrenme gibi süreçler aracılığıyla veri, metin, görüntü, ses, video ve daha fazlası üretmektedir. Belirgin bir örnek, önceki eğitim verilerine dayanarak yeni metin üretebilen OpenAI’nin GPT modelleridir.

Anthropic, Bloomberg’e, chatbot’u Claude destekleyen son modelini oluşturmak için sentetik verileri kullandığını bildirmiştir. Meta Platforms ve Google da son açık kaynaklı modellerini geliştirirken sentetik veriyi uygulamışlardır.

Microsoft’un yapay zeka araştırma ekibi, dört yaşındaki bir çocuğun anlayabileceği 3.000 kelime listesinden çocuk hikayeleri oluşturarak çocukların dil öğrenme sürecini taklit etmeye çalışmış ve bu da, AI dil modelinin yeteneklerini artıran milyonlarca kısa hikaye üretmiştir. Bu araştırma, kullanıma hazır olan sıkı ve açık kaynak kodlu bir dil modeli olan Phi-3 olarak bilinen bir modelin geliştirilmesine yol açmıştır.

Microsoft’un Yapay Zeka Başkan Yardımcısı Sébastien Bubeck, sentetik verinin modelin öğrenme süreci üzerinde daha fazla kontrol sağladığını, ayrıntılı talimatları mümkün olmayan durumları da içerecek şekilde verme imkanı sağladığını belirtmiştir. Bununla birlikte, uzmanlar, böyle tekniklerin risklerine karşı uyarılarda bulunarak, önde gelen üniversitelerden olan Oxford ve Cambridge’den gelen araştırmalarla belirtilen ‘model çöküşü’ potansiyeline karşı dikkatli olunması gerektiği konusunda uyarılarda bulunmaktadır.

The source of the article is from the blog japan-pc.jp