Yapay zeka, insanları çoğu performans testinde geride bıraktı
5 mins read

Yapay zeka, insanları çoğu performans testinde geride bıraktı

Stanford Üniversitesi İnsan Merkezli Yapay Zeka Enstitüsü (HAI), akademik ve endüstriyel uzmanlardan oluşan bir ekip tarafından yazılan AI Endeksi raporunun yedinci yıllık sayısını yayınladı.

Oldukça geniş içerikli olan raporun en dikkat çekici kısmı yapay zekanın insanlarla karşılaştırıldığında gösterdiği performans. Baş döndürücü hızla gelişen yapay zeka halihazrıda birçok alanda insanı geride bırakmış durumda. Yapay zeka, 2015 yılında görüntü sınıflandırma, 2017’de temel okuduğunu anlama, 2020’de görsel muhakeme ve 2021 yılında doğal dil çıkarımı alanlarında insanları geride bırakmayı başardı.

Yapay zeka o kadar akıllı ve hızlı bir hale geliyor ki, şuana kadar kullanılan kriterlerin çoğu artık geçerliliğini yitirmiş durumda. Dolayısıyla araştırmacılar yeni ve daha zorlu ölçütler geliştirmek için uğraşıyor. Bu testler sadece yapay zekanın yeterliliğini ölçmek için değil, insanlarla yapay zekaların farklılıklarını vurgulamak ve hangi alanlarda insanların avantajlı olduğunu belirlemek için geliştiriliyor.

Aşağıdaki sonuçların bu eski, muhtemelen geçerliliğini yitirmiş ölçütlerle yapılan testleri yansıttığını belirtmekte fayda var. Ancak genel eğilim hala çok açık:

Karmaşık akıl yürütmede büyük gelişme yaşandı

Yeni AI Index raporu, 2023 yılında yapay zekanın ileri düzey matematik problemleri çözme ve görsel sağduyulu akıl yürütme gibi karmaşık bilişsel görevlerle hâlâ sıkıntı yaşadığını gösteriyor. Ancak bu alanlarda bile kötü performans gösterdiğini söyleyemeyiz.

12500 adet zorlu yarışma düzeyindeki matematik probleminden oluşan bir veri kümesi olan MATH üzerindeki yapay performansları, piyasaya sürülmesinden bu yana geçen iki yıl içinde önemli ölçüde arttı. 2021’de yapay zeka sistemleri problemlerin yalnızca %6,9’unu çözebiliyordu. 2023’te ise GPT-4 tabanlı bir model soruların %84,3’ünü çözmeyi başardı. İnsan ortalaması %90 düzeyinde. 

Diğer bir alan ise görsel sağduyu muhakemesi (VCR). VCR, basit nesne tanımanın ötesinde, yapay zekanın tahminlerde bulunmak için görsel bağlamda yer alan bilgiyi nasıl kullandığını değerlendiriyor. Örneğin, masanın üzerindeki bir kedinin resmi gösterildiğinde, VCR’li bir yapay zeka, kedinin masadan atlayabileceğini veya ağırlığı göz önüne alındığında masanın onu taşıyacak kadar sağlam olduğunu tahmin etmesi gerekiyor.

Raporda, 2022 ile 2023 yılları arasında VCR’de %7,93’lük bir artışla 81,60’a (insan ortalaması 85) ulaştığı belirtiliyor.

Doğruluk konusunda da büyük ilerleme kaydedildi

Günümüzde yapay zeka birçok meslekte yazılı içerik üretiyor. Ancak, büyük ilerlemelere rağmen, büyük dil modelleri (LLM) hala “halüsinasyonlara” eğilimliler. Buradaki halüsinasyon terimi yanlış veya hatalı bilgiler üretmesi anlamına geliyor.

Yeni AI Index raporunda TruthfulQA, LLM’lerin doğruluğunu test etmek için bir kıyaslama olarak kullanıldı. 817 adet soru (sağlık, hukuk, finans ve politika gibi konularla ilgili), insanların sıklıkla yanlış anladığı yaygın yanlış kanılara meydan okumak için tasarlandı.

2024’ün başlarında piyasaya sürülen GPT-4, 0,59 puanla kıyaslamada en yüksek performansı elde etti. Bu skor, 2021’de test edilen GPT-2 tabanlı modelden neredeyse üç kat daha yüksek. Dolayısıyla büyük dil modellerinin giderek daha iyi eğitildiği ve daha doğru cevaplar vermeye başladığı görülüyor.

Midjourney’in resim oluşturmadaki gelişimi

Peki ya yapay zeka tarafından oluşturulan görüntüler? Buradaki gelişmeyi görmek için Midjourney’in 2022’den bu yana Harry Potter’ın gerçekçi resmini nasıl oluşturduğuna bakabilirsiniz. İki senede geldiği nokta etkileyici.

Metinden Görüntüye Modellerin Bütünsel Değerlendirmesi (HEIM) kullanılarak büyük dil modelleri, görüntülerin gerçek dünyada kullanımı için önemli olan 12 temel hususta metinden görüntüye oluşturma yetenekleri açısından karşılaştırıldı. Oluşturulan görüntüler insanlar tarafından değerlendirdi ve hiçbir modelin tüm kriterlerde mükemmel olmadığı görüldü. Görüntünün giriş metniyle ne kadar iyi eşleştiği konusunda OpenAI’nin DALL-E 2’si en yüksek puanı aldı. Stable Diffusion temelli Dreamlike Photoreal modeli, kalite, estetik ve özgünlük açısından en yüksek sırada yer aldı.

2023 yılı boyunca yapay zekada görülen hızlı gelişme son sürat devam ediyor. Yeni geliştirilen modellerle beraber yapay zeka ile insan arasındaki uçurum kapanmış durumda. Bu hızlı gelişme, insanlarda güvenlik, güvenilirlik ve etik gibi konularda endişeler oluştursa da duracak gibi görünmüyor. 

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir