Sonsuz Ark/ Evrensel Çerçeveye Yolculuk
"ChatGPT kendinden emin görünse de, karmaşık bilimsel iddialar üzerinde test edildiğinde sıklıkla tahmin yürütüyor ve hatta kendiyle çelişiyor. Araştırmacılar, özellikle yanlış bilgileri tespit etmekte zorlandığını tespit ettiler."
ChatGPT Was Asked the Same Question 10 Times. The Answers Kept Changing
ChatGPT kulağa ikna edici gelebilir, ancak bu çalışma, gerçeğin ne olduğunu ayırt etmede hala zorlandığını gösteriyor.
Washington Eyalet Üniversitesi profesörü Mesut Çiçek ve ekibi, ChatGPT'yi bilimsel çalışmalardan elde edilen hipotezlerle defalarca değerlendirdi. Yapay zekadan, her bir ifadenin araştırmalarla desteklenip desteklenmediğine karar vermesi, yani doğru mu yanlış mı olduğunu yargılaması istendi.
Araştırmacılar toplamda 700'den fazla hipotezi test ettiler ve yanıtların ne kadar tutarlı olacağını incelemek için her birini 10 kez sundular.
Doğruluk Sonuçları ve Performans Sınırları
2024'teki ilk deneyde ChatGPT, soruların %76,5'ine doğru cevap verdi. Çalışma 2025'te tekrarlandığında doğruluk oranı biraz artarak %80'e çıktı. Ancak, sonuçlar rastgele tahminler için ayarlandıktan sonra, performans çok daha az güvenilir görünüyordu. Yapay zeka, şanstan sadece yaklaşık %60 daha iyiydi; araştırmacılar bunu güçlü performanstan ziyade düşük D seviyesine daha yakın olarak tanımladılar.
Sistem, özellikle yanlış ifadeleri tespit etmekte zorlandı ve bunları yalnızca %16,4 oranında doğru etiketledi. Ayrıca tutarsızlık da gösterdi. Aynı komut 10 kez verildiğinde, ChatGPT yalnızca vakaların yaklaşık %73'ünde tutarlı sonuçlar üretti.
Aynı Sorulara Verilen Tutarsız Cevaplar
WSU'nun Carson İşletme Fakültesi Pazarlama ve Uluslararası İşletme Bölümü'nde doçent ve yeni yayının baş yazarı olan Cicek, "Sadece doğruluktan bahsetmiyoruz, tutarsızlıktan da bahsediyoruz, çünkü aynı soruyu tekrar tekrar sorarsanız farklı cevaplar alırsınız" dedi.
“Aynı soruyu içeren 10 farklı test kullandık. Her şey aynıydı. Önce doğru, sonra yanlış diyordu. Sonra doğru, sonra yanlış, yanlış, doğru şeklinde tekrarlıyordu. Beş doğru, beş yanlış cevabın olduğu birkaç durum vardı.”
Yapay Zeka Becerisi ile Gerçek Anlama Arasındaki Fark
Rutgers Business Review'da yayınlanan çalışma, özellikle incelik gerektiren veya karmaşık mantık yürütmeyi içeren önemli kararlar için yapay zekanın kullanımında dikkatli olunmasının önemini vurguluyor. Üretken yapay zeka akıcı ve ikna edici bir dil üretebilse de, gerçek bir anlayışı mutlaka göstermez.
Çiçek, bulguların, gerçek anlamda akıl yürütme yeteneğine sahip yapay genel zekanın bazılarının beklediğinden daha uzakta olabileceğini gösterdiğini söyledi.
Çiçek, “Günümüz yapay zeka araçları dünyayı bizim anladığımız gibi anlamıyor; 'beyinleri' yok,” dedi. “Sadece ezberliyorlar ve size bazı bilgiler verebiliyorlar, ancak ne hakkında konuştuklarını anlamıyorlar.”
Çalışma Tasarımı ve Yöntemleri
Çiçek, Güney Illinois Üniversitesi'nden Sevinçgül Ulu, Rutgers Üniversitesi'nden Can Uslay ve Kuzeydoğu Üniversitesi'nden Kate Karniouchina ile birlikte çalıştı.
Ekip, 2021'den beri işletme dergilerinde yayınlanan bilimsel makalelerden 719 hipotezi analiz etti. Bir araştırmanın bir hipotezi destekleyip desteklemediğini belirlemek genellikle karmaşıktır ve sonucu etkileyebilecek birden fazla faktör içerir. Bu karmaşıklığı basit bir doğru-yanlış kararına indirgemek dikkatli bir akıl yürütme gerektirir.
Araştırmacılar, ChatGPT-3.5'in ücretsiz sürümünü 2024'te ve güncellenmiş ChatGPT-5 mini sürümünü 2025'te test ettiler. Genel olarak, sonuçlar her iki sürümde de benzerdi. Doğru cevap olasılığını %50 olarak veren rastgele şans faktörü dikkate alındığında, yapay zekanın performansı her iki yılda da şans faktöründen yalnızca yaklaşık %60 daha iyiydi.
Yapay Zeka Akıl Yürütmesindeki Temel Zayıflık
Bulgular, büyük dil modeli yapay zeka sistemlerinin önemli bir sınırlamasını ortaya koyuyor. Cicek'in belirttiğine göre, bu sistemler kusursuz ve ikna edici yanıtlar üretebilseler de, genellikle daha derin mantıksal çıkarımlarda zorlanıyorlar. Bu durum, kulağa ikna edici gelen ancak aslında yanlış olan yanıtlara yol açabiliyor.
Uzmanlar Neden Dikkatli Olunmasını İstiyor?
Bu sonuçlara dayanarak, araştırmacılar iş liderlerinin yapay zekâ tarafından üretilen çıktıları doğrulamalarını ve bunlara şüpheyle yaklaşmalarını önermektedir. Ayrıca, kullanıcıların yapay zekâ araçlarının hem güçlü yönlerini hem de sınırlamalarını anlamaları için eğitilmelerinin önemini vurgulamaktadırlar.
Bu çalışma ChatGPT'ye odaklanmış olsa da, Çiçek benzer testlerin diğer yapay zeka sistemleriyle de karşılaştırılabilir sonuçlar gösterdiğini belirtti. Araştırma ayrıca, yapay zeka abartısıyla ilgili endişeleri vurgulayan önceki çalışmalara da dayanıyor. 2024 yılında yapılan ulusal bir anket, tüketicilerin yapay zeka odaklı pazarlanan ürünleri satın alma olasılığının daha düşük olduğunu ortaya koydu.
"Her zaman şüpheci olun," dedi. "Yapay zekaya karşı değilim. Ben de kullanıyorum. Ama çok dikkatli olmanız gerekiyor."
Washington Eyalet Üniversitesi, 18 Mart 2026, SciTechDaily
Mustafa Tamer, 22.04.2026, Sonsuz Ark, Çeviri, Bilim ve Teknoloji, Aklın Merdivenleri
Referans: Washington Eyalet Üniversitesi
- Sonsuz Ark'ta yayınlanan yazılardan yazarları sorumludur.
- Sonsuz Ark linki verilerek kısmen alıntı yapılabilir.
- Sonsuz Ark yayınları Sonsuz Ark manifestosuna aykırı yayın yapan sitelerde yayınlanamaz.
- Sonsuz Ark Yayınlarının Kullanımına İlişkin Önemli Duyuru için lütfen tıklayınız.
