Arc Ödül Vakfı, Yeni Zorlu AGI Ölçütünü Başlatıyor, AI Zayıflıklarını Gözler Önüne Seriyor

Photo by Igor Omilaev on Unsplash

Arc Ödül Vakfı, Yeni Zorlu AGI Ölçütünü Başlatıyor, AI Zayıflıklarını Gözler Önüne Seriyor

Okuma süresi: 3 dk.

Kâr amacı gütmeyen Arc Prize Foundation, Pazartesi günü, öncü AI modellerini mantık ve insan düzeyindeki kapasiteler üzerinde sınamak için ARC-AGI-2 adında yeni bir ölçüt duyurdu. Organizasyon ayrıca, Mart’tan Kasım’a kadar sürecek olan ve kazananın 700.000 dolarlık Büyük Ödül’ü kazanacağı, ARC Prize 2025 adında yeni bir yarışma da duyurdu.

Acele mi ediyorsunuz? İşte hızlıca bilmeniz gerekenler:

  • Arc Prize Foundation, AI modellerini insan düzeyinde akıl yürütme becerileri üzerinde test etmek için ARC-AGI-2 adında yeni bir referans ölçütü başlattı.
  • Şu anki en üst düzey AI modelleri teste başarısız oldu, %0.0 ile %4 arasında puan alırken, insanlar %100’e kadar puan aldı.
  • Kâr amacı gütmeyen organizasyon ayrıca, referans ölçütü için ARC Prize 2025 yarışmasını duyurdu ve kazanan 700.000 dolarlık ödül kazanacak.

Organizasyon tarafından paylaşılan bilgilere göre, piyasadaki en popüler AI modelleri ARC-AGI-2’de %4’lük bir skoru aşamamışken, insanlar bu testi kolayca çözebiliyor.

“Bugün, ARC-AGI-2’yi, yeni sınırları zorlamak üzere heyecanla başlatıyoruz,” diye belirtiyor duyuru. “ARC-AGI-2, özellikle AI (yani AI akıl yürütme sistemleri) için daha zorlu olacak şekilde tasarlandı, ancak insanlar için göreceli kolaylık aynı kalacak.”

ARC-AGI-2, kuruluşun 2019’da başlatılan benchmark’ı ARC-AGI-1’in ikinci versiyonudur. Önceki testte, sadece Aralık 2024’te OpenAI’nin o3 modeli başarıyla %85 skor elde etmişti.

Bu yeni versiyon, insanlar için kolay ve AI modelleri için zor veya şimdiye kadar imkansız olan görevlere odaklanıyor. Diğer ölçütlerin aksine, ARC-AGI-2, PhD becerilerini veya süper insan yeteneklerini dikkate almaz, bunun yerine, görevler, mevcut bilgileri uygulayarak adaptasyon kapasitesini ve problem çözme becerilerini değerlendirir.

Arc Ödülü, testteki her görevin insanlar tarafından 2 denemeden az bir sürede çözüldüğünü ve AI modellerinin en düşük maliyetleri göz önünde bulundurarak benzer kurallara uyması gerektiğini açıkladı. Test, sembolik yorumlamayı içerir—AI modelleri, görsel desenlerin ötesinde sembolleri anlamalıdır—, eşzamanlı kuralları dikkate almalı ve bağlama bağlı olarak değişen kuralları dikkate almalıdır—bu, çoğu AI mantık sistemlerinin başarısız olduğu bir şeydir.

Organizasyon, yeni referans noktasını insanlar ve kamuya açık AI modelleri ile test etti. İnsan panelleri %100 ve %60 puan alırken, DeepSeek’in R1 ve R1-zero gibi popüler sınır sistemleri %0.3, GPT-4.5’ın saf LLM ve o3-mini-high puanları ise %0.0 oldu. OpenAI’ın Zincir-Üzerine-Düşünme mantığı, arama ve sentez yoluyla o3-low kullanması, görev başına yüksek bir maliyetle %4’lük bir tahmini ulaştı.

Arc Prize ayrıca, Mart ve Kasım ayları arasında popüler çevrimiçi platform Kaggle’da düzenlenen en son açık kaynaklı yarışması, ARC Prize 2025’i de başlattı. ARC-AGI-2 referansında %85’in üzerinde bir puan elde eden ve görev başına $2.5 verimlilik sağlayan ilk takım, 700.000 dolarlık Büyük Ödül’ü kazanacak. En iyi puanlar için kağıt ödülleri ve diğer ödüller de olacak.

Vakıf, daha fazla detayın resmi web sitesinde ve yaklaşan günlerde sağlanacağını belirtti.

Bu makaleyi beğendiniz mi?
Puan verin!
Hiç sevmedim Pek beğenmedim Fena değildi Gayet iyiydi! Bayıldım!

Çalışmamızı beğenmeniz bizi çok mutlu etti!

Değerli bir okuyucumuz olarak Trustpilot sitesinde bizi puanlamak ister miydiniz? Bu hemen halledilebilen bir işlemdir ve emin olun ki görüşünüz bizim için çok kıymetlidir. Desteğiniz için ne kadar teşekkür etsek az!

Trustpilot'ta bize puan ver
0 0 kullanıcı tarafından oy verildi
Başlık
Yorum
Geri bildiriminiz için teşekkür ederiz
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Yorum bırakın

Loader
Loader Devamını oku...