Büyük Dil Modellerinin Eğitim Kaynaklarında Reddit Zirvede!

Mudanya

Administrator
Admin
Katılım
30 Eki 2025
Mesajlar
20
Tepkime puanı
0
Puanları
1
Bölüm:
MEZUN
Şehir:
Bursa
ChatGPT başta olmak üzere, piyasaya sürülen Gemini, Llama ve Grok gibi Büyük Dil Modellerinin (BDM) sorgulara yanıt üretirken hangi veri kaynaklarından beslendiği konusu, yapay zeka alanının temel tartışma konularından birini oluşturmaktadır.

Statista portalının Haziran ayında yayımladığı ve yılın ilk çeyreğindeki verileri analiz eden araştırma, BDM'lerin alıntı yapma sıklığına göre en çok kullanılan çevrimiçi kaynakları belirlemiştir.



Kaynak Kullanımında Lider: Reddit


Araştırma sonuçlarına göre, BDM'ler tarafından en çok alıntılanan web sitesi, tartışma ve topluluk odaklı sosyal medya platformu olan reddit.com olmuştur. Reddit, bu listede %40,11 gibi yüksek bir oranla açık ara farkla birinci sırada yer almıştır.

Uzmanlar, yapay zekanın resmi veya düzenlenmiş bilgilere kıyasla, gerçek kullanıcıların doğal dil ve tartışma formundaki verilerine öncelik vermesinin, modellerin insan dilini daha doğal bir şekilde taklit etme hedefini desteklediğini belirtmektedir.

Reddit'i takiben en çok alıntılanan ikinci kaynak ise, editöryal süzgeçten geçen düzenlenmiş makaleleri içeren Wikipedia olmuştur (%26,3). Bu oran, düzenlenmemiş ve organize olmayan Reddit verilerinin BDM eğitimindeki önemini vurgular niteliktedir.

En sık alıntılanan diğer kaynaklar ve oranları şu şekildedir:

  • Youtube: %23,5
  • Google: %23,2
  • Yelp.com: %21
  • Facebook: %19,9
  • Amazon: %18,7
  • Tripadvisor: %12,4
  • Mapbox.com / Openstreetmap.com: %11,2


Veri Paylaşım Anlaşmaları


Yapay zeka modellerinin eğitilmesi amacıyla veri kaynaklarının kullanımı, ticari anlaşmalarla da resmiyet kazanmaktadır. 2024 yılında Google ve Reddit arasında yapılan anlaşma ile Google'ın yapay zeka sistemleri, Reddit'in kapsamlı veri setlerini kullanma hakkı elde etmiştir. Bu anlaşmanın yıllık maliyetinin 60 milyon dolar olduğu bildirilmiştir.

Benzer şekilde, Reuters kaynaklı haberler Reddit'in, önde gelen BDM üreticilerinden OpenAI ile de ChatGPT için veri paylaşım anlaşması yaptığını teyit etmektedir. Bu anlaşmalar, Reddit verilerinin günümüz yapay zeka modellerinin çıktılarındaki etkisini kurumsal düzeyde pekiştirmiştir.
 

Çevrimiçi üyeler

Şu anda çevrimiçi üye yok.

REKLAMLAR

Forum istatistikleri

Konular
17,462
Mesajlar
134,363
Kullanıcılar
90,735
Son üye
LegendaryJohnDoe
Üst