- Katılım
- 30 Eki 2025
- Mesajlar
- 20
- Tepkime puanı
- 0
- Puanları
- 1
- Bölüm:
- MEZUN
- Şehir:
- Bursa
ChatGPT başta olmak üzere, piyasaya sürülen Gemini, Llama ve Grok gibi Büyük Dil Modellerinin (BDM) sorgulara yanıt üretirken hangi veri kaynaklarından beslendiği konusu, yapay zeka alanının temel tartışma konularından birini oluşturmaktadır.
Statista portalının Haziran ayında yayımladığı ve yılın ilk çeyreğindeki verileri analiz eden araştırma, BDM'lerin alıntı yapma sıklığına göre en çok kullanılan çevrimiçi kaynakları belirlemiştir.
Kaynak Kullanımında Lider: Reddit
Araştırma sonuçlarına göre, BDM'ler tarafından en çok alıntılanan web sitesi, tartışma ve topluluk odaklı sosyal medya platformu olan reddit.com olmuştur. Reddit, bu listede %40,11 gibi yüksek bir oranla açık ara farkla birinci sırada yer almıştır.
Uzmanlar, yapay zekanın resmi veya düzenlenmiş bilgilere kıyasla, gerçek kullanıcıların doğal dil ve tartışma formundaki verilerine öncelik vermesinin, modellerin insan dilini daha doğal bir şekilde taklit etme hedefini desteklediğini belirtmektedir.
Reddit'i takiben en çok alıntılanan ikinci kaynak ise, editöryal süzgeçten geçen düzenlenmiş makaleleri içeren Wikipedia olmuştur (%26,3). Bu oran, düzenlenmemiş ve organize olmayan Reddit verilerinin BDM eğitimindeki önemini vurgular niteliktedir.
En sık alıntılanan diğer kaynaklar ve oranları şu şekildedir:
Veri Paylaşım Anlaşmaları
Yapay zeka modellerinin eğitilmesi amacıyla veri kaynaklarının kullanımı, ticari anlaşmalarla da resmiyet kazanmaktadır. 2024 yılında Google ve Reddit arasında yapılan anlaşma ile Google'ın yapay zeka sistemleri, Reddit'in kapsamlı veri setlerini kullanma hakkı elde etmiştir. Bu anlaşmanın yıllık maliyetinin 60 milyon dolar olduğu bildirilmiştir.
Benzer şekilde, Reuters kaynaklı haberler Reddit'in, önde gelen BDM üreticilerinden OpenAI ile de ChatGPT için veri paylaşım anlaşması yaptığını teyit etmektedir. Bu anlaşmalar, Reddit verilerinin günümüz yapay zeka modellerinin çıktılarındaki etkisini kurumsal düzeyde pekiştirmiştir.
Statista portalının Haziran ayında yayımladığı ve yılın ilk çeyreğindeki verileri analiz eden araştırma, BDM'lerin alıntı yapma sıklığına göre en çok kullanılan çevrimiçi kaynakları belirlemiştir.
Kaynak Kullanımında Lider: Reddit
Araştırma sonuçlarına göre, BDM'ler tarafından en çok alıntılanan web sitesi, tartışma ve topluluk odaklı sosyal medya platformu olan reddit.com olmuştur. Reddit, bu listede %40,11 gibi yüksek bir oranla açık ara farkla birinci sırada yer almıştır.
Uzmanlar, yapay zekanın resmi veya düzenlenmiş bilgilere kıyasla, gerçek kullanıcıların doğal dil ve tartışma formundaki verilerine öncelik vermesinin, modellerin insan dilini daha doğal bir şekilde taklit etme hedefini desteklediğini belirtmektedir.
Reddit'i takiben en çok alıntılanan ikinci kaynak ise, editöryal süzgeçten geçen düzenlenmiş makaleleri içeren Wikipedia olmuştur (%26,3). Bu oran, düzenlenmemiş ve organize olmayan Reddit verilerinin BDM eğitimindeki önemini vurgular niteliktedir.
En sık alıntılanan diğer kaynaklar ve oranları şu şekildedir:
- Youtube: %23,5
- Google: %23,2
- Yelp.com: %21
- Facebook: %19,9
- Amazon: %18,7
- Tripadvisor: %12,4
- Mapbox.com / Openstreetmap.com: %11,2
Veri Paylaşım Anlaşmaları
Yapay zeka modellerinin eğitilmesi amacıyla veri kaynaklarının kullanımı, ticari anlaşmalarla da resmiyet kazanmaktadır. 2024 yılında Google ve Reddit arasında yapılan anlaşma ile Google'ın yapay zeka sistemleri, Reddit'in kapsamlı veri setlerini kullanma hakkı elde etmiştir. Bu anlaşmanın yıllık maliyetinin 60 milyon dolar olduğu bildirilmiştir.
Benzer şekilde, Reuters kaynaklı haberler Reddit'in, önde gelen BDM üreticilerinden OpenAI ile de ChatGPT için veri paylaşım anlaşması yaptığını teyit etmektedir. Bu anlaşmalar, Reddit verilerinin günümüz yapay zeka modellerinin çıktılarındaki etkisini kurumsal düzeyde pekiştirmiştir.