Aralarında ChatGPT’nin de bulunduğu büyük dil modelleri, sorgulamalara yanıt verirken en çok veriyi Reddit sosyal medya platformundan çekiyor. Statista’nın verilerine göre bu modellerin kullandığı içeriklerin yüzde 40,11’i Reddit kaynaklı. ChatGPT, Gemini, DeepSeek, Llama ve Grok gibi modellerin yaygınlaşmasıyla birlikte yapay zekanın beslendiği veri kaynakları da tartışma konusu haline geldi. AA muhabirinin derlediği bilgilere göre, büyük dil modelleri yanıtlarını üretirken kamuya açık internet sitelerinden alınan içeriklerden yararlanıyor.
Reddit zirvede, Wikipedia geride
Statista’nın haziran ayında yayımladığı araştırmaya göre, büyük dil modellerinin en fazla alıntı yaptığı site yüzde 40,11 ile Reddit oldu. Reddit’i yüzde 26,3 ile Wikipedia, yüzde 23,5 ile YouTube ve yüzde 23,2 ile Google izledi. Listenin devamında yüzde 21 ile Yelp, yüzde 19,9 ile Facebook, yüzde 18,7 ile Amazon, yüzde 12,4 ile Tripadvisor, yüzde 11,2 ile Mapbox ve yüzde 11,2 ile OpenStreetMap yer aldı. Uzmanlara göre, yapay zekaların Reddit verilerine yoğun biçimde başvurması, geliştiricilerin resmi bilgilerden çok gerçek kullanıcıların gündelik dilini önceliklendirdiğini gösteriyor.
Google ve OpenAI, Reddit’le veri anlaşması yaptı
2024 yılında Google ile Reddit arasında yapılan anlaşma kapsamında Google, Reddit verilerini yapay zeka modellerinde kullanmak için yılda 60 milyon dolar ödeme yapmayı kabul etti. Reuters’ın aktardığına göre, Reddit benzer bir veri paylaşımı anlaşmasını OpenAI ile de imzaladı. Böylece ChatGPT’nin yanıtlarda Reddit içeriğine sıklıkla başvurmasının temelinde bu işbirlikleri bulunuyor. Uzmanlar, bu anlaşmaların “yapay zekanın insan dilini daha iyi taklit etmesini” sağladığını ancak doğruluk ve güvenilirlik açısından yeni riskleri de beraberinde getirdiğini belirtiyor.




