İnternet verileri çıkardığında

Nicea · 17 Şub 2025

Bir çocuğa bir arabanın ne olduğunu öğretmek istiyorsanız, birkaç örnek görsel malzeme olarak yeterlidir. Makine öğrenimi algoritması, bir arabanın ne olduğuna dair yapay bir zeka öğrenmekse, yüz binlerce, hatta bazen milyonlarca fotoğrafa ihtiyacı var. Örneğin görüntü jeneratörü Dall-e 2, 650 milyon metin-imaj çifti ile eğitildi. Openai'den de gelen dil modeli Chatgpt, bu arada 300 milyar kelime ile beslendi. Karşılaştırma için: James Joyces anıtsalwerk “Ulysses” 265.000 kelimeye geliyor. Bir kütüphanedeki bir üstünlük gibi, AI tonlarca metinten geçer: Wikipedia makaleleri, kitaplar, uzman dergiler.

ChatGPT ve diğer büyük ses modellerinin eğitildiği veriler, 2007'den beri Web'i sistematik olarak arayan ve yıllar boyunca en büyük metin veritabanlarından birini oluşturan kar amacı gütmeyen bir kuruluş olan Common Crawl'dan geliyor. Veriler yeni yağdır, söylenir. Ancak AI makinelerini yönlendiren açgözlü hammadde kıttır ve yakında tükenebilir. 2028 yılına gelindiğinde, Epoch AI Enstitüsü, bir veri kaydının boyutunun internette bulunan metin miktarı kadar büyük olacağını tahmin ediyor.

İnternet verileri çıkardığında

Nicea

New member