Perché OpenAI ha utilizzato YouTube per allenare ChatGPT-4
Secondo le informazioni fornite nei risultati della ricerca, OpenAI ha utilizzato le trascrizioni di oltre un milione di ore di video di YouTube per addestrare GPT-4, il suo più avanzato modello di linguaggio.
Questa operazione è parte degli sforzi dell’azienda per raccogliere dati di formazione di alta qualità, che sono cruciali per lo sviluppo e il miglioramento dei modelli di AI come GPT-4.
La società ha sviluppato il suo modello di trascrizione audio Whisper per aiutare in questo processo, il che ha consentito loro di trascrivere i contenuti di YouTube.
Perché usare i video di YouTube per addestrare l’Intelligenza Artificiale?
Seppur l’uso dei video di YouTube per i dati di formazione è da molti considerato legalmente discutibile da OpenAI, il presidente di OpenAI, Greg Brockman, è stato personalmente coinvolto nella raccolta di video utilizzati a questo scopo.
L’uso di video, trascrizioni e dataset unici per ciascuno dei suoi modelli è ritenuto cruciale per aiutarne la comprensione del mondo e utilizza numerose fonti, tra cui dati pubblicamente disponibili e partnership per dati non pubblici.
Quale è la reazione di Google a questo impiego massiccio dei propri video?
Google, che possiede YouTube, ha ‘robots.txt file e termini di servizio che vietano lo scraping o il download non autorizzati di contenuti di YouTube.
Il portavoce di Google, Matt Bryant, ha menzionato che l’azienda adotta misure tecniche e legali per impedire tale uso non autorizzato quando ha una base legale o politica chiara per farlo.
Addestrare, Addestrare, Addestrare
I risultati della ricerca indicano che l’addestramento di GPT-4 sulle trascrizioni di YouTube fa quindi parte di una strategia obbligatoria e più ampia delle aziende di AI per superare la sfida di trovare dati sufficienti e diversificati per formare efficacemente i loro modelli.
Questa strategia include anche l’uso di dati da altre fonti come Github, database di mosse di scacchi e contenuti di scuola di Quizlet.