Quanto è intelligente ChatGPT?
Visualizzazione delle prestazioni di ChatGPT negli esami umani
ChatGPT, un modello linguistico sviluppato da OpenAI, è diventato incredibilmente popolare nell’ultimo anno grazie alla sua capacità di generare risposte simili a quelle umane in un’ampia gamma di circostanze.
In effetti, ChatGPT è diventato così competente che gli studenti ora lo usano per aiutarsi con i compiti. Ciò ha spinto diversi distretti scolastici statunitensi a impedire ai dispositivi di accedere al modello mentre si trovano sulle loro reti.
Quindi, quanto è intelligente ChatGPT?
In un rapporto tecnico pubblicato il 27 marzo 2023, OpenAI ha fornito un brief completo sul suo modello più recente, noto come GPT-4. Incluso in questo rapporto c’era una serie di risultati degli esami, che abbiamo visualizzato nel grafico sopra.
GPT-4 rispetto a GPT-3.5
Per confrontare le capacità di ChatGPT, OpenAI ha simulato l’esecuzione di test di vari esami professionali e accademici. Ciò include i SAT, l’esame di avvocato e varie finali di collocamento avanzato (AP).
Il rendimento è stato misurato in percentili , basati sulle distribuzioni dei punteggi più recenti disponibili per i partecipanti al test di ciascun tipo di esame.
Il punteggio percentile è un modo per classificare le proprie prestazioni rispetto alle prestazioni degli altri. Ad esempio, se ti sei posizionato nel 60° percentile in un test, significa che hai ottenuto un punteggio superiore al 60% dei partecipanti al test.
La tabella seguente elenca i risultati che abbiamo visualizzato nel grafico.
I punteggi sopra riportati sono per GPT-4 con input visivi abilitati. Si prega di consultare il rapporto tecnico di OpenAI per risultati più completi.
Come possiamo vedere, GPT-4 (rilasciato a marzo 2023) è molto più capace di GPT-3.5 (rilasciato a marzo 2022) nella maggior parte di questi esami. Tuttavia, non è stato in grado di migliorare nell’inglese AP e nella programmazione competitiva .
Per quanto riguarda AP English (e altri esami in cui erano richieste risposte scritte), i contributi di ChatGPT sono stati valutati da “1-2 appaltatori di terze parti qualificati con esperienza lavorativa pertinente che valutano quei saggi”. Sebbene ChatGPT sia certamente in grado di produrre saggi adeguati, potrebbe aver faticato a comprendere i suggerimenti dell’esame.
Per la programmazione competitiva, GPT ha tentato 10 concorsi Codeforces 100 volte ciascuno. Codeforces ospita gare di programmazione competitive in cui i partecipanti devono risolvere problemi complessi. Il punteggio medio di Codeforces di GPT-4 è 392 (sotto il 5° percentile), mentre il suo punteggio più alto in un singolo concorso è stato di circa 1.300. Facendo riferimento alla pagina delle valutazioni di Codeforces, l’utente con il punteggio più alto è jiangly dalla Cina con una valutazione di 3.841.
Cosa è cambiato con GPT-4?
Ecco alcune aree in cui GPT-4 ha migliorato l’esperienza utente rispetto a GPT-3.5.
Accesso a Internet e plug-in
Un fattore limitante con GPT-3.5 era che non aveva accesso a Internet ed era addestrato solo sui dati fino a giugno 2021.
Con GPT-4, gli utenti avranno accesso a vari plug-in che consentono a ChatGPT di accedere a Internet, fornire risposte più aggiornate e completare una gamma più ampia di attività. Ciò include plug-in di terze parti da servizi come Expedia che consentiranno a ChatGPT di prenotare un’intera vacanza per te.
Input visivi
Mentre GPT-3.5 può accettare solo input di testo, GPT-4 ha la capacità di analizzare anche le immagini. Gli utenti potranno chiedere a ChatGPT di descrivere una foto, analizzare un grafico o persino spiegare un meme.
Maggiore lunghezza del contesto
Infine, GPT-4 è in grado di gestire quantità di testo molto maggiori e mantenere le conversazioni più a lungo. Per riferimento, GPT-3.5 aveva un valore di richiesta massimo di 4.096 token, che equivale a circa 3.000 parole. GPT-4 ha due varianti, una con 8.192 token (6.000 parole) e un’altra con 32.768 token (24.000 parole).
Tratto dal Visual Capitalist, pubblicato il 26 aprile 2023, di Marco Lu, grafica/design Rosey Eason