Questo articolo conferma pensieri che ripeto da tempo. Noi siamo nati analogici: ogni libro che avevi lo rileggevi più e più volte, quasi lo memorizzavi e -metabolizzandolo- riuscivi a comprenderne i ragionamenti più profondi. Ogni libro costava sacrifici, fosse acquistarlo o prenderlo in prestito per alcune settimane in una biblioteca a chilometri da casa. Anche le fotocopie si dovevano conquistare con sacrificio e, per quanto di scarsa qualità, avevano un profondo valore intrinseco. E così, dopo 20, 30, 40 anni tanti concetti sono stampati nella tua mente e fungono da supporto per tanti altri ragionamenti successivi, anche molto lontani dai pensieri iniziali.
Da quando internet, wikipedia, posdcast e altro sono entrati nella nostra vita, pur evidenziando i moltissimi aspetti positivi, quanta mancanza di concentrazione, superficialità negli approfondimenti ed estrema semplificazione nella valutazione delle questioni hanno portato? E quanti errori ne derivano, con quali costi?
-BOZZA-
Il paradosso dell’abbondanza negli LLM: più dati portano a meno efficienza
La ricerca incessante di modelli linguistici sempre più grandi, alimentata da vasti insiemi di dati, è stata a lungo una caratteristica distintiva dello sviluppo dell’intelligenza artificiale. Tuttavia, un innovativo studio condotto da un consorzio di prestigiose istituzioni accademiche, tra cui Carnegie Mellon, Stanford, Harvard e Princeton, ha gettato un’ombra di dubbio su questo paradigma dominante. La loro ricerca, guidata da Jacob Mitchell Springer e dettagliata nel documento “Overtrained Language Models Are Harder to Fine-Tune“, introduce un concetto critico: il “sovra-addestramento catastrofico”.
Questo fenomeno suggerisce che l’estensione del pre-addestramento oltre una certa soglia può paradossalmente degradare la capacità di un modello di essere efficacemente messo a punto, minando in ultima analisi le sue prestazioni. Lo studio sfida l’assunto fondamentale secondo cui una maggiore quantità di dati di pre-addestramento si traduce invariabilmente in modelli superiori.
I ricercatori hanno osservato che, mentre il pre-addestramento con un pool di dati in espansione, rappresentati come token, migliora le capacità iniziali di un modello, può contemporaneamente renderlo più suscettibile al degrado delle prestazioni durante la successiva messa a punto per compiti specifici. Questa osservazione segna una significativa deviazione dalla saggezza prevalente nel settore, evidenziando l’esistenza di una “legge dei rendimenti decrescenti” nel pre-addestramento degli LLM.
LA REGRESSIONE PROGRESSIVA
Un fattore chiave che contribuisce a questo degrado è la “sensibilità progressiva” dei modelli sovra-addestrati. Man mano che il pre-addestramento progredisce, i parametri del modello diventano sempre più sensibili alle modifiche, rendendolo più fragile e vulnerabile al deterioramento delle prestazioni durante le modifiche post-addestramento. Che si tratti di messa a punto delle istruzioni, messa a punto per compiti multimodali o persino di piccole perturbazioni di peso, i modelli sovra-addestrati mostrano una maggiore perdita di capacità apprese in precedenza. Questa maggiore sensibilità porta alla “dimenticanza”, dove i punti di forza originali del modello si erodono man mano che vengono introdotti nuovi dati di addestramento.
Raul Santos, responsabile scientifico quantistico di Phasecraft, ha sottolineato il potenziale dell’algoritmo, affermando che
abbiamo dimostrato un aumento di dieci volte sulle macchine attuali, e ci aspettiamo che questo miglioramento aumenti ulteriormente con l’avanzamento dell’hardware e la capacità dei computer quantistici di tollerare gli errori e gestire calcoli più complessi.
Il panorama della computazione quantistica sta vivendo una fase di rapida evoluzione, con importanti progressi compiuti dalle grandi aziende tecnologiche. I recenti annunci di Google, Microsoft e Amazon, con il lancio di nuovi chip e processori quantistici, testimoniano l’interesse crescente e gli investimenti nel settore.
IL BREAKPOINT DELL’ADDESTRAMENTO
Lo studio ha identificato un “punto di inflessione” nel pre-addestramento, oltre il quale l’addestramento aggiuntivo produce rendimenti decrescenti e persino negativi per quanto riguarda i risultati della messa a punto. Per il modello OLMo-1B, questa soglia è emersa intorno ai 2,5 trilioni di token.
Questa scoperta suggerisce che esiste una durata di pre-addestramento ottimale oltre la quale i vantaggi dei dati aggiuntivi sono superati dagli effetti dannosi della maggiore sensibilità. L’analisi dei ricercatori, che comprende sia contesti sperimentali reali che controllati, ha dimostrato costantemente che i modelli pre-addestrati oltre determinati budget di token hanno ottenuto prestazioni inferiori dopo la messa a punto.
Questa tendenza è persistita in vari compiti, tra cui la messa a punto delle istruzioni utilizzando set di dati come Anthropic-HH e TULU e la messa a punto multimodale utilizzando il framework LLaVA. Inoltre, un modello teorico che utilizza reti lineari ha corroborato le scoperte empiriche, confermando che la sensibilità progressiva e il sovra-addestramento catastrofico sono matematicamente inevitabili in caso di pre-addestramento prolungato senza vincoli appropriati.
MENO DATI VUOL DIRE PIU’ PRECISIONE
Le implicazioni sono profonde e sfidano la convinzione di lunga data che “più è sempre meglio” nel pre-addestramento degli LLM. La ricerca sottolinea invece l’esistenza di un compromesso sfumato: mentre il pre-addestramento esteso migliora le capacità iniziali di un modello, aumenta anche il rischio di degrado indotto dalla messa a punto. I tentativi di mitigare questo effetto, come la regolazione dei tassi di apprendimento della messa a punto o l’aggiunta di regolarizzazione, possono ritardare l’insorgenza del sovra-addestramento catastrofico, ma non possono eliminarlo completamente senza compromettere le prestazioni a valle.
La ricerca ha significative ramificazioni per le aziende che cercano di sfruttare gli LLM per flussi di lavoro e risultati aziendali. Suggerisce che la messa a punto di modelli di parametri più piccoli addestrati su meno dati può produrre modelli di produzione più affidabili. Inoltre, richiede una rivalutazione dell’allocazione delle risorse nello sviluppo degli LLM, sostenendo un passaggio dal concentrarsi esclusivamente sull’aumento dei budget di pre-addestramento all’ottimizzazione delle prestazioni a valle senza incorrere negli effetti negativi del sovra-addestramento catastrofico.
Gli autori riconoscono però che sono necessarie ulteriori ricerche per comprendere appieno i fattori che influenzano l’insorgenza e la gravità del sovra-addestramento. Detto ciò, l’impatto delle fasi di pre-addestramento, degli obiettivi e delle distribuzioni di dati, sono elementi da valutare quando si esce dal clamore suscitato dall’AI per rimettere tutta la questione sui binari, ragionati, dell’ottimizzazione.