Le Origini dei Modelli Linguistici
Prima del deep learning, i computer elaboravano il linguaggio utilizzando regole codificate manualmente e modelli statistici come gli n-grammi.
Questi primi sistemi non riuscivano a cogliere le sfumature del linguaggio umano e non erano in grado di generalizzare.
Il punto di svolta arrivò con i word embeddings, un modo per rappresentare le parole come vettori densi in uno spazio continuo.
Questo segnò l'inizio dell'insegnamento alle macchine del significato delle parole attraverso schemi nei dati.
Tappe Storiche Fondamentali
Di seguito sono riportate le principali tappe che hanno spianato la strada agli LLM che utilizziamo oggi.
- word2vec (2013)
Sviluppato da Tomas Mikolov e colleghi di Google, word2vec è stato un modello rivoluzionario che utilizzava apprendimento non supervisionato per rappresentare le parole come vettori in uno spazio continuo. Ha catturato similarità semantica. Ad esempio, il vettore per re meno uomo più donna è vicino a regina. Questa idea semplice ma potente ha introdotto il concetto di rappresentazioni distribuite di parole.
🔗 Stima Efficiente delle Rappresentazioni di Parole - Transformer (2017)
Sebbene BERT e molti altri utilizzino l'architettura Transformer, la sua origine risiede nel paper del 2017 Attention Is All You Need di Vaswani et al.
Questo articolo ha introdotto il meccanismo di auto-attenzione, consentendo ai modelli di pesare l'importanza di tutte le parole in una sequenza contemporaneamente.
Ciò non solo ha permesso il processamento parallelo (addestramento più rapido) ma ha anche facilitato la modellazione delle dipendenze a lungo raggio, come collegare un nome nella prima frase a un pronome nella quarta.
🔗 Attention Is All You Need - ELMo (2018)
ELMo, ovvero Embedding da Modelli Linguistici, ha fatto un ulteriore passo avanti generando embedding contestualizzati. A differenza di word2vec, ELMo ha prodotto diverse rappresentazioni vettoriali per la stessa parola a seconda del suo contesto nella frase, ad esempio "bank" in "river bank" rispetto a "savings bank".
Questo è stato un passo fondamentale verso la comprensione della polisemia (parole con più significati).
🔗 Deep Contextualized Word Representations - BERT (2018)
Google’s BERT (Bidirectional Encoder Representations from Transformers) ha introdotto un bidirezionale metodo di pre-addestramento, consentendo al modello di comprendere il contesto sia dalla sinistra che dalla destra di una parola. Invece di prevedere la parola successiva, BERT ha mascherato parole casuali in una frase e ha addestrato il modello a riempirle, il che ha migliorato significativamente le prestazioni in compiti come la risposta a domande e l'analisi del sentiment.
🔗 BERT: Pre-addestramento di Trasformatori Bidirezionali Profondi
Cos'è un Transformer e perché ha cambiato tutto
L'architettura Transformer, introdotta nell'articolo del 2017 “Attention Is All You Need,” è la base di quasi tutti i moderni modelli linguistici di grandi dimensioni, inclusi GPT, Claude, LLaMA, Gemini e Mistral.
A differenza delle reti neurali ricorrenti (RNN), i Transformer elaborano intere sequenze simultaneamente utilizzando auto-attenzione, che permette a ogni token di decidere quanta attenzione dedicare agli altri.
In altre parole, ha sostituito l'elaborazione sequenziale con auto-attenzione, consentendo ai modelli di elaborare intere sequenze in parallelo e di modellare le dipendenze a lungo raggio in modo più efficace rispetto alle Reti Neurali Ricorrenti (RNN).
Ma cosa rende esattamente un Transformer funzionante?
Analizziamo il suo componenti principali, ognuno dei quali svolge un ruolo cruciale nel modo in cui questi modelli codificano, prestano attenzione e trasformano il testo.
- Tokenizzazione
Il testo di input viene suddiviso in unità sub-parola (token), spesso utilizzando metodi come Byte Pair Encoding (BPE). - Livello di Embedding
Ogni token viene convertito in un vettore denso utilizzando una matrice di embedding appresa.
Ciò fornisce al modello un modo per lavorare con input numerici che preserva le relazioni semantiche. - Meccanismo di Auto-Attenzione
Al centro del Transformer c'è l'auto-attenzione, che consente al modello di ponderare l'importanza di ogni token in relazione agli altri nella sequenza.- A ogni token vengono assegnati tre vettori: Query (Q), Key (K), e Value (V)
- I punteggi di attenzione vengono calcolati come il prodotto scalare di Q e K, scalati e normalizzati usando softmax.
- Questi punteggi vengono utilizzati per ponderare i vettori V, consentendo al modello di concentrarsi dinamicamente sulle parti rilevanti dell'input.
- Rete Feedforward
Dopo l'auto-attenzione, la rappresentazione di ogni token viene passata attraverso una rete neurale completamente connessa (densa) per consentire trasformazioni più complesse. - Codifica Posizionale
Poiché i Transformer non elaborano l'input in sequenza, utilizzano codifiche posizionali per iniettare informazioni sull'ordine dei token nel modello. - Connessioni Residue e Normalizzazione a Livello
Queste caratteristiche architetturali aiutano a stabilizzare l'addestramento e ad accelerare la convergenza garantendo un migliore flusso del gradiente attraverso reti profonde.
Questo video è un eccellente complemento al "Attention Is All You Need" articolo di Vaswani et al. (2017).
Visualizza l'architettura e il funzionamento interno del Transformer in modo accessibile sia a un pubblico tecnico che non tecnico, evidenziando le idee chiave.
Dai Token al Linguaggio
I modelli linguistici non comprendono il testo come gli esseri umani.
Prevedono il token successivo più probabile basandosi su tutto ciò che è stato visto in precedenza, utilizzando distribuzioni di probabilità sul vocabolario.
Flusso passo-passo
- Tokenizzazione:
Un input come “The dog barks” diventa[“Il”, “ cane”, “ abbaia”], quindi mappato a ID di token. - Embedding:
Questi ID vengono passati attraverso un livello di embedding per produrre vettori densi. - Blocchi Transformer:
Questi vettori vengono elaborati attraverso più livelli di auto-attenzione e feedforward. - Logit e Softmax:
L'output è un vettore di logit (punteggi grezzi) che vengono convertiti in probabilità usando la funzione softmax. - Strategie di decodifica:
- Decodifica greedy: Scegli il token con la probabilità più alta.
- Campionamento Top-k: Campiona dai primi k token più probabili.
- Campionamento Nucleus: Campiona dal più piccolo insieme di token la cui probabilità cumulativa supera una soglia (solitamente 0,9).

Addestramento degli LLM: La Mente Dietro le Parole
L'addestramento di un modello linguistico di grandi dimensioni implica esporlo a vasti set di dati testuali e insegnargli a prevedere i token.
Questo processo può richiedere settimane su supercomputer con migliaia di GPU.
Addestrare un modello linguistico di grandi dimensioni implica esporlo a enormi set di dati testuali e insegnargli a prevedere i token, un processo che può richiedere settimane su supercomputer AI con oltre 10.000 GPU, consumando centinaia di zettaFLOP di calcolo e costando decine di milioni di dollari.
Uno zettaFLOP — abbreviazione di zetta floating-point operations per second (operazioni in virgola mobile per secondo) — è un'unità di potenza computazionale pari a 10²¹ operazioni al secondo (ovvero 1 sestilione, o un 1 seguito da 21 zeri). Sebbene le prestazioni su scala zettaFLOP rimangano in gran parte teoriche per compiti sostenuti, è un modo utile per esprimere la potenza di calcolo cumulativa totale necessaria per addestrare i modelli AI più avanzati di oggi.
Pre-addestramento
- Obiettivo: Apprendere schemi statistici nel linguaggio prevedendo i token successivi (stile GPT) o mascherati (stile BERT).
- Dati: Libri, siti web, codice, social media, testi accademici.
- Modelli:
- GPT-3 (OpenAI, 2020)
Addestrato su 300 miliardi di token utilizzando la modellazione del linguaggio causale - Claude (Anthropic)
Utilizza Constitutional AI: un approccio di apprendimento per rinforzo in cui i modelli si auto-criticano basandosi su un insieme di principi - LLaMA 3 (Meta AI, 2024)
Addestrato su 15 trilioni di token, inclusi codice e dati multilingue; modelli open-weight disponibili - Gemini 1.5 (Google DeepMind, 2024)
Utilizza un' Mixture-of-Experts (MoE) architettura e supporta multimodale input (testo, immagini, audio) - PaLM 2 (Google, 2023)
Addestrato su corpus multilingue, codice e dati scientificimigliorate capacità di ragionamento e traduzione - Grok (xAI, 2023–2024)
Addestrato su dati X (Twitter) in tempo reale, con accesso a contenuti proprietari generati dagli utenti - Command R+ (Cohere)
Generazione aumentata da recupero (RAG) ottimizzata per contesti lunghi attività aziendali - Mistral 7B / Mixtral (Mistral AI, 2023)
Altamente efficienti MoE densi e sparsi modelli — pesi aperti e prestazioni elevate su piccola scala - Phi-2 (Microsoft Research, 2023)
Un modello piccolo (1,3 miliardi di parametri) addestrato con dati in stile manuale, ottimizzato per l'efficienza del ragionamento - GatorTron (UF Health + NVIDIA, 2022)
Addestrato su cartelle cliniche e biomediche per applicazioni di PNL in ambito medico - WuDao 2.0 (Beijing Academy of AI)
Uno dei più grandi modelli multilingue/multimodali — addestrato su 1,75T parametri e corpus diversi, inclusi cinese e inglese
- GPT-3 (OpenAI, 2020)
Fine-Tuning
Dopo il pre-addestramento, i modelli linguistici di grandi dimensioni possono essere affinati per ottenere prestazioni migliori su compiti specifici o per allinearsi più strettamente alle aspettative umane. Questo passaggio è facoltativo ma ampiamente utilizzato per rendere i modelli più utili nelle applicazioni del mondo reale.
L'affinamento aiuta il modello a:
- Seguire le istruzioni umane in modo più accurato
- Essere più utile, onesto e innocuo
- Allinearsi a obiettivi specifici (ad es. assistenza clienti, consulenza legale, istruzione)
Affinamento tramite istruzioni
Questo è l'approccio più comune. Il modello viene addestrato su esempi in cui gli input sono abbinati a risposte desiderate di alta qualità. Nel tempo, impara a generalizzare e a seguire istruzioni simili anche se non facevano parte dell'addestramento.
Apprendimento per rinforzo da feedback umano (RLHF)
Una delle più potenti tecniche di affinamento. Migliora l'allineamento attraverso il feedback di valutatori umani:
- Genera output: Il modello produce più risposte a un prompt.
- Classificazione umana: Gli annotatori classificano gli output dal migliore al peggiore.
- Addestra un modello di ricompensa: Le classificazioni vengono utilizzate per addestrare un modello separato che valuta gli output.
- Messa a punto del modello principale: Utilizzando l'apprendimento per rinforzo (comunemente PPO – Proximal Policy Optimization), il modello di base viene aggiornato per massimizzare questo segnale di ricompensa.
Questo metodo è stato utilizzato in InstructGPT, uno dei primi modelli allineati (Ouyang et al., 2022), e successivamente esteso da Anthropic con Constitutional AI, che insegna ai modelli a criticare e rivedere le proprie risposte basandosi su linee guida etiche predefinite (Bai et al., 2022).
Perché gli LLM sembrano intelligenti (ma non lo sono)
Nonostante scrivano saggi, spieghino barzellette o scrivano codice, gli LLM in realtà non "capiscono" nulla.
Non formano credenze né possiedono intenzioni.
Sono motori probabilistici addestrati a continuare sequenze di testo in modi plausibili.
Simulano l'intelligenza attraverso:
- Memorizzando schemi in enormi set di dati
- Utilizzando l'attenzione per recuperare il contesto rilevante
- Reagendo alla formulazione del prompt (ad es., "Pensiamo passo dopo passo")
“Addestrare modelli linguistici sempre più grandi senza affrontare le limitazioni sottostanti rischia di creare sistemi che sembrano autorevoli ma mancano di responsabilità o di fondamento fattuale.” 📚 Pappagalli Stocastici: Bender et al., 2021
Il futuro degli LLM: Agenti, Memoria e Ragionamento
I modelli linguistici di prossima generazione si stanno evolvendo rapidamente — non solo in termini di scala, ma anche in capacità.
Questi modelli stanno diventando:
- Multimodali: Elaborano e generano testo, immagini e audio
- Consapevoli del contesto esteso: Mantenendo la memoria per ore o addirittura settimane (ad es. Claude 3.5, Gemini 1.5)
- Agenti: Agiscono tramite strumenti, API e ambienti dinamici
Vuoi capire cosa riserva il futuro per gli LLM?
Man mano che i modelli linguistici si evolvono in sistemi più capaci e autonomi, diversi paradigmi fondamentali stanno plasmando il loro futuro.
3 idee fondamentali:
🧠 Mixture-of-Experts (MoE)
Suggerimento: Leggi Shazeer et al., 2017
I modelli MoE migliorano l'efficienza attivando solo un piccolo sottoinsieme dei loro parametri per ogni input, rendendo possibile scalare senza aumentare proporzionalmente la potenza di calcolo.
🧩 Ragionamento a catena di pensiero
Consiglio: leggi Wei et al., 2022
Questa strategia di prompting incoraggia i modelli a pensare passo dopo passo, migliorando significativamente le prestazioni su compiti complessi di ragionamento e matematica.
🔍 Generazione Aumentata da Recupero (RAG)
Consiglio: esplora la Guida RAG di Cohere
Il RAG combina i modelli linguistici con fonti di conoscenza esterne, permettendo loro di attingere informazioni pertinenti da database o documenti prima di generare risposte.
Queste tecniche sono i mattoni fondamentali dei sistemi di IA di prossima generazione.
Inizia con questi articoli per capire dove sta andando il futuro.
Comprendere gli LLM è la nuova alfabetizzazione digitale
I Modelli Linguistici di Grandi Dimensioni rappresentano un cambiamento epocale nell'interazione uomo-computer.
Sono motori probabilistici di sintesi della conoscenza.
Se i motori di ricerca si basavano sulle parole chiave, gli LLM si basano sul contesto, chiarezza, e citazioni.