Llama 4
Llama 4, la nuova generazione di modelli AI open source rilasciata da Meta
Llama 4 apre scenari concreti per l’adozione di intelligenza artificiale avanzata all’interno di aziende, studi professionali e organizzazioni pubbliche. Grazie a un’architettura multimodale e scalabile, i nuovi modelli promettono prestazioni elevate in attività di scrittura, analisi, supporto decisionale e automazione.
Modelli AI comparabili per capacità a quelli dei big player.
Per molte realtà, questo significa poter sviluppare assistenti virtuali su misura, analizzatori di dati interni, copiloti per l’ufficio o il customer care, senza dover dipendere da API proprietarie e licenze a consumo. Al tempo stesso, però, non mancano le incognite: prestazioni reali, requisiti hardware, rischi di sicurezza, sostenibilità economica e chiarezza normativa.
L’azienda di Mark Zuckerberg ha presentato Llama 4 come parte della famiglia di modelli Llama, sottolineandone fin da subito le capacità all’avanguardia e la natura aperta. Secondo Meta, Llama 4 rappresenta “l’inizio di una nuova era” per il suo ecosistema AI , forte di prestazioni da primato in compiti che vanno dalla programmazione alla comprensione di immagini.
Tuttavia, l’annuncio non è stato privo di controversie. Già nel weekend del lancio, alcuni osservatori hanno messo in dubbio la trasparenza dei test condotti: un dirigente di Meta è dovuto intervenire per smentire pubblicamente le voci secondo cui la società avrebbe addestrato i modelli Llama 4 su insiemi di test, gonfiando artificiosamente i punteggi nei benchmark di valutazione.
Che cos’è Llama 4: architettura, modelli e funzionalità
Llama 4 non è un singolo modello, ma un gruppo di modelli sviluppati da Meta, progettati per diversi scopi e dimensioni. In totale sono quattro le nuove varianti annunciate: Llama 4 Scout, Llama 4 Maverick, Llama 4 Behemoth e un modello orientato al “Reasoning” (ragionamento). I primi due – Scout e Maverick – sono già disponibili pubblicamente, mentre Behemoth e la versione Reasoning dovrebbero arrivare in un secondo momento.
Tutti i modelli Llama 4 condividono un’innovativa architettura Mixture of Experts (MoE), che suddivide i compiti tra una serie di sottoreti specializzate (“esperti”) coordinate da un router centrale. Questo design consente al modello di attivare solo una piccola frazione dei parametri totali per ciascuna richiesta, risultando più efficiente sia nel training che nell’inferenza.
Ad esempio, Llama 4 Maverick possiede 400 miliardi di parametri totali ma ne impiega solo 17 miliardi per ogni input (distribuiti su 128 esperti). Allo stesso modo il più piccolo Llama 4 Scout utilizza 17 miliardi di parametri attivi su 16 esperti, a fronte di 109 miliardi di parametri complessivi. In pratica, grazie all’MoE ogni modello può contare su un enorme patrimonio di conoscenze (parametri totali) mantenendo al contempo tempi di risposta rapidi, poiché elabora le query attivando solo gli “esperti” necessari al caso.
Llama 4 e le sue varianti
- Llama 4 Scout è il modello più compatto della famiglia ed è pensato per funzionare con risorse hardware relativamente limitate. Meta dichiara che Scout può girare su una singola GPU Nvidia H100 , il che lo rende accessibile per implementazioni on-premises o su cloud a costi contenuti.
-
Llama 4 Maverick rappresenta la versione di medio livello, una sorta di “fratello maggiore” di Scout per casi d’uso generali di assistant e chat. Condivide con Scout la dimensione dei parametri attivi (17 miliardi), ma grazie ai suoi 128 esperti dispone di un bagaglio di 400 miliardi di parametri totali, conferendogli maggiore versatilità e conoscenze più approfondite. Maverick è anch’esso un modello multimodale ma nativamente accetta “solo” un milione di token.
Date le dimensioni, Maverick è più esigente in termini computazionali: Meta indica che per eseguirlo è necessario un sistema DGX con GPU H100 multiple o equivalenti. Di conseguenza, Maverick si presta a implementazioni in cloud o su infrastrutture aziendali robuste, più che su singole workstation. Meta descrive Maverick come il modello Llama 4 ottimizzato per la creatività e la conversazione, adatto a generare testi, assistere nella stesura di contenuti e dialogare in linguaggio naturale.
- Llama 4 Behemoth è il gigante del gruppo: un modello non ancora rilasciato pubblicamente al momento dell’annuncio, perché ancora in fase di addestramento, ma di cui Meta ha rivelato alcune specifiche impressionanti. Behemoth adotta l’architettura MoE spingendola al limite: dispone di 288 miliardi di parametri attivi suddivisi su 16 esperti, per un totale prossimo ai 2 trilioni di parametri (2 mila miliardi).
Infine, Meta ha anticipato l’arrivo di un modello Llama 4 dedicato al “Reasoning”, cioè al ragionamento e alla verifica fattuale delle risposte fornite. Questo modello, atteso nelle prossime settimane dopo il lancio iniziale, sarebbe più vicino alla categoria dei cosiddetti retriever-augmented o “self-reflection” models che effettuano controlli incrociati sulle proprie affermazioni.
Nessuno dei modelli Llama 4 attualmente distribuiti, infatti, implementa di default un meccanismo avanzato di fact-checking interno: “nessuno dei Llama 4 è un vero modello di ‘ragionamento’ sullo stile di OpenAI”, osserva TechCrunch. I modelli di reasoning tendono a fornire risposte più affidabili perché consultano fonti o controllano le proprie affermazioni, al prezzo però di una maggiore latenza nelle risposte. Meta sembra quindi intenzionata a colmare questa lacuna con un modello dedicato, per competere meglio con soluzioni concorrenti.