Llama is een familie van grote taalmodellen ontwikkeld door Meta, het moederbedrijf van Facebook, Instagram en WhatsApp. Het onderscheidt zich van ChatGPT, Claude en Gemini doordat de modellen open-weight zijn: je kunt ze downloaden, lokaal draaien op eigen hardware en aanpassen aan je eigen gebruik. Dit artikel beschrijft wat Llama is, welke versies er zijn, wat de licentievoorwaarden in de praktijk betekenen en voor wie het wel of geen geschikte keuze is.
Wat is Llama van Meta?
Llama is een familie van grote taalmodellen die Meta sinds februari 2023 uitbrengt. De naam kwam oorspronkelijk van Large Language Model Meta AI (LLaMA), maar sinds Llama 2 hanteert Meta zelf de schrijfwijze “Llama”. Het werkt volgens dezelfde principes als andere AI-modellen: je geeft een instructie of stelt een vraag, en het model genereert een antwoord op basis van patronen die het tijdens training heeft geleerd.
Het verschil met de bekendere chatmodellen zit in de distributie. Waar ChatGPT en Claude alleen via een API of een eigen interface beschikbaar zijn, kun je Llama-modellen rechtstreeks downloaden van platforms als Hugging Face en draaien op je eigen infrastructuur. Daarmee houd je je gegevens binnen de eigen omgeving en betaal je geen vergoeding per verwerkte token. Een uitleg van het bredere onderscheid tussen open source en gesloten AI-modellen staat in een apart kennisbankartikel.
Llama is ontwikkeld voor zowel onderzoek als commercieel gebruik. In de praktijk zie je het terug in twee categorieën: organisaties die het zelf draaien op eigen servers, en consumenten die Llama indirect gebruiken via Meta’s eigen producten zoals Meta AI in WhatsApp en Instagram.
Welke versies van Llama zijn er?
Llama is door de jaren heen in meerdere generaties uitgebracht, met steeds grotere mogelijkheden. De eerste versie verscheen in februari 2023 en was bedoeld voor onderzoek. Llama 2 volgde in juli 2023 en kreeg een licentie die commercieel gebruik toestaat. Llama 3 verscheen in 2024 met grotere contextvensters en verbeterde redeneerprestaties. Llama 4 is de actuele generatie en is uitgebracht op 5 april 2025.
De Llama 4-familie bestaat uit twee beschikbare modellen en één aangekondigd model. Llama 4 Scout heeft 17 miljard actieve parameters (109 miljard in totaal) en een contextvenster van 10 miljoen tokens. Llama 4 Maverick heeft 17 miljard actieve parameters (400 miljard in totaal) en een contextvenster van 1 miljoen tokens. Beide gebruiken een Mixture-of-Experts-architectuur, waarbij per vraag slechts een deel van het model actief is. Dat verlaagt de hardware-eisen in vergelijking met traditionele dense modellen van vergelijkbare omvang.
Een derde model, Llama 4 Behemoth, is bij de Llama 4-aankondiging genoemd als trainingsmodel, maar is per april 2026 nog niet publiek uitgebracht. Voor wie nu Llama wil inzetten zijn Scout en Maverick de werkbare opties. Naast Llama 4 ondersteunt Meta nog Llama 3.3 als kleiner, tekst-only model voor wie geen multimodaliteit nodig heeft.
Hoe verschilt Llama van ChatGPT, Claude en Gemini?
Llama verschilt op drie punten van de bekende chatmodellen: het distributiemodel, de gebruikssituatie en de drempel om er iets mee te doen. ChatGPT, Claude en Gemini draai je via een browser of app, met een account, en ze werken direct. Llama download je, host je zelf, en zet je op via je eigen infrastructuur. Voor de eindgebruiker die snel een vraag wil stellen is dat een groot verschil.
Bij gesloten modellen ligt de controle over het model bij de aanbieder. Anthropic bepaalt wanneer Claude wordt geüpdatet, OpenAI bepaalt het beleid rond ChatGPT, Google doet hetzelfde met Gemini. Bij Llama bepaal je zelf welke versie je draait, wanneer je upgradt en welke aanpassingen je doorvoert. Wie strikte eisen heeft op het gebied van datalokatie, modelversie-stabiliteit of finetuning op eigen materiaal, vindt dat alleen bij open-weight modellen.
De keerzijde is werk. Een gesloten model werkt na een login. Een open-weight model vereist hardware, deployment, monitoring en onderhoud. Voor een uitgebreide vergelijking met andere modellen zie de artikelen over Claude van Anthropic en Google Gemini.
Open-weight is niet hetzelfde als open source
Llama wordt vaak open source genoemd, maar dat klopt niet helemaal. De juiste term is open-weight: je krijgt de getrainde modelgewichten, maar niet de complete trainingsdata of de trainingscode, en het gebruik is gebonden aan een eigen Meta-licentie in plaats van een standaard open-source licentie zoals Apache 2.0 of MIT.
De Llama 4 Community License staat commercieel gebruik toe, met een paar belangrijke voorwaarden. Organisaties met meer dan 700 miljoen maandelijkse actieve gebruikers moeten een aparte licentie aanvragen. In de praktijk treft die clausule alleen grote technologiebedrijven; voor het Nederlandse MKB en de meeste enterprise-organisaties is dit geen blokkerende factor. Wel verplicht de licentie tot vermelding van “Built with Llama” bij commercieel gebruik en tot het gebruik van het Llama-prefix bij eigen modellen die op Llama gebouwd zijn.
Voor Europese gebruikers is er een aanvullende beperking: de visuele (multimodale) functies in Llama 4 zijn niet toegestaan voor personen of organisaties met een vestiging in de EU. Tekstgebruik is wel toegestaan. Voor Nederlandse organisaties betekent dit dat Llama 4 als tekstmodel inzetbaar is, maar dat beeldverwerking via Llama 4 op dit moment niet is toegestaan onder de licentie. Wie multimodale toepassingen bouwt, moet dus uitwijken naar een andere modelfamilie of de licentievoorwaarden actief monitoren.
Een tweede aandachtspunt is reputatie. Bij de Llama 4-release in april 2025 gebruikte Meta op het benchmark-platform LMArena een aparte, “experimentele” chat-versie van Maverick die niet identiek was aan de versie die voor download beschikbaar werd gesteld. Dat leverde controverse op en is reden om bij benchmark-claims rond Llama altijd te kijken welke specifieke modelvariant is getest.
Hoe zet je Llama in de praktijk in?
Llama is in de praktijk op drie manieren beschikbaar. De eerste is zelf hosten: download de modelgewichten van Hugging Face of llama.com en draai het model op eigen hardware of een cloud-instance. Voor Llama 4 Scout volstaat een enkele NVIDIA H100 GPU met quantisatie. Voor Maverick zijn meerdere GPU’s of een H100-host nodig. Dit pad vraagt ML-engineering kennis: quantisatie, serving, monitoring en updates regel je zelf.
De tweede optie is een managed cloud-aanbieder. AWS, Databricks, Google Cloud en gespecialiseerde inferentie-providers als Groq en Together AI bieden Llama-modellen als service aan. Je betaalt per token, vergelijkbaar met een API bij OpenAI of Anthropic, maar je hebt wel controle over de modelversie en je kunt de gewichten desgewenst zelf op een ander platform draaien.
De derde optie is via Meta zelf. Sinds 2025 biedt Meta een eigen Llama API in beperkte preview en zijn de modellen ook indirect beschikbaar via Meta AI in WhatsApp, Messenger en Instagram. Voor zakelijk gebruik is dat geen volwaardige route, maar voor consumentenervaring met Llama wel.
Welke route past, hangt af van het doel. Voor experimenten en onderzoek werkt zelf hosten. Voor productie-workloads zonder eigen ML-team is een managed cloud-aanbieder vaak praktischer. Voor wie alleen wil zien hoe Llama aanvoelt, volstaat Meta AI in WhatsApp.
Voor wie is Llama een goede keuze?
Llama is een goede keuze voor organisaties met een specifieke combinatie van eisen: data die binnen de eigen omgeving moet blijven, behoefte aan modelversie-controle, voldoende technisch personeel om het zelf te draaien, en een use case waarin tokenkosten over tijd hoger oplopen dan de operationele kosten van zelf hosten. Denk aan klantenservice-systemen met grote volumes, interne kennisbanken die niet naar een externe aanbieder mogen, of producten waarin een eigen finetuning op specifieke domeintaal waarde toevoegt.
Voor de meeste kenniswerkers is Llama niet de eerste keuze. Wie content schrijft, documenten samenvat, e-mails opstelt of strategische teksten produceert, krijgt sneller goede resultaten met de gebruiksvriendelijke chatomgeving van ChatGPT, Claude of Gemini. De drempel om zelf een model te hosten is hoog en levert voor incidenteel gebruik weinig op. Een goede inleiding voor die groep staat in het artikel over wat ChatGPT is.
Llama wordt vaak in één adem genoemd met andere open-weight modellen zoals Mistral en DeepSeek. Elk daarvan heeft eigen sterke punten en licentievoorwaarden. Voor organisaties die een open-weight model overwegen, is een vergelijking tussen deze drie families een nuttige eerste stap voordat de keuze valt.
Llama professioneel inzetten in je organisatie
Een open-weight model als Llama professioneel inzetten vraagt meer dan een download en een installatie. Het vraagt een werkwijze: wie bepaalt welke modelversie wordt gebruikt, wie houdt licentievoorwaarden bij, hoe worden prompts gestandaardiseerd, en welke controlepunten zitten er op de output voordat die het systeem verlaat. Zonder die structuur worden goede resultaten een toevalligheid in plaats van een herhaalbaar resultaat.
Voor Nederlandse organisaties die met AI-tools werken, is een breder begrip van het modellandschap waardevoller dan diepe specialisatie in één model. Wie weet wat Llama, ChatGPT, Claude en Gemini van elkaar onderscheidt, maakt betere keuzes over wanneer welk model in te zetten. De ChatGPT cursus van LearnLLM behandelt het meestgebruikte model in detail en geeft een werkwijze die je vervolgens ook op andere modellen kunt toepassen. Schrijf je in voor de e-learning Professioneel werken met ChatGPT en bouw een vaste werkwijze op die je over je hele AI-toolset kunt uitrollen.



