Příklad #11 — Jak LLM píše: predikce dalšího tokenu

Skutečné jazykové modely (jako ChatGPT) nevyhrknou hotovou odpověď — píšou ji slovo po slově (token po tokenu). V každém kroku spočítají pravděpodobnost pro každé možné další slovo a jedno z nich losují. Tady ten krok vidíš naživo a můžeš si pohrát s tím, jak odvážně model losuje. Real language models (like ChatGPT) don't blurt out a finished answer — they write it word by word (token by token). At each step they compute a probability for every possible next word and sample one of them. Here you see that step live and can play with how boldly the model gambles.

Co a jak?What & how?

Co to jeWhat it is Mini-model, který se z krátkého textu naučil, jak často po kterém slově následuje které (jako Markov z příkladu 4) — a podle toho předpovídá další slovo.A mini-model that learned from a short text how often each word is followed by which (like the Markov chain in example 4) — and predicts the next word from that.

Co zkusitWhat to try Napiš začátek věty; model se podívá na poslední slovo a nabídne pravděpodobnosti dalšího (sloupečky dole). Další token jedno losuje a přidá, Generuj opakuje. Posuvníky (teplota, top-k/top-p) mění, jak odvážně losuje.Type the start of a sentence; the model looks at the last word and offers probabilities for the next one (the bars below). Next token samples and appends one, Generate repeats it. The sliders (temperature, top-k/top-p) change how boldly it samples.

Proč je to důležitéWhy it matters Skutečné LLM (jako ChatGPT) píšou úplně stejně — token po tokenu — jen koukají na celou větu (attention, 10) a na tokeny (9). Vidíš tu i, proč halucinují: i když si nejsou jisté, stejně sebevědomě něco vyberou.Real LLMs (like ChatGPT) write exactly the same way — token by token — they just look at the whole sentence (attention, 10) and at tokens (9). You also see why they hallucinate: even when unsure, they still confidently pick something.

1 kontext (co bylo dosud)context (so far) → 2 rozdělení pravděpodobnostíprobability distribution → 3 ořež (top-k / top-p)prune (top-k / top-p) → 4 los (teplota)sample (temperature) → 5 další tokennext token ↺ a celé znovuand all over again

Jak vzniká text — a proč modely občas „kecají"How text is generated — and why models sometimes "make things up"

Tady je srdce každého jazykového modelu: text vzniká po jednom tokenu. V každém kroku model spočítá, jak je které další slovo pravděpodobné, podle nastavení trochu „zatřese" pravděpodobnostmi a jedno slovo losuje. To se přidá na konec — a celé se to opakuje. This is the heart of every language model: text is generated one token at a time. At each step the model computes how likely each next word is, "shakes" the probabilities a little according to the settings, and samples one word. It's appended to the end — and the whole thing repeats.

Generování = losováníGeneration = sampling

Model nevybere „to správné" slovo — pro každé možné má pravděpodobnost a jedno z nich losuje. Proto stejný začátek může pokaždé pokračovat jinak. The model doesn't pick "the right" word — it has a probability for each and samples one of them. That's why the same beginning can continue differently each time.

TeplotaTemperature

Mění ostrost rozdělení. Nízká → skoro vždy nejpravděpodobnější slovo (jisté, ale nudné a opakující se). Vysoká → šanci dostanou i méně pravděpodobná slova (kreativní až nesmyslné). Changes how sharp the distribution is. Low → almost always the most likely word (safe, but dull and repetitive). High → less likely words get a chance too (creative, even nonsensical).

top-k a top-ptop-k and top-p

Ořežou nabídku ještě před losováním. top-k = ponech k nejpravděpodobnějších slov. top-p (nucleus) = ponech nejmenší skupinu slov, která dohromady dá p % pravděpodobnosti. Brání výběru úplných nesmyslů z dlouhého chvostu. They prune the choices before sampling. top-k = keep the k most likely words. top-p (nucleus) = keep the smallest group of words that together make p % of the probability. This stops total nonsense from the long tail being picked.

Proč model „kecá"Why the model "makes things up"

I když si není jistý (ploché rozdělení nebo neznámý kontext), stejně něco vybere — a tváří se sebevědomě. Halucinace = sebevědomý odhad bez opory v datech. Model nikdy neřekne „nevím", protože pořád jen losuje další token. Even when it's not sure (a flat distribution or unfamiliar context) it still picks something — and sounds confident. A hallucination = a confident guess with no support in the data. The model never says "I don't know", because all it ever does is sample the next token.

Trénink × používání (inference)Training vs. use (inference)

Tady model jen používáme (inference) — četnosti jsou hotové a my z nich jen losujeme. Trénink je něco jiného: tam se ty pravděpodobnosti teprve nastavují z obrovského množství textu (u velkých modelů miliardy vět). Here we only use the model (inference) — the frequencies are fixed and we just sample from them. Training is something else: that's where those probabilities are set from a huge amount of text (billions of sentences for large models).

Vztah ke „skutečným" LLMRelation to "real" LLMs

Princip je totožný, jen větší: místo posledního slova se model dívá na celou větu (attention, příklad 10), místo slov má tokeny (příklad 9) a pravděpodobnosti počítá neuronová síť (příklady 5–6) naučená z miliard vět. The principle is identical, just bigger: instead of the last word the model looks at the whole sentence (attention, example 10), instead of words it has tokens (example 9), and the probabilities are computed by a neural network (examples 5–6) trained on billions of sentences.

Pointa: model nikdy nezná „správnou odpověď" — jen pravděpodobné pokračování. Teplota a top-k/top-p rozhodují, jak odvážně losuje. A protože vždycky něco vybrat musí, umí i sebevědomě plácnout nesmysl. The point: the model never knows "the right answer" — only a likely continuation. Temperature and top-k/top-p decide how boldly it gambles. And because it always has to pick something, it can confidently blurt out nonsense too.