Skutečné jazykové modely (jako ChatGPT) nevyhrknou hotovou odpověď — píšou ji slovo po slově (token po tokenu). V každém kroku spočítají pravděpodobnost pro každé možné další slovo a jedno z nich losují. Tady ten krok vidíš naživo a můžeš si pohrát s tím, jak odvážně model losuje. Real language models (like ChatGPT) don't blurt out a finished answer — they write it word by word (token by token). At each step they compute a probability for every possible next word and sample one of them. Here you see that step live and can play with how boldly the model gambles.
Co to jeWhat it is Mini-model, který se z krátkého textu naučil, jak často po kterém slově následuje které (jako Markov z příkladu 4) — a podle toho předpovídá další slovo.A mini-model that learned from a short text how often each word is followed by which (like the Markov chain in example 4) — and predicts the next word from that.
Co zkusitWhat to try Napiš začátek věty; model se podívá na poslední slovo a nabídne pravděpodobnosti dalšího (sloupečky dole). Další token jedno losuje a přidá, Generuj opakuje. Posuvníky (teplota, top-k/top-p) mění, jak odvážně losuje.Type the start of a sentence; the model looks at the last word and offers probabilities for the next one (the bars below). Next token samples and appends one, Generate repeats it. The sliders (temperature, top-k/top-p) change how boldly it samples.
Proč je to důležitéWhy it matters Skutečné LLM (jako ChatGPT) píšou úplně stejně — token po tokenu — jen koukají na celou větu (attention, 10) a na tokeny (9). Vidíš tu i, proč halucinují: i když si nejsou jisté, stejně sebevědomě něco vyberou.Real LLMs (like ChatGPT) write exactly the same way — token by token — they just look at the whole sentence (attention, 10) and at tokens (9). You also see why they hallucinate: even when unsure, they still confidently pick something.
Tady je srdce každého jazykového modelu: text vzniká po jednom tokenu. V každém kroku model spočítá, jak je které další slovo pravděpodobné, podle nastavení trochu „zatřese" pravděpodobnostmi a jedno slovo losuje. To se přidá na konec — a celé se to opakuje. This is the heart of every language model: text is generated one token at a time. At each step the model computes how likely each next word is, "shakes" the probabilities a little according to the settings, and samples one word. It's appended to the end — and the whole thing repeats.
Model nevybere „to správné" slovo — pro každé možné má pravděpodobnost a jedno z nich losuje. Proto stejný začátek může pokaždé pokračovat jinak. The model doesn't pick "the right" word — it has a probability for each and samples one of them. That's why the same beginning can continue differently each time.
Mění ostrost rozdělení. Nízká → skoro vždy nejpravděpodobnější slovo (jisté, ale nudné a opakující se). Vysoká → šanci dostanou i méně pravděpodobná slova (kreativní až nesmyslné). Changes how sharp the distribution is. Low → almost always the most likely word (safe, but dull and repetitive). High → less likely words get a chance too (creative, even nonsensical).
Ořežou nabídku ještě před losováním. top-k = ponech k nejpravděpodobnějších slov. top-p (nucleus) = ponech nejmenší skupinu slov, která dohromady dá p % pravděpodobnosti. Brání výběru úplných nesmyslů z dlouhého chvostu. They prune the choices before sampling. top-k = keep the k most likely words. top-p (nucleus) = keep the smallest group of words that together make p % of the probability. This stops total nonsense from the long tail being picked.
I když si není jistý (ploché rozdělení nebo neznámý kontext), stejně něco vybere — a tváří se sebevědomě. Halucinace = sebevědomý odhad bez opory v datech. Model nikdy neřekne „nevím", protože pořád jen losuje další token. Even when it's not sure (a flat distribution or unfamiliar context) it still picks something — and sounds confident. A hallucination = a confident guess with no support in the data. The model never says "I don't know", because all it ever does is sample the next token.
Tady model jen používáme (inference) — četnosti jsou hotové a my z nich jen losujeme. Trénink je něco jiného: tam se ty pravděpodobnosti teprve nastavují z obrovského množství textu (u velkých modelů miliardy vět). Here we only use the model (inference) — the frequencies are fixed and we just sample from them. Training is something else: that's where those probabilities are set from a huge amount of text (billions of sentences for large models).
Princip je totožný, jen větší: místo posledního slova se model dívá na celou větu (attention, příklad 10), místo slov má tokeny (příklad 9) a pravděpodobnosti počítá neuronová síť (příklady 5–6) naučená z miliard vět. The principle is identical, just bigger: instead of the last word the model looks at the whole sentence (attention, example 10), instead of words it has tokens (example 9), and the probabilities are computed by a neural network (examples 5–6) trained on billions of sentences.
Pointa: model nikdy nezná „správnou odpověď" — jen pravděpodobné pokračování. Teplota a top-k/top-p rozhodují, jak odvážně losuje. A protože vždycky něco vybrat musí, umí i sebevědomě plácnout nesmysl. The point: the model never knows "the right answer" — only a likely continuation. Temperature and top-k/top-p decide how boldly it gambles. And because it always has to pick something, it can confidently blurt out nonsense too.