Příklad #2 — Od náhody k jazyku

Stejně jako u čísla z prvního příkladu i tady máme jen sadu symbolů — anglickou abecedu a mezeru. Ukážeme, jak se z čisté náhody postupně přidáváním znalostí a pravidel stává něco, co vypadá (a nakonec i znamená) jako jazyk. To je v kostce cesta od „opice na klávesnici" až k jazykovým modelům. Just like the number in the first example, here too we have only a set of symbols — the English alphabet and a space. We'll show how, from pure randomness, adding knowledge and rules step by step turns into something that looks like (and eventually means) language. In a nutshell, it's the path from the "monkey at a keyboard" to language models.

Co a jak?What & how?

Co to jeWhat it is Začínáme jen s abecedou a mezerou — žádná pravidla. Čtyři kroky A–D ukazují, jak se z čistě náhodných písmen postupně, přidáváním znalostí, stává text, který vypadá (a nakonec i znamená) jako jazyk.We start with just the alphabet and a space — no rules. Four steps A–D show how purely random letters gradually turn, by adding knowledge, into text that looks (and finally means) like language.

Co zkusitWhat to try Projdi kroky A → B → C → D a nech generovat text. Každý krok přidá jedno pravidlo (statistiku písmen, slabiky, slovník, gramatiku) — sleduj, jak se výstup blíží skutečné řeči.Go through steps A → B → C → D and generate text. Each step adds one rule (letter statistics, syllables, a dictionary, grammar) — watch the output get closer to real speech.

Proč je to důležitéWhy it matters Je to mini-historie jazykových modelů „v kostce" — cesta od „opice na klávesnici" k modelům jako ChatGPT. Ukazuje hlavní myšlenku AI: čím víc znalostí o světě model má, tím smysluplnější je výstup.It is a mini-history of language models in a nutshell — the road from “a monkey at a keyboard” to models like ChatGPT. It shows AI’s core idea: the more knowledge of the world a model has, the more meaningful its output.

A Kombinatorika — hrubá sílaCombinatorics — brute force

Iterujeme všechny kombinace jako čítač z prvního příkladu, jen v soustavě o základu 27. Začínáme od samých „A" a přičítáme +1. Vidíš, že se hýbe jen pár písmen vpravo a smysluplnou větu bys takhle nikdy nesložil — možností je 27^N. We iterate through every combination like the counter in the first example, just in base 27. We start from all "A"s and add +1. You can see only a few letters on the right move, and you'd never compose a meaningful sentence this way — there are 27^N possibilities.

B Statistika písmen — „neznámý jazyk"Letter statistics — an "unknown language"

Přidáme jednoduchou statistiku a pravidla: střídáme samohlásky a souhlásky (slabiky), zakážeme nesmysly jako „QQ", omezíme délku slov a vět. Výsledek už není šum — vypadá to jako slova nějakého neznámého jazyka. We add simple statistics and rules: we alternate vowels and consonants (syllables), forbid nonsense like "QQ", and limit word and sentence length. The result is no longer noise — it looks like words of some unknown language.

střídání slabik · slova 2–7 písmen · žádné zdvojené souhláskyalternating syllables · words of 2–7 letters · no doubled consonants

C Slovník — skutečná slova bez smysluA dictionary — real words, no meaning

Místo písmen losujeme z opravdového slovníku českých slov. Každé slovo existuje, ale poskládaná věta nedává smysl — chybí gramatika a vztahy mezi slovy. Instead of letters, we draw from a real dictionary of English words. Every word exists, but the assembled sentence makes no sense — grammar and the relationships between words are missing.

náhodný výběr ze slovníku · bez gramatikyrandom pick from a dictionary · no grammar

D Gramatika — smysluplné větyGrammar — meaningful sentences

Nakonec přidáme gramatická pravidla (větné vzory, shoda, pádové tvary). Teprve teď vznikají věty, které dávají smysl. Tudy vede cesta k jazykovým modelům — ty se ovšem pravidla i statistiku neučí ručně, ale z obrovského množství textu. Finally we add grammatical rules (sentence patterns, word order, word forms). Only now do sentences that make sense appear. This is the road to language models — except they don't learn rules and statistics by hand, but from a huge amount of text.

větné vzory + pádová shodasentence patterns + word order

02Od náhody k jazykuFrom randomness to language

Co a jak?What & how?

A Kombinatorika — hrubá sílaCombinatorics — brute force

B Statistika písmen — „neznámý jazyk"Letter statistics — an "unknown language"

C Slovník — skutečná slova bez smysluA dictionary — real words, no meaning

D Gramatika — smysluplné větyGrammar — meaningful sentences