Trénování jazykových modelů

Velké a malé jazykové modely a jejich trénování

Trénováním velkých (LLM) nebo malých (SLM) jazykových modelů pomocí RLHF (Reinforced Learning from Human Feedback) zásadně pomáhá zpřesnění výstupů generativních jazykových modelů.

Zjednodušeně řečeno putuje dotaz (input) uživatele nejprve do jazykového kurpusu klienta a až následně je část úkolu přeposlána do komerčního jazykového modelu (např. ChatGPT nebo Gemini), který má mnohem větší výpočetní výkon a dlohodobě pracuje s obrovskými jazykovými korpusy. Tímto schématem se omezují chybné odpovědi (outputs) veřejně přístupného jazykového modelu.

Malý jazykový model může fungovat i zcela nezávisle nebo dokonce off-line, je ovšem potřeba počítat s jeho úzkým zaměřením a nižším výpočetním výkonem.


V obou případech je nutné projít alespoň těmito kroky:

> Definování datové sady (textů), které jsou základem korpusu

> Embedding (převedení pojmů, vět a článků na vektory)

> Statistické učení

> Fine tuning

> Feedback (např. RLHF)


K čemu slouží dobře trénované jazykové modely

Základní funkcí je vytváření jazykových mutací téhož textu, tj. překladů. Velmi dobře ale také fungují pro vytváření rešerší nebo naopak sumarizací textů. Mohou také vyhledávat data v nekonsolidovaných databázích, generovat analogické texty nebo obrázky (k tomu potřebují jiný model) dle zadání uživatele nebo provádět výpočty a analýzy.


Kvalita výstupů

Kvalita odpovědí jazykového modelu je z větší části daná vhodností dat, které byly zvoleny jako budoucí jazykový korpus, trénováním a odladěním jazykového modelu.

Je třeba si ovšem uvědomit, že jazykové modely pracují s pravděpodobností a není možné zajistit 100% správnost jejich odpovědí. LLM jsou trénovány na bilionech parametrů, zatímco SLM „jen“ na stovkách milionů. Oba stojí na strojovém učení (ML), které z podstaty nepočítá s přímým zapojením člověka.


Praktické použití trénovaných SLM a LLM

> Generování tech. dokumentů

> Vyhledávání v textových databázích

> Analýza dlouhých textů

> Vytváření verzí dokumentů

> Návrhy složitých řešení s mnoha parametry

> Vytváření webových stránek