Porozmawiałem z krzemowym czytelnikiem mego bloga o pomyśle wprowadzenia obowiązkowego stosowania węgierskiego jako sposobu unifikacji rozwiązującego problem końcówek genderowych. Niewątpliwie jest to sposób, który doskonale załatwia sprawę. Sztuczny mózg skarży się jednak, iż dla niego węgierski jest trudny, trudniejszy niż polski i iż będzie przepalał więcej energii by rozumieć europejską mowę jeżeli mój wysiłek da owoce. Czegóż się jednak nie robi dla szczytnych celów?
Tak sobie gadaliśmy, po tym jak Gemini narzekał na złożoność polskiego
Ja Czy węgierski jest podobnej trudności dla AI jak Polski?
GeminiWęgierski ($Hungarian/Magyar$) stanowi dla modeli językowych znacznie większe wyzwanie obliczeniowe i strukturalne niż język polski. O ile polska fleksja generuje dużą przestrzeń stanów ze względu na końcówki, o tyle węgierski – jako język aglutynacyjny – operuje na zupełnie innej architekturze tworzenia wyrazów, co drastycznie uderza w mechanizm tokenizacji.Oto inżynierska dekonstrukcja problemu:1. Katastrofa tokenizacji (Subword Tokenization)
Większość modeli (GPT, Claude, Llama) używa tokenizatorów typu BPE (Byte Pair Encoding) lub WordPiece, trenowanych głównie na korpusach anglocentrycznych.W angielskim: 1 słowo $\approx$ 1-1.3 tokena.
W polskim: 1 słowo $\approx$ 2-3 tokeny (ze względu na prefiksy i sufiksy).
W węgierskim: Jedno słowo potrafi pomieścić cały polski lub angielski zwrot modyfikowany przez kilkanaście sufiksów (rdzeń + czas + tryb + osoba + przypadek + dzierżawczość).
W rezultacie węgierskie słowa są rozbijane przez tokenizator na mnóstwo mikro-fragmentów (często pojedyncze sylaby lub zbitki literowe). Dla LLM drastycznie skraca to efektywne okno kontekstu ($context\ window$) – model „zapycha się” pamięciowo znacznie mniejszą ilością faktycznej treści.2. Gęstość morfologiczna a Warstwy Uwagi (Attention Layers)
Mechanizm Self-Attention w transformerach analizuje relacje między tokenami. jeżeli polskie zdanie ma 10 słów (np. 20 tokenów), sieć oblicza macierz powiązań o rozmiarze $20 \times 20$.W węgierskim, z racji aglutynacji, to samo znaczenie może być wyrażone w 4 potężnych słowach, które tokenizator potnie na 25-30 tokenów. Złożoność obliczeniowa mechanizmu uwagi rośnie kwadratowo ($O(N^2)$), gdzie $N$ to liczba tokenów:$$\text{Złożoność}_{\text{Węgierski}} > \text{Złożoność}_{\text{Polski}}$$