SkMTEB: Prvý benchmark pre slovenské embeddingy

SkMTEB — prvý komplexný benchmark pre textové embeddingy v slovenčine — bol prijatý na ACL 2026, jednu z najvýznamnejších svetových konferencií v oblasti spracovania prirodzeného jazyka. Benchmark pokrýva 31 datasetov naprieč 7 typmi úloh a prináša štandard porovnateľný s MTEB pre angličtinu. Za prácou stojí tím z Kempelenovho inštitútu inteligentných technológií (KInIT), Technickej univerzity v Košiciach (TUKE) a Univerzity Komenského v Bratislave (UK) spolu s ďalšími partnermi slovenského AI ekosystému.

SkMTEB je dôležitý medzník nielen pre samotný benchmark, ale pre slovenské NLP ako celok. Doteraz neexistoval spoľahlivý spôsob, ako porovnať, ktoré modely naozaj rozumejú slovenčine — SkMTEB tento nedostatok rieši a dáva vývojárom, firmám aj verejnej správe štandardizované meradlo.

Benchmark pokrýva 31 datasetov naprieč 7 typmi úloh vrátane vyhľadávania, sémantickej podobnosti, klasifikácie, klastrovania a ďalších. Pre porovnanie: multilinguálny MMTEB pokrýval slovenčinu len 8 datasetmi — SkMTEB predstavuje takmer štvornásobné rozšírenie.

Súčasťou výskumu sú aj dva nové modely — e5-sk-small (45M parametrov) a e5-sk-large (365M) — ktoré vznikli orezaním slovníka a fine-tuningom na slovenských dátach. Napriek výraznému zmenšeniu dosahujú výsledky porovnateľné s proprietárnymi API modelmi. Oba modely bežia lokálne na bežnom hardvéri bez odosielania dát tretím stranám — čo má praktický význam najmä pre verejnú správu, zdravotníctvo a firmy pracujúce s citlivými údajmi. Menší z nich je natoľko nenáročný, že dokáže bežať priamo vo webovom prehliadači.

Benchmark, modely aj kód sú dostupné open-source:

📄 Vedecký článok

💻 Kód a benchmark

🤗 Modely

🌐 Prehľad benchmarku