Slovenský NLP benchmark smeruje na ACL
SkMTEB - prvý komplexný benchmark pre textové embeddingy v slovenčine - bol prijatý na ACL 2026. Benchmark pokrýva 31 datasetov naprieč 7 typmi úloh a prináša štandard porovnateľný s MTEB pre angličtinu.
SkMTEB, prvý komplexný benchmark pre hodnotenie textových embeddingov v slovenčine, bol prijatý na konferenciu ACL 2026. Je to dôležitý medzník nielen pre samotný benchmark, ale pre slovenské NLP ako celok.
Benchmark pokrýva 31 datasetov naprieč 7 typmi úloh vrátane vyhľadávania, sémantickej podobnosti, klasifikácie, klastrovania a ďalších. Pre porovnanie: multilinguálny MMTEB pokrýval slovenčinu len 8 datasetmi – SkMTEB predstavuje takmer štvornásobné rozšírenie.
Súčasťou výskumu sú aj dva nové modely – e5-sk-small (45M parametrov) a e5-sk-large (365M) - ktoré vznikli orezaním slovníka a fine-tuningom na slovenských dátach. Napriek výraznému zmenšeniu dosahujú výsledky porovnateľné s proprietárnymi API modelmi a môžu bežať lokálne.
Benchmark, modely aj kód sú dostupné open-source na HuggingFace a GitHube.