Katalóg

Prehľad datasetov, modelov a nástrojov pre spracovanie slovenského jazyka.

Katalóg slúži ako centrálne miesto, kde nájdeš existujúce zdroje pre slovenčinu a využiješ ich pri výskume alebo vývoji.

Obsah priebežne aktualizujeme v spolupráci s komunitou.

ALOIS-DB

Dataset
Spolupracovali:
Modalita
Reč/audio
Obmedzený prístup

EWA-DB

Dataset
Spolupracovali:
Modalita
Reč/audio
Jazyk
sk
Obmedzený prístup

Chiby

Dataset
Spolupracovali:
Modalita
Text
Jazyk
sk

FineWeb2 Slovak

Dataset
Spolupracovali:
KInIT

Licencia: ODC-BY 1.0

Modalita
Text
Doména
general
Jazyk
sk
Open-source

Zoznam slovenských zdrojov

Tool
Spolupracovali:
SlovakNLP Community
Modalita
Iné
Jazyk
sk

E5-sk-large

Model
Modalita
Text
Úloha
Text Embedding
Jazyk
sk

E5-sk-small

Model
Modalita
Text
Úloha
Text Embedding
Jazyk
sk

SlovakBERT

Model
Spolupracovali:
KInIT
Gerulata

Licencia: MIT

Modalita
Text
Úloha
Fill-Mask
Jazyk
sk
Open-source

Slovník slovenských pojmov

Tool
Spolupracovali:
KInIT
Modalita
Text
Jazyk
sk

Chýba tu tvoj dataset, model alebo nástroj?