Offline magyar adatbázisok
Szeged Korpusz 2.0, Szeged Treebank 2.0
Fejlesztő: SZTE Infromatikiai Tanszék
Szófajilag egyértelműsített magyar természetesnyelvi adatbázis illetve magyar természetes nyelvi adatbázis teljes szintaktikai elemzéssel.
Fejlesztő: BME MOKK
Több mint 1,48 milliárd szóval (szűretlenül, illetve 589 millió megszűrt szóval) ez jelenleg a legnagyobb magyar nyelvű korpusz, mely teljes méretében elérhető Open Content licensz alatt.
Fejlesztő: BME MOKK, MTA Nyelvtudományi Intézet
A Hunglish korpusz egy szabadon felhasználható mondatszinten illesztett angol-magyar párhuzamos korpusz, mely 2,07 millió mondatban 54,2 millió szót tartalmaz.
Fejlesztő: BME MOKK
A morphdb.hu egy magyar lexikai adatbázis és morfológiai nyelvtan.
Magyar referencia beszéd adatbázis (MRBA)
Fejlesztő: BME TMIT Beszédakusztikai Laboratórium
A Magyar Referencia Beszédadatbázist (MRBA) a BME TMIT Beszédakusztikai Laboratóriuma és a szegedi SZTE Informatikai Tanszékcsoport együttműködésben hozta létre. A cél egy olyan, olvasott folyamatos szöveget tartalmazó beszédadatbázis létrehozása volt, amely alkalmas PC-s beszédfelismerõk betanítására, tesztelésére. Az adatbázis szöveganyagát úgy terveztük meg, hogy az adatbázisba bekerülõ mondatokban a felismerõrendszerekben tipikus felismerési egységek (beszédhangok, difón, trifón egységek) elegendõen sokszor forduljanak elõ. A mondatok mellett fonetikailag gazdag szavakat is kiválasztottunk, a nem kellõ számban elõforduló beszéd-hangok példányszámának növelése érdekében. Így a 332 adatközlõ fejenként 12 kü-lönbözõ mondatot és 12 különbözõ, a mondatoktól független szót olvas fel.
Magyar nyelvű telefon beszéd adatbázis (MTBA)
Fejlesztő: BME TMIT Beszédakusztikai Laboratórium
Ez a magyar nyelvű, telefonon keresztül rögzített beszédadatbázis (MTBA rövidítéssel) a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Telematikai Tanszékén (Beszédakusztikai Laboratórium) készült a Szegedi Tudományegyetem Számítástudományi Tanszékének együttműködésével. Szerkezete az MLAP LRE-63343 SPEECHDAT (M) EU projekt javaslatát követi. Az adatbázis 500 magyar nyelvű beszélõ hanganyagát tartalmazza, ezekbõl 297 vezetékes, 203 pedig mobil telefon felvétel.