Személyes eszközök
Ön itt áll: Főoldal Eszközök Offline magyar adatbázisok

Offline magyar adatbázisok

 

Szeged Korpusz 2.0, Szeged Treebank 2.0
Fejlesztő: SZTE Infromatikiai Tanszék
Szófajilag egyértelműsített magyar természetesnyelvi adatbázis illetve magyar természetes nyelvi adatbázis teljes szintaktikai elemzéssel.

Magyar Webkorpusz

Fejlesztő: BME MOKK

Több mint 1,48 milliárd szóval (szűretlenül, illetve 589 millió megszűrt szóval) ez jelenleg a legnagyobb magyar nyelvű korpusz, mely teljes méretében elérhető Open Content licensz alatt.

Hunglish korpusz

Fejlesztő: BME MOKK, MTA Nyelvtudományi Intézet

A Hunglish korpusz egy szabadon felhasználható mondatszinten illesztett angol-magyar párhuzamos korpusz, mely 2,07 millió mondatban 54,2 millió szót tartalmaz.

Morphdb.hu

Fejlesztő: BME MOKK

A morphdb.hu egy magyar lexikai adatbázis és morfológiai nyelvtan.

Magyar referencia beszéd adatbázis (MRBA)
Fejlesztő: BME TMIT Beszédakusztikai Laboratórium
A Magyar Referencia Beszédadatbázist (MRBA) a BME TMIT Beszédakusztikai Laboratóriuma és a szegedi SZTE Informatikai Tanszékcsoport együttműködésben hozta létre. A cél egy olyan, olvasott folyamatos szöveget tartalmazó beszédadatbázis létrehozása volt, amely alkalmas PC-s beszédfelismerõk betanítására, tesztelésére. Az adatbázis szöveganyagát úgy terveztük meg, hogy az adatbázisba bekerülõ mondatokban a felismerõrendszerekben tipikus felismerési egységek (beszédhangok, difón, trifón egységek) elegendõen sokszor forduljanak elõ. A mondatok mellett fonetikailag gazdag szavakat is kiválasztottunk, a nem kellõ számban elõforduló beszéd-hangok példányszámának növelése érdekében. Így a 332 adatközlõ fejenként 12 kü-lönbözõ mondatot és 12 különbözõ, a mondatoktól független szót olvas fel.

Magyar nyelvű telefon beszéd adatbázis (MTBA)
Fejlesztő: BME TMIT Beszédakusztikai Laboratórium
Ez a magyar nyelvű, telefonon keresztül rögzített beszédadatbázis (MTBA rövidítéssel) a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Telematikai Tanszékén (Beszédakusztikai Laboratórium) készült a Szegedi Tudományegyetem Számítástudományi Tanszékének együttműködésével. Szerkezete az MLAP LRE-63343 SPEECHDAT (M) EU projekt javaslatát követi. Az adatbázis 500 magyar nyelvű beszélõ hanganyagát tartalmazza, ezekbõl 297 vezetékes, 203 pedig mobil telefon felvétel.

Dokumentummal kapcsolatos tevékenységek