Le a kalappal: magyar nyelven is működő MI-szövegfelismerőt fejlesztetett az SZTE hallgatója
Egyre nehezebb megmondani, hogy egy beadandót, cikket, posztot vagy akár egy álláspályázatot ember írt-e vagy a mesterséges intelligencia alkotta. Miközben az angol nyelvű AI-detektorok gombamód szaporodnak, magyar nyelven eddig nem igazán volt megbízható megoldás. Ezen változtatna most Kiss Mihály, SZTE-s hallgató fejlesztése.
Mint az egyetemtől megtudtuk, Kiss Mihály, az SZTE programtervező informatikus mesterszakos hallgatója olyan magyar nyelvű AI-szövegfelismerőt hozott létre, amely a tesztek alapján kiemelkedően pontosan képes megkülönböztetni az ember által írt és a nagy nyelvi modellek által generált szövegeket. A projekt elnyerte az SZTE Hallgatói Innovációs Díját is.
EGYRE TÖBBEN HASZNÁLNAK ILYEN ESZKÖZÖKET
A SZTE szerint a fejlesztés ötlete 2023 közepén született meg, amikor a ChatGPT és más nagy nyelvi modellek látványosan elkezdtek beszivárogni a köztudatba.
„Egyre többen használják ezeket az eszközöket, és hosszú távon ez biztosan problémát jelent majd az oktatásban és azon túl is”
– mondja a fejlesztő. Innen indult az a kutatás, amely mára egy önálló, magyar nyelvre optimalizált AI-detektorhoz vezetett. „Manapság még működni tudnak ezek a felismerő modellek, mert a nagy nyelvi modellek hagynak lábnyomokat maguk után, nem adaptálódtak teljesen az emberi íráshoz. Angolul sem igazán, de magyar nyelven meg végképp nem ” – teszi hozzá.
350 EZER SZÖVEGBŐL ÁLLÓ ADATHALMAZT HOZOTT LÉTRE
Nem azért nem létezett korábban minőségi AI-detektor magyar nyelvre, mert az “bonyolultabb”, mint az angol, hanem mert nincs hozzá megfelelő adat. Míg angol nyelven hatalmas, jól tisztított tanítóadatbázisok állnak rendelkezésre, magyar szövegekből ilyen korábban nem létezett. Kiss Mihály ezért több mint 350 ezer szövegből álló adathalmazt hozott létre: irodalmi művekből, szakdolgozatokból, cikkekből, fórumokról, közösségi médiából és általános internetes forrásokból. A cél az volt, hogy a rendszer valódi, sokféle nyelvhasználattal találkozzon, ne csak „tankönyvi” példákkal.
NEM TARTALMAT GENERÁL, HANEM DÖNTÉSEKET HOZ
Noha a felismerés is AI-alapú megoldásra épül, az architektúrája alapján nem tartalmat generál, hanem döntéseket hoz. A megoldás egy encoder alapú modellt használ, amelyek kifejezetten osztályozási feladatokban erősek, hasonlóan ahhoz, ahogyan egy spam-szűrő működik. A szöveget egy magas dimenziós térben reprezentálja, majd megbecsüli, mekkora eséllyel készült mesterséges intelligenciával. A felhasználó így végül egy százalékos értéket kap: mennyire valószínű, hogy a szöveg AI-generált. Az eszközt bárki használhatja, napi három detektálás teljesen ingyenes, akár egy Facebook-poszt szövege is kielemezhető egy pillanat alatt. Kiemelték, hogy különösen fontos a nagyon alacsony fals pozitív arány az eszköz használata közben: a rendszer ritkán mondja emberi szövegre azt, hogy AI írta, ami az oktatásban kulcskérdés, hiszen veszélyes lenne azzal gyanúsítani egy hallgatót, hogy beadandóját a mesterséges intelligencia írta, miközben ez nem igaz.

NEM TILTANI, HANEM ÉRTENI KELL
A fejlesztő szerint az AI használata nem kerülhető meg, de nem is kell démonizálni. „A cél nem az, hogy betiltsuk, hanem hogy tudjuk, mikor és hogyan használták” – fogalmaz Kiss Mihály. Bár az elsődleges felhasználók az oktatás szereplői lehetnek, nemcsak egyetemi környezetben lehet hasznos az eszköz: a médiában, szerkesztőségekben, könyvkiadóknál is használhatják, egyrészt minőségellenőrzési céllal, ha felmerül az AI-használata akkor egyfajta fake news detektorként is felfogható, mivel ezek a nagy nyelvi modellek sokszor hallucinálnak hamis információkat. Használhatják jogi területek, ahol egy AI által generált, pontatlan szöveg komoly kockázatot jelenthet, de akár HR-részlegek is alkalmazhatják az AI eszközzel írt jelentkezések megjelölésére. A hasznosítása tehát szinte bárhol elképzelhető, ahol szövegekkel, dokumentumokkal foglalkoznak.
HAMAROSAN ELINDULHAT A RENDSZER
Az SZTE Hallgatói Innovációs Díja fontos visszajelzés volt Kiss Mihály számára. Úgy látja, az egyetemek lehetnek a rendszer legfontosabb felhasználói, és a jövőben szívesen működne együtt felsőoktatási intézményekkel. A fejlesztés jelenleg is zajlik, az éles indulást 2026 elejére tervezi. Hosszabb távon további funkciók és akár más nyelvek bevonása is szóba kerülhet – elsőként a környező országok nyelvei – írja az egyetem közleményében.

Fotók: SZTE NKI/Sahin-Tóth István



