A ChatGPT lejárt lemezzé válhat - jön az új kihívó

Elemzések2024. márc. 17.Növekedés.hu

A SEA-LION nagy nyelvi modell Délkelet-Ázsia nyelvi és kulturális sokszínűségének kiszolgálására épült, amelyet jelenleg a meglévő, többnyire nyugati eredetű modellek nem tudnak kielégíteni - írja elemzésében Klemensits Péter, az Eurázsia Központ vezető kutatója.

A nagy nyelvi modellek (Large Language Models, LLM) az emberi nyelv megértésére és generálására tervezett mesterséges intelligenciamodellek egy típusa. Működésük hatalmas mennyiségű szöveges adatok megismerésén alapszik, és számos feladatot képesek elvégezni, például fordítást, összegzést, kérdések megválaszolását és akár kódírást is.

De a meglévő LLM-ek erős elfogultságot mutatnak a kulturális értékek, politikai meggyőződések és társadalmi attitűdök tekintetében. Ez a képzési adatoknak köszönhető, különösen az internetről származó adatoknak, amelyek gyakran aránytalanul nagy befolyást gyakorolnak a nyugati, iparosodott, gazdag, művelt és demokratikus társadalmakra.

A technológiai szakértők figyelmeztetnek, hogy a világ más térségeiből származó emberek emiatt hátrányban vannak, mivel a generatív mesterséges intelligencia világszerte átalakítja az oktatást, a munkát és a kormányzást. Délkelet-Ázsia, mint régió, több mint 600 millió lakosával, alulreprezentált az eddig kidolgozott LLM-ekben.

Az előrejelzések szerint viszont a térség digitális gazdasága 2030-ra várhatóan 300 milliárd dollárról közel 1 milliárd dollárra nő. Éppen ezért egy a szingapúri kormány által vezetett kezdeményezés célja, hogy orvosolja ezt az egyensúlyhiányt egy délkelet-ázsiai LLM-mel, amely az első a SEA-LION – Southeast Asian Languages in One Network – nevű modellcsaládban, és amely a régió nyelvére és kulturális normáira épül.

A 11 délkelet-ázsiai nyelven, köztük vietnámi, thai és indonéz nyelven készült adatokon képzett, nyílt forráskódú modell olcsóbb és hatékonyabb megoldást jelent a régió vállalkozásai, kormányai és tudományos intézményei számára. Az Infocomm Media Development Authority (IMDA) együttműködik az AI Singapore és a Tudományos, Technológiai és Kutatási Ügynökséggel (A*Star), hogy a következő két évben elindítsa a Nemzeti Multimodel LLM programot.

Ez a 70 millió dolláros kezdeményezés, amelyet a Nemzeti Kutatási Alapítvány finanszíroz, hozzájárul Szingapúr képességeihez a mesterséges intelligencia kutatás és innováció terén.

A technológiai önállóság védelme

Több mint 7000 nyelvet beszélnek világszerte. Mégis az olyan LLM-eket, mint az Open AI GPT-4 és a Meta Llama 2, amelyeket mesterséges intelligencia rendszerek, például chatbotok és más eszközök létrehozására használnak, nagyrészt az angol nyelvre fejlesztették ki, és azon képezték ki őket.

A kormányok és a technológiai cégek igyekeznek áthidalni ezt a szakadékot: India helyi nyelven készít adathalmazokat, az Egyesült Arab Emírségekben egy LLM generatív AI-eszközöket működtet arab nyelven, Kínában, Japánban és Vietnámban pedig helyi nyelvű AI-modelleket. 

Nuurrianti Jalli, az Oklahomai Állami Egyetem kommunikációs iskolájának adjunktusa szerint ezek a modellek segíthetnek a helyi lakosságnak abban, hogy egyenlőbb módon vehessen részt a globális AI-gazdaságban, amelyet nagyrészt a nagy techcégek uralnak. „A regionális LLM-ekre azért is szükség van, mert támogatják a technológiai önállóságot” – mondta.

Az ellenőrzés jelentősége

A többnyelvű nyelvi modellek, amelyeket egyszerre több nyelv szövegén képeznek ki, a kutatók szerint képesek szemantikai és nyelvtani kapcsolatokat levezetni a több adattal rendelkező, magas forrásértékű nyelvek és az alacsony forrásértékű nyelvek között.

Ezek a modellek számos alkalmazásban felhasználhatók a fordítástól az ügyfélszolgálati chatbotokon át a közösségi médiaplatformok tartalommoderálásáig, amelyeknek nehézséget okoz a gyűlöletbeszéd azonosítása az olyan alacsony forrású nyelveken, mint a burmai vagy az amhara. Teo szerint a SEA-LION adatainak mintegy 13 százaléka délkelet-ázsiai nyelvekből származik – ez több, mint bármely más nagy LLM esetében.

Az adatok több mint 9 százaléka kínai szövegből származik, és körülbelül 63 százaléka angolból. „Az érintetlen adatok kora lejárt – az interneten található anyagok nagy része ma már LLM-ek által generált anyag, ezért ellenőriznünk és szűrnünk kell – nyilatkozta.

Teo szerint egyre több kormány bocsátja rendelkezésre az adatokat, és a vállalkozások is tesztelik a SEA-LION-t, amely kisebb mérete miatt gyorsabban bevezethető, miközben olcsóbb is.