« Vissza

Mi az a generatív mesterséges intelligencia? Hogyan működik?

Informatikai alapok

Amit sokan ChatGPT vagy Google Gemini néven emlegetnek, azt a szakemberek jobban szeretik gyűjtőnéven generatív mesterséges intelligenciaként említeni. Ez ugyanis a technológia hivatalos megnevezése, de annyi hasonló fogalommal találkozunk az utóbbi időben, hogy érdemes rendet tenni a kifejezések között. 

Ehhez persze meg lehet kérdezni a ChatGPT-t és riválisait – mi is megtettük –, de sokkal inkább támaszkodunk a Backlinko szakértői összefoglalójára.

 

Mi az a generatív mesterséges intelligencia?

 

„A generatív mesterséges intelligencia olyan mesterséges intelligencia, amely képes új tartalmakat létrehozni. Ezek lehetnek szövegek, képek, zenék, videók, kódok vagy akár 3D modellek is. A generatív mesterséges intelligencia az adatok elemzése és tanulása alapján alkot valami újat, nem csupán meglévő minták felismerésére és osztályozására képes” – ezt válaszolja a ChatGPT.

Annyival egészítenénk ki, hogy a tartalom generálása során az emberi intelligencia folyamatait próbálja utánozni. Ez már csak azért is nélkülözhetetlen, mert a tartalom generálásához emberi kér(d)ésekre van szükség, amelyet a számítógépes programnak tudnia kell értelmezni.

 

Hogyan működik a generatív mesterséges intelligencia?

 

A generatív mesterséges intelligencia meglévő és betáplált tudásanyagokat használ fel az alábbi folyamattal.

A felhasználó kér(d)ést ír a “kereső” rubrikába. Például ha egy webshop termékeihez szeretnénk leírást generálni, akkor megadjuk, hogy milyen termékhez milyen hosszúságú szöveg szükséges, leírjuk a termék jellemzőit és előnyeit, illetve jelezzük, hogy milyen stílusú legyen a szöveg. Ezt szokták “prompt” néven emlegetni.

A “prompt”, vagyis a parancs megadása után a program gép tanulási modelleket kezd használni a betáplált tudásanyaggal, amely több milliárd könyv információjának is megfelelhet. Mindezt a tudásanyagot másodpercek alatt átfésüli, és közben folyamatosan írja a szöveget vagy készíti a kódot.

A generatív mesterséges intelligenciát arra trenírozzák, hogy a tudásanyag összetevői mellett a struktúráit is megtanulják, így tudnak olyan szövegeket alkotni, amelyek gyorsan és könnyen értelmezhetők az emberek számára.

A tartalom generálása többnyire az alábbi 3 modell valamelyike alapján történik:

Nagy nyelvi modellek (LLM): Olyan algoritmusok, amelyek nagy adathalmazokat használnak a tartalom következő kimenetének (tehát szavának) előrejelzésére. Ezt a folyamatot élőben is látjuk, amikor szóról szóra halad a ChatGPT a generált szöveggel.

Generatív ellenséges hálózat (GAN): Mélytanulási modell, amelyet főként képek és hangok előállítására használnak. Két neurális hálózatból áll, amelyek egymással versengenek (innen az „ellenséges” elnevezés). A Generátor feladata, hogy valósághű adatokat hozzon létre a tanulási folyamat során, míg a Diszkriminátor megkülönbözteti a valódi adatokat a generátor által létrehozott hamis adatoktól.

Változatos autoenkóder (VAE): Neurális hálózati rendszerek mélytanulási modellje, vizuális tartalmak és kódok létrehozásához. Ez is 2 részből áll: a Kódoló a bemeneti adatokat (pl. egy képet) egy latens térben lévő eloszlás paramétereivé alakítja – ez azt jelenti, hogy nem egyetlen fix kóddá tömöríti az adatokat, hanem egy eloszlást tanul meg. A Dekódoló az így kapott eloszlásból véletlenszerűen vesz mintát, majd ebből visszaalakítja az adatokat új, hasonló, de nem teljesen azonos adatokká.

Kapcsolódó cikkek