Azahriah és Szoboszlai titokzatos MI klipje

Amikor Azahriah és Szoboszlai Dominik közös klipje felrobbantotta az internetet, senki sem sejtette, hogy valójában egy rejtélyes zseni, „A Frontember” agyszüleményéről van szó, aki mesterséges intelligenciát vetett be a projektben. Több mint egymillió TikTok nézettség, és száz ezrek a YouTube-on – de vajon hogyan?


Az RTL-nek adott, maszkban és eltorzított hangon történt interjúban „A Frontember” elárulta, hogy a projekt, amit „Full of Stars” (FOS) néven említ, egy kísérleti vállalkozás volt, amely új dimenziókat nyitott meg a zeneiparban. A valódi nevét nem árulta el, mondván, hogy ez sokakat megbotránkoztathatna. De ki lehet ez a rejtélyes alak? Egy ismert zenei producer? Egy titkos zenei zseni?

A klip elkészítése során a csapat saját szövegeket írt és dalokat vett fel, majd a mesterséges intelligencia segítségével alakították a hangokat, hogy Szoboszlai és Azahriah hangszínére hasonlítsanak. Elképesztő, nem igaz? De vajon milyen technológiát használtak pontosan? És hogyan sikerült ennyire hitelesen reprodukálniuk a két sztár hangját?

Az MI technológia, amit használtak, nagyon leegyszerűsítve olyan, mint egy szuperokos számítógép, ami képes hangokat utánozni. Először megtanulja, hogy Azahriah és Szoboszlai milyen hangon énekelnek, majd ezeket a hangokat utánozza vagy „rajzolja” újra. Ezt olyan fejlett számítógépes programokkal csinálják, amelyek képesek megtanulni és utánozni különböző hangokat.

A klip még további előadók világos: a szórakoztató. Ez az eset nagyon izgalmas lehet a zenei világ számára. Először is, megmutatja, hogy mennyire kreatív lehet a zene készítése a jövőben az MI segítségével. De „A Frontember” kijelentései felvetnek komoly kérdéseket a mesterséges intelligencia használatának etikájáról a zeneiparban. Lehet, hogy ez az eset precedenst teremt, és megváltoztatja a zeneipart?

Ugyanakkor felvetődik a kérdés, hogy vajon rendben való-e így használni valakinek a hangját anélkül, hogy ő beleegyezne. dr. Albert Ágota LL.M. Mesterséges intelligencia és technológiai szakjogász, adatvédelmi tisztviselő szerint több szempontból is aggályos lehet ez a történet.

A klip számtalan kérdést generál mind a mesterséges intelligencia etikus használata, mind különböző jogi területeken (pl. személyiségi jog, szerzői jog, adatvédelem stb.). Kezdjük az egyszerűbbnek tűnővel, az adatvédelemmel. Vajon hozzájárultak a szereplők, hogy az ő személyes adatuk, azaz a hangjuk a mesterséges intelligencia tanító adata legyen? Vajon a hanggeneráló szoftver ezek után elfeledi a két híres ember hangját, vagy a világban bárhol bárki ezeket a hangokat (hangszíneket) újra felhasználhatja épp aktuális hangulata és célja szerint? Vajon kié a felelősség, ha a kliphez igénybe vett mesterséges intelligencia modell (jelen esetben a kits.ai) a szereplők tanuló adattá vált hangját legközelebb bombariadós üzenethez ajánlja fel?

Vajon ez a generált hang a két személy személyes adata, azaz információs önrendelkezési joguk alapján joggal léphetnek fel az ilyen típusú személy adat „felhasználás” ellen, vagy ezek az adatok már „elszabadultak”, és semmi közük az eredeti személyekhez, azaz nem minősülnek azok személyes adatának? Az is elképzelhető, hogy ezek az MI-hangok a generálásra utasítást adó, és a hangot szerkesztő-felhasználó személy „személyes adatai”, és egyben az ő cselekvésének, önkifejezésének és kreativitásának eredménye, mint egyfajta „műalkotás”. De mi van akkor, ha valaki nem vájtfülű, vagy nem minőségi technikával hallgatja a klipet, és azt hiszi, az eredeti szereplőket hallja? Ez vajon már az ő személyes adatukká teszi a gépi hangot? Nem véletlen, hogy a mesterséges intelligencia használatára vonatkozó rendelettervezet azt javasolja, a befogadó legyen tudatában annak, hogy MI-termékkel áll szemben. Különösen igaz ez a deepfake technológiára. A tervezet alapján a deep fake az MI által generált vagy manipulált kép, audio- vagy videó tartalom, amely hasonlít létező személyekre, tárgyakra, helyekre, entitásokra vagy eseményekre, és amely egy személy számára megtévesztő módon autentikusnak vagy valóságosnak tűnne. Az olyan MI-rendszerek alkalmazóinak, amelyek eredetinek vagy valóságosnak tűnő („deepfake”) kép-, hang- vagy videó tartalmat hoznak létre vagy manipulálnak, közölniük kell, hogy a tartalmat mesterségesen hozták létre vagy manipulálták. Amennyiben a tartalom nyilvánvalóan művészeti, kreatív, szatirikus, fiktív vagy hasonló mű vagy program részét képezi, ez a közlési kötelezettség az ilyen létrehozott vagy manipulált tartalom meglétének megfelelő, a mű megjelenítését vagy élvezetét nem akadályozó közlésére korlátozódhat.

Ezen YouTube klip elején erre semmi utalás sincs a deepfake-re, azaz olyan képzetet kelthet a nézőben, hogy minden eredeti. Csak a klip alatti cím zárójeles, angol nyelvű része utal az alkalmazott technológiára („AI VOICES”). A klip alatti leírásban megtalálható, hogy „a feldolgozásban Azahriah és Szoboszlai Dominik mesterséges intelligencia által szimulált hangja hallható, valójában nem ők készítették a felvételt, nem valós közreműködésről van szó! A zene és a szöveg viszont nem mesterséges intelligencia műve, valódi személyek írták és vették fel. Az AI-al csupán a rögzített hangok lettek Azahriah és Szoboszlai hangszínére formálva.” Azt azonban nem tünteti fel a közzétevő, hogy a két híres személy egyetértett-e ezzel a művel, annak tartalmával és minőségével, illetve tudatában voltak-e annak, ez a klip milyen következményekkel járhat számukra. A kommentelők közül az egyik például egyenesen azt követeli, hogy „Ha van esze Azahriah-nak, megveszi a szöveget, meghívja Szoboszlait és megcsinálják Magyarország legmenőbb, leghallgatottabb dalát”, míg másik hozzászóló szerint „ez akár lehet egy induló is a válogatottnak az EB-re”. Kérdés, az eredeti szereplőknek volt-e ilyen irányú szándéka, és ha nem, vajon hogyan érintené őket, ha emiatt nyakukba ömlene valamiféle „népharag”.

Az is felmerülhet a klip nézőjében, vajon mennyiben etikus egy sok év munkával kidolgozott egyéni stílus, és nem utolsó sorban egy saját jogon népszerű (YouTube: 46 millió megtekintés), szerzői jogvédett alkotás felhasználása-átalakítása mesterséges intelligenciával, felhasználva az eredeti szereplők tehetségét és hírnevét? Vajon rontja, vagy javítja az „emberi” szereplők presztízsét ez a MI-klip? A nézők vajon tudják, ki az eredeti szerző, kinek köszönhető a fülbemászó dallam? A kommentek alapján ez nem egyértelmű, az pedig nem igazán elvárható, hogy a nézők átböngészik a klip leírását. És vajon mit szól Azahriah, ha a saját hangszínét összehasonlítja a generált géphanggal? Tetszik neki, vagy felháborítja? Felmerül vajon benne, mikorra lesz képes az MI olyan szinten utánozni a hangját, hogy elhitethető lesz még a vájt fülűekkel is, ő énekel? És vajon Szoboszlai Dominik szeretett volna Azahriah-kal egy klipben szerepelni, és meg van elégedve a reppelésével?

Nem utolsó sorban, vajon mennyire etikus MI-használat az, amikor valaki más népszerűségét forintosítja? Nem tudjuk, az új alkotás mekkora üzleti értéket képvisel, mennyi bevételt eredményez az alkotójának azokon a platformokon, amelyek a kattintások számát jutalmazza (YouTube 3,7 millió megtekintés), miközben a kommentekből azt is megtudhatjuk, „Erdélyben már a rádióban is szól”. Különösen úgy, hogy a mű alkalmas a kevésbé odafigyelő felhasználókat megtéveszteni. Azt sem tudjuk, hogy a bevételből bármit is kíván-e a „szerző” az eredeti mű alkotóinak juttatni, ha már ily módon felhasználta azt.

Az azonban bizton állítható, hazánkban is megjelent az MI olyan használata, amely számos kérdést vet fel, és a közeljövőben számtalan etikai és nem utolsó sorban vitát fog gerjeszteni, amelyek egy része valószínűleg az adatvédelmi hatóságon és a bíróságokon fog kiteljesedni.