Utálták a szinkront, 30 éves korukra 111 milliárdot érő céget építettek belőle

Az ElevenLabs mesterséges hangjai annyira meggyőzőek, hogy még a legközelebbi hozzátartozóidat is megtévesztenék. A régióból érkezik az MI hangja: két 30-as lengyel, akik már milliárd dolláros vagyont építettek.

A szinkronizált filmek Lengyelországban borzalmasak. Egyetlen narrátor mondja fel az összes párbeszédet lélektelenül, enerváltan – akárcsak nagyon régen, ahogyan a magyar szinkron is működött. Nincs stáb. Nincs különbség a szereplők hangjai között. A fiatal közönség utálja is. „Kérdezd meg bármelyik lengyelt, azt fogja mondani, hogy szörnyű” – mondja Mateusz (Mati) Staniszewski, az ElevenLabs társalapítója.

„Gondolom, ez egy olyan kommunista berögződés, ami olcsó tartalomgyártási megoldásként megmaradt.”

Több ebből

A 23. órában vagyunk: mutatunk néhány példát, hogyan mossa össze végérvényesen a Google új MI-modellje a valóságot a fikcióval

Már indulásnál jobb volt a rendszerük, mint az Apple Siri

A Palantirnál dolgozva Staniszewski középiskolai barátjával, a szintén lengyel Piotr Dabkowskival, a Google mérnökével kezdett mesterségesintelligencia-projektekkel kísérletezni. Rájöttek, hogy egyik ötletük – egy különösen ígéretes, MI-alapú beszédcoach – megoldhatja a lengyel kultúra egyedi rémálmát: hogy Leonardo DiCaprio vagy Scarlett Johansson beszédét az egyre jobban kiöregedő lengyel narrátorok monoton mormolása nyomja el.

2022 májusára a két barát összeadta megtakarításait és felmondott, hogy teljes munkaidőben az ElevenLabsen dolgozzanak. Már induláskor fényévekkel jobb volt a text-to-speech (szövegből hangot) rendszerük, mint az Apple Siri vagy az Amazon Alexa robotikus hangjai.

Az ElevenLabs MI-hangjai ugyanis képesek örömre, lelkesedésre, nevetésre is.

2023 januárjában piacra dobták első modelljüket. Bármilyen szöveget képes volt felolvasni bármilyen hangon – akár a tiéddel, vagy ami aggasztóbb, hogy valaki másén. A kereslet azonnali volt. Az írók percek alatt készíthettek hangoskönyveket, a profi csomag 99 dollárról indul. YouTube-alkotók a videóikat más nyelvekre fordították az ElevenLabs segítségével, a modellek ma már 29 nyelven beszélnek.

A varsói és londoni központú startup szerződéseket kötött nyelvtanuló és meditációs appokkal, majd a HarperCollins és a német médiakonszern, a Bertelsmann is csatlakozott. „Egyértelmű volt, hogy ez a legjobb modell, mindenki ezt akarta polcról levenni” – mondja Jennifer Li, az Andreessen Horowitz befektetője, amely 2023 májusában egy 19 millió dollárnyi befektetési kört vezetve szállt be a csapatba. Egy évvel később az alapítókat beválogatták a Forbes európai 30/30-as listájára is.

Az ElevenLabs alapítói, Mati Staniszewski (balra) és Piotr Dabkowski. Fotó: Cody Pickens / Forbes

A befektetők nem ijedtek meg

Mások azonban baljós célokra használták a technológiát: világhírű emberek – például Donald Trump – hangján előadott, obszcén videójáték-verekedések, Emma Watson színésznő által „felolvasott” Mein Kampf, vagy Joe Rogan podcaster hangjával reklámozott csalások – mind-mind vírusként terjedtek a világhálón. A technológiában rejlő lehetőséget a csalók is hamar felfedezték: már több millió dollárt csaltak ki deepfake technikákkal, amikor közeli hozzátartozók hangját kezdték el hamisítani, és így csaltak ki pénzt a szeretteiktől.

Mindez nem ijesztette el a befektetőket. Az ElevenLabs eddig

több mint 300 millió dollárt (111 milliárd forintot) vont be, értékelése 2024 októberében 6,6 milliárd dollárra ugrott, így vált Európa egyik legértékesebb startupjává.

A 30 éves Staniszewski, aki CEO-ként dolgozik (nincsenek hagyományos titulusok), és a kutatásért felelős Dabkowski – szintén 30 éves – ma egyenként több mint 1 milliárd dolláros vagyonnal rendelkeznek a Forbes becslése szerint.

A cég 193 millió dolláros éves árbevételének mintegy fele olyan vállalatoktól érkezik, mint a Cisco, a Twilio vagy a svájci Adecco, amelyek ügyfélszolgálati hívásokat vagy állásinterjúkat automatizálnak az ElevenLabs segítségével. Az Epic Games a Fortnite karaktereit szólaltatja meg velük – beleértve Darth Vadert is. A bevétel másik fele youtuberektől, podcasterektől és szerzőktől jön, vagyis azoktól, akik az indulás óta használják a megoldást.

„Ha beszélsz velük, elképesztő, mennyire jók” – mondja Tom Coshow, a Gartner elemzője. Az ElevenLabs ráadásul nyereséges is. A Forbes számításai szerint az elmúlt 12 hónapban 116 millió dollár profitot termelt, ami 60%-os margint jelent.

A cég ma olyan óriásokkal versenyez, mint a Google, a Microsoft, az Amazon vagy az OpenAI – azért, hogy az MI „hangjává” váljon. Ez nem új terület: a technológiai cégek már tíz éve fejlesztenek beszédfelismerő és beszédgeneráló rendszereket. A Microsoft például melléktevékenységként kezelte, mégis 20 milliárd dollárt fizetett a tőzsdei Nuance felvásárlásáért 2022-ben. Az OpenAI 2024 októberében indította el saját beszédmodelljét, amely képes valós idejű beszélgetéseket adni a ChatGPT-nek.

Csakhogy az ElevenLabs 300 fős csapata nincs lemaradva.

A modellek olyan jók, hogy akár háromszoros árat is elkérhetnek, ahhoz képest, amennyiért a riválisok kínálják a technológiájukat.

Az igazi hangok pereltek

Az ElevenLabs tízezer rendkívül élethű hangot tartalmazó adatbázisa messze a legnagyobb, ma már olyan A listás színészek hangjai is szerepelnek benne, mint Michael Caine vagy Matthew McConaughey. Emellett megbízhatóbb is. A Labelbox nevű adattréning-startup hat vezető hangmodellt tesztelt felolvasási feladatokkal: az ElevenLabs feleannyi hibát vétett, mint legközelebbi vetélytársa, az OpenAI.

„Mi vagyunk az egyik ritka cég, amely megelőzi az OpenAI-t – nem csak beszédben, hanem beszéd-szöveg átalakításban és zenében is. Ez nagyon nehéz”

– mondja Staniszewski. A siker receptje egyszerű: egy kis létszámú, megszállott gépitanulási-csapat, amely egyetlen konkrét problémára fókuszál szűk költségkeretből (az első, 100 000 dolláros tréninget saját pénzből fizették). „Ha túl sok számítási kapacitásod van, elkényelmesedsz és nem okosan oldod meg a problémákat” – mondja Dabkowski.

De egy hangoskönyv-narrátorok által indított per egy másik összetevőre is rávilágíthat. Karissa Vacker és Mark Boyett – Amerikában népszerű hangoskönyv-hangok – azt állítják, hogy az ElevenLabs több ezer, szerzői jogi védelem alatt álló hangoskönyvet használt fel modelljei betanításához. Azt is mondják, hogy annyi művüket építette be a cég, hogy gyakorlatilag a hangjuk klónjai ElevenLabs-alapértelmezett hangopcióként jelentek meg. Az ügyet – amelyben az ElevenLabs tagadta a jogsértést – 2024 novemberében peren kívül rendezték.

A cég mára jóval érettebb működésre váltott. Feketelistára kerültek bizonyos hangok (többnyire politikusok és celebek), miután egy ElevenLabs-klón Joe Biden hangján próbált üzenetet terjeszteni a 2024-es demokrata előválasztás előtt. Az ElevenLabsnak ma már hét teljes állású moderátora van (plusz az MI), akik a visszaéléseket vadásszák. Az újonnan klónozott hangok immár hozzájárulási ellenőrzésen esnek át, és a cég ingyenes deepfake-detektort is kínál.

A hangmodellek hamarosan tömegtermékké válna

Staniszewski és Dabkowski azonban jóval túl akarnak lépni a hangokon. A pénzszűkében lévő alkotók és a költségérzékeny médiacégek jogdíjmentes háttérzenét akartak – ezért az ElevenLabs 2024 augusztusában előállt saját MI-zenegenerátorával. Nincs idő videót forgatni? Jövőre ElevenLabs-avatárok készítenek majd Sora-stílusú videókat (a Sora az OpenAI videós megoldása).

A legmerészebb tervük az, hogy minden MI-eszköz kezelését egyetlen platformra terelik. „Egy olyan rendszert építünk, amely lehetővé teszi hangalapú ügynökök létrehozását és zökkenőmentes működtetését” – mondja Staniszewski.

Persze ez rengeteg más startup útjába állítja őket, amelyek ugyanezt próbálják. Előnyük, hogy már a kezdetek óta nyereségesek, ám versenytársaik tőkeerősek, a nagy tech cégek pedig végtelen erőforrásokkal bírnak. Így muszáj folyamatosan innoválniuk. A hangmodellek hamarosan tömegtermékké válnak. Ha mások utolérik őket, a szeszélyes felhasználók – akik már most is nehezen nyelik le az ElevenLabs árait – könnyen továbbállnak.

Ahogy a cég túllép a hangokon, és az egyre számításigényesebb zene- és videómodellek felé mozdul, szüksége lesz a saját számítási infrastruktúrájának bővítésére is. Már 50 millió dollárt költöttek egy oregoni adatközpontra.

„Ha generációs MI-vállalatot akarsz építeni, skálázódni kell, és mi egy generációs MI-céget építünk”

– mondja Staniszewski.

Lengyelországban közben a narrátorok öregedő generációja még mindig dolgozik – legalábbis egyelőre. Dabkowski viszont nem felejtette el az ElevenLabs eredeti küldetését: új modellje szerinte képes lesz egy egész filmet egyetlen lépésben lefordítani és felmondani. „Az eredeti küldetésünket soha sem adtuk fel.”

The post Utálták a szinkront, 30 éves korukra 111 milliárdot érő céget építettek belőle appeared first on Forbes.hu.

Visited 1 times, 1 visit(s) today
Loading RSS Feed

Loading RSS Feed