Több mint egy év telt el azóta, hogy az OpenAI először bejelentette a Sora modellt, amely egyszerre volt képes videó- és hanggenerálásra. Most elérkezett az első igazán nagy frissítés, melyet jól mutat az is, hogy Sora 2 név alatt mutatták be. Az új modell látványos előrelépést ígér a realizmusban, a fizikai pontosságban, valamint a felhasználói kontrollban és szerkesztési lehetőségekben.
Az OpenAI a frissítést saját szavaival „GPT 3.5-pillanatként” írta le, utalva arra, hogy hasonló mértékű ugrást jelent a videómodellek világában. A Sora 2 egyik legfontosabb újdonsága a jelentősen javított hangkimenet: a generált videókhoz immár szinkronizált párbeszédek és valósághű hanghatások társulnak. Emellett a modell képes elkerülni azokat a tipikus hibákat, amelyek a korábbi AI-videóknál sokszor jelentkeztek, például a tárgyak torzulását vagy a fizikai törvényszerűségek figyelmen kívül hagyását.
A Sora 2 a több snittes utasításokat is követni tudja, vagyis konzisztensen megjeleníti ugyanazokat a karaktereket és elemeket több jeleneten keresztül. A felhasználók többféle videóstílus közül választhatnak – legyen szó realisztikus, filmes vagy akár anime-hatású anyagokról. A bemutatóval párhuzamosan az OpenAI elindította a Sora önálló iOS alkalmazását is, egyelőre meghívásos alapon. Fontos változás, hogy szigorúbb biztonsági korlátozások kerültek bevezetésre. Így például a közszereplők videókban való felhasználása tiltott, ugyanakkor a felhasználók engedélyt adhatnak másoknak, hogy „cameo” szereplőként megjelenítsék őket.
A Sora 2 bevezetése nemrég indult, elsőként az Egyesült Államokban és Kanadában. Az induláskor a szolgáltatás ingyenes lesz, „nagylelkű limitekkel”, hogy a felhasználók nyugodtan felfedezhessék a lehetőségeit. A ChatGPT Pro előfizetők külön előnyt kapnak: számukra elérhetővé válik a még fejlettebb Sora 2 Pro modell. Emellett az OpenAI megerősítette, hogy a közeljövőben API formájában is elérhető lesz, ami új távlatokat nyithat a fejlesztők számára.