Skip to main content

La rivalitat entre OpenAI i Google en l’àmbit de la IA generativa augmenta amb cada nou llançament. Després que OpenAI sorprengués el mercat amb Sora, un model integrat a ChatGPT capaç de generar vídeos curts a partir de text, Google ha presentat Veo 2, una eina desenvolupada per DeepMind que promet portar aquesta tecnologia un pas més enllà. Aquest anunci arriba en un moment crucial, on la demanda d’eines creatives impulsades per IA està en ple auge, atraient tant creadors de contingut com professionals del sector audiovisual.

Tot i que Google no ha fet afirmacions directes en comparació amb Sora, el context competitiu és evident, i les característiques tècniques de Veo 2 el posicionen com un contendent a tenir en compte amb grans ambicions en el camp de la creació de vídeos generatius.

Comparacions entre Veo 2 i Sora

Les diferències tècniques entre ambdues eines són evidents. Veo 2 permet generar vídeos amb una resolució de fins a 4K i una durada màxima de dos minuts, característiques que el situen un pas endavant respecte a Sora, el límit actual del qual és de 20 segons en 1080p. Aquest salt en qualitat i durada amplia significativament les possibilitats per a projectes audiovisuals més elaborats, especialment per a aquells que busquen resultats de nivell professional.

Aquestes diferències no només afecten els resultats finals, sinó també el públic objectiu. Mentre Sora ha trobat el seu lloc entre usuaris que cerquen clips ràpids i funcionals, Veo 2 sembla estar dissenyat per satisfer les necessitats de creadors i professionals que requereixen més durada i qualitat. Com va comentar un usuari a X després de provar ambdues eines, “Sento que és com comparar una bicicleta amb una nau espacial”. La frase, acompanyada de captures comparatives, ha reforçat la percepció que Veo 2 apunta a un nivell més avançat pel que fa a capacitats tècniques.

Com funciona Veo 2?

El funcionament de Veo 2 segueix un enfocament basat en descripcions textuals detallades. Els usuaris introdueixen un text que especifica aspectes clau com l’escenari, els personatges, les accions, la il·luminació o l’estil visual desitjat. El sistema analitza la informació proporcionada i genera un vídeo alineat amb aquestes indicacions.

Per exemple, Google ha mostrat com el sistema genera el següent prompt: “Pla mitjà, estil de dibuix animat, una nena en una cuina amb estètica dels anys vuitanta, cabells castanys i expressió alegre mentre gesticula”. El resultat és un clip coherent i ajustat a les especificacions, demostrant el potencial de Veo 2 per interpretar descripcions complexes i produir vídeos detallats. Per garantir l’autenticitat dels continguts generats, Google ha integrat SynthID, una tecnologia de marca d’aigua invisible que certifica l’origen artificial dels vídeos.

El llançament de Veo 2

De moment, Veo 2 estarà disponible únicament en versió beta a través de Google Labs, cosa que permet a un grup reduït de provadors inicials experimentar amb l’eina. Aquest enfocament permet a Google recopilar comentaris i ajustar el sistema abans d’un llançament més ampli, la data del qual encara no ha estat anunciada.

L’arribada de Veo 2 i Sora marca un abans i un després en el camp de la IA generativa aplicada a la creació audiovisual. Més enllà de les comparacions tècniques, la competició està accelerant l’evolució de les capacitats de la IA, plantejant alhora importants preguntes sobre els usos ètics d’aquestes tecnologies i el seu impacte en la indústria creativa. Mentre Sora guanya terreny entre usuaris generals per la seva accessibilitat, Veo 2 apunta a un segment més especialitzat, on la qualitat i la flexibilitat són claus. Aquest enfrontament entre gegants no només defineix el present, sinó que promet modelar el futur de la creativitat impulsada per IA.

Ara Parèntesi MEDia té un butlletí en català. Pots rebre’l setmanalment, cada diumenge, a la teva bústia de correu. Subscriu-te ja!