El model genera fins a 2 segons, amb una resolució de 720p i a 24 fotogrames per segon a partir d’inferència en un sol pas
Seaweed APT ha presentat un nou model d’IA per generar vídeo. La novetat, en canvi, rau en el fet que per primera vegada aconseguiria generar vídeos gairebé en temps real. Aquest model promet generar 24 fotogrames per segon a una resolució de 720p en un sol pas d’inferència, cosa que significa que té una capacitat de processament molt eficient i està optimitzat per produir resultats en temps real o gairebé en temps real.
Innovacions clau i reptes tècnics
- Model Base: comença amb un model de difusió preentrenat, que és una tècnica popular per crear imatges i vídeos tot processant iterativament soroll fins a obtenir un resultat clar i detallat.
- Problema a Resoldre: els models de difusió tradicionals requereixen diversos passos per generar un vídeo, fet que pot ser lent i costós en termes computacionals.
- Entrenament Adversari: APT converteix el model de difusió en un generador d’un sol pas mitjançant una tècnica anomenada entrenament adversari. Aquí, dues xarxes neuronals competeixen entre si:
- Generador: Crea vídeos que intenten semblar reals.
- Discriminador: Intenta distingir entre els vídeos reals i els generats.
Malgrat aquests avenços, persisteixen alguns reptes: APT sovint genera resultats amb estructures incorrectes, com proporcions d’objectes deformades o inconsistències en els detalls, ja que el model simplificat d’un sol pas té menys capacitat per fer canvis dràstics en l’estructura de les dades en comparació amb els models de múltiples passos. La capacitat del model per generar contingut que coincideixi amb el prompt (alineació text-imatge o text-vídeo) no és tan sòlida com la dels mètodes tradicionals.
Aplicacions potencials
Aquesta capacitat de generar contingut d’alta resolució en temps real té implicacions significatives per a indústries com l’entreteniment, la realitat virtual i els videojocs. A més, pot ser un recurs valuós en la producció de continguts personalitzats i la generació de mitjans interactius.
Obre un parèntesi en les teves rutines. Subscriu-te a la nostra newsletter i posa’t al dia en tecnologia, IA i mitjans de comunicació.