En un camp on els models d’intel·ligència artificial per a vídeo solen requerir gegantines infraestructures computacionals, ByteDance ha sorprès amb una proposta revolucionària: Seaweed-7B, un model de generació de vídeo que aconsegueix resultats comparables —o fins i tot superiors— a models molt més grans i costosos, utilitzant només 7 mil milions de paràmetres. El seu desenvolupament, descrit en un extens ‘paper’ tècnic, representa un pas endavant en la recerca de solucions més sostenibles i accessibles per als creadors audiovisuals.
A diferència de propostes com Sora o Wan, que requereixen desenes de milers d’hores GPU i quantitats astronòmiques de dades, Seaweed s’ha entrenat en «només» 665.000 hores de GPU H100, un estalvi de recursos sense precedents en la seva categoria. Aquest enfocament no ha compromès el rendiment: en comparatives humanes (com les de MagicArena), Seaweed ha obtingut un 58% de taxa d’encert en tasques de generació imatge-a-vídeo, superant fins i tot a models com Sora d’OpenAI i Wan 2.1, amb el doble de paràmetres.
L’important és el disseny
La clau del rendiment de Seaweed no rau en la mida, sinó en el seu disseny. El model integra un autoencoder variacional (VAE) altament optimitzat que redueix eficaçment la complexitat del vídeo sense perdre qualitat visual, i un transformer de difusió (DiT) que ha estat ajustat per operar eficientment sota restriccions computacionals. La seva arquitectura híbrida permet generar seqüències visuals coherents i fluides.
Entrenat amb mig milió d’hores de vídeo
A més del seu disseny tècnic, destaca l’enfocament en la qualitat de les dades. ByteDance va implementar una infraestructura de processament que va permetre curar més de mig milió d’hores de vídeo, seleccionant només aquells clips amb alts estàndards de claredat, moviment i seguretat. Aquest procés va incloure des de la detecció d’efectes no naturals fins a un sofisticat sistema de captioning basat en models de llenguatge grans.
Una altra innovació significativa està en l’etapa d’inferència: mentre que models com Wan-2.1 requereixen fins a 100 passos d’inferència, Seaweed aconsegueix resultats similars amb només 12, cosa que permet temps de generació fins a 62 vegades més ràpids en una sola GPU.
Els autors també destaquen l’adaptabilitat del model. Seaweed pot aplicar-se a múltiples tasques com edició de vídeo, generació de contingut humà realista, control de càmera, i fins i tot síntesi conjunta d’àudio i vídeo. La seva arquitectura el fa apte tant per a aplicacions creatives com per a producció audiovisual industrial.
El cas de Seaweed reobre el debat sobre l’eficiència en la IA generativa. En lloc d’escalar sense límits, demostra que la combinació d’arquitectura optimitzada i curació de dades pot competir amb brute force, promovent una IA més responsable i sostenible.