Skip to main content

OpenAI desplega Sora, potenciat per GPT-4o, a ChatGPT amb capacitat de generació d’imatges. La nova capacitat de generació d’imatges a ChatGPT, impulsada per GPT-4o, ofereix creacions més precises i detallades.

Durant una transmissió en directe aquest dimarts, el CEO d’OpenAI, Sam Altman, ha anunciat una important actualització en la capacitat de generació d’imatges de ChatGPT, marcant la primera gran millora d’aquest tipus en més d’un any. Aquest avenç permet que ChatGPT utilitzi el model GPT-4o de la companyia per crear i modificar imatges i fotos de manera nativa, una funcionalitat que fins ara estava limitada a la generació i edició de text.

Inicialment disponible per als subscriptors del pla Pro de 200 dòlars al mes de la companyia, s’espera que la característica s’estengui aviat als usuaris dels plans Plus i gratuït de ChatGPT, així com als desenvolupadors que utilitzen el servei d’API de la companyia. GPT-4o, que ara també recolza Sora, el producte de generació de vídeos AI d’OpenAI, permet generar imatges que «pensin» una mica més que el model de generació d’imatges que efectivament reemplaça, DALL-E 3, per produir imatges més precises i detallades.

Millores tècniques i respecte pels drets d’autor

Per potenciar la nova funció d’imatge, OpenAI va entrenar GPT-4o amb «dades públicament disponibles», així com dades propietàries provinents de les seves associacions amb companyies com Shutterstock. Tot i que molts proveïdors d’IA generativa consideren les dades d’entrenament com un avantatge competitiu i solen mantenir-les en secret, OpenAI ha implementat polítiques per respectar els drets dels artistes i evitar la generació d’imatges que imitin directament el treball d’artistes vius.

Salvaguardes i control de dades

OpenAI també ofereix un formulari d’exclusió que permet als creadors sol·licitar que les seves obres siguin eliminades dels seus conjunts de dades d’entrenament. A més, la companyia respecta les sol·licituds perquè els seus bots de rastreig web no recullin dades d’entrenament, incloses imatges, de llocs web. Aquesta mesura busca equilibrar la innovació tecnològica amb el respecte per la propietat intel·lectual i els drets d’autor.

Contrast amb la competència i expectatives futures

L’actualització de la característica de generació d’imatges de ChatGPT segueix la sortida experimental de la sortida d’imatge nativa de Google per a Gemini 2.0 Flash, un dels models insígnia de la companyia. Tot i que la funció de Google es va tornar viral a xarxes socials, també va revelar la manca de restriccions adequades, cosa que permet a les persones eliminar marques d’aigua i crear imatges que representen personatges amb drets d’autor.

Sora s’integra a ChatGPT millorant la creació d’imatges directament a la plataforma, disponible per a tots els nivells de subscripció.

Gabriel Goh, líder de recerca a OpenAI, va destacar durant una entrevista a The Verge que Sora utilitza la fundació «omnimodal» de GPT-4o, que permet generar qualsevol tipus de dada com text, imatge, àudio i vídeo. Una de les millores més notables inclou la capacitat de «binding» o vinculació, el que significa que Sora manté relacions correctes entre atributs i objectes amb molta més precisió que models anteriors. Per exemple, pot gestionar correctament l’assignació de colors i formes per a entre 15 i 20 objectes sense confusió, un avenç considerable en comparació amb altres models que solen barrejar colors i formes.

Nous desafiaments i enfocaments tècnics en la generació d’imatges

Sora introdueix un enfocament autoregressiu per a la generació d’imatges, processant-les seqüencialment d’esquerra a dreta i de dalt a baix, similar a com s’escriu el text. Aquesta tècnica difereix del model de difusió utilitzat per la majoria dels generadors d’imatges que creen la imatge completa d’una vegada. Segons Goh, aquest canvi tècnic és clau per a les millorades capacitats de renderització de text i vinculació de Sora.

Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.

Leave a Reply

Close Menu