El seu nou model permet editar imatges amb llenguatge natural, com si estiguessis parlant amb un professional i sense necessitat d’utilitzar una interfície complexa
Google ha llançat Gemini 2.0 Flash Experimental, un model d’IA que permet als usuaris generar i editar imatges fent servir instruccions de text, conegudes com a “prompts”. Aquest llançament representa un gran pas, ja que integra capacitats multimodals en els models de llenguatge, facilitant la creació i modificació d’imatges de manera més intuïtiva i eficient.
1. Converses contínues per perfeccionar imatges
Una de les característiques més destacades de Gemini 2.0 Flash és la seva capacitat per mantenir converses naturals amb els usuaris, cosa que permet un diàleg continu en el qual es poden donar diverses instruccions per ajustar i perfeccionar les imatges generades. Això significa que es pot sol·licitar la creació d’una imatge específica i, posteriorment, realitzar ajustos detallats amb noves indicacions. Així, els usuaris poden perfeccionar les seves imatges de manera col·laborativa amb la IA, assolint resultats més personalitzats i adaptats a les seves preferències.
2. Imatges realistes i contextualitzades
Gemini 2.0 Flash també destaca pel seu enteniment del món real i les seves capacitats de raonament, que li permeten generar imatges detallades i realistes. Per exemple, si es proporciona una recepta culinària, el model és capaç d’il·lustrar-la amb imatges precises que reflecteixen cada pas del procés. Aquesta habilitat per interpretar i contextualitzar informació amplia les aplicacions del model en entorns creatius i educatius.
3. Millora en la representació de text en imatges
Un altre avenç és la capacitat millorada del model per renderitzar text dins de les imatges. Això és especialment útil per a la creació d’anuncis, publicacions a xarxes socials o invitacions. Les millores garanteixen que les imatges generades no només siguin visualment atractives, sinó també informatives i clares en el seu contingut de text.
4. Disponibilitat i retroalimentació per al seu desenvolupament
Google ha posat a disposició Gemini 2.0 Flash Experimental a través de Google AI Studio i l’API de Gemini, cosa que permet la seva integració en aplicacions pròpies. Però, es tracta d’una versió experimental i, com a tal, Google reconeix que encara hi ha àrees de millora. Per això, ha convidat els desenvolupadors a proporcionar retroalimentació per optimitzar les capacitats del model abans del seu llançament oficial.
Una eina potent per a la creació visual
Gemini 2.0 Flash Experimental representa un avanç en la creació i edició d’imatges amb intel·ligència artificial. Les seves capacitats multimodals, el seu raonament avançat i la possibilitat d’interacció conversacional ofereixen als usuaris una eina poderosa per crear contingut visual de qualitat de manera senzilla i eficient.
Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.