Google llança Gemini 2.0 Flash i hi afegeix funcions multimodals

Google ha fet un pas més en l’evolució de la intel·ligència artificial en anunciar Gemini 2.0 Flash, el seu model més avançat fins ara. Aquest desenvolupament, que busca competir directament amb els darrers llançaments d’OpenAI, promet no només generar text, sinó també imatges, àudio i més, consolidant-se com una proposta clau en l’àmbit de les capacitats multimodals.

Una IA més enllà del text

A diferència del seu predecessor, Gemini 1.5 Flash, que estava limitat a la generació de text, la nova versió amplia els seus horitzons en incorporar eines per generar i modificar imatges, interpretar àudio i vídeo, i oferir narració en múltiples veus. A més, el model permet interaccions avançades amb aplicacions i serveis externs, com ara Google Search i API de tercers. Segons Google, aquestes millores fan que el model sigui “dues vegades més ràpid” que el Gemini 1.5 Pro en certes proves internes.

Un dels aspectes destacats de Gemini 2.0 Flash és la seva capacitat per modificar imatges i analitzar contingut multimèdia, cosa que permet respondre preguntes sobre fotos i vídeos. En l’àmbit de l’àudio, la IA pot generar narracions personalitzables, des de variacions en la velocitat fins a entonacions estilitzades.

Nova API per integrar en aplicacions

Google llançarà Gemini 2.0 Flash a través de la seva API i plataformes per a desenvolupadors, com AI Studio i Vertex AI. Tanmateix, les funcionalitats d’àudio i imatges estaran disponibles inicialment només per a socis seleccionats, amb un desplegament més ampli planificat per al gener de 2025. A més, el model s’integrarà progressivament en eines populars com Android Studio, Chrome DevTools i Firebase.

Una novetat rellevant és l’API Multimodal Live, ja disponible. Aquesta eina permetrà als desenvolupadors construir aplicacions en temps real amb funcions de transmissió d’àudio i vídeo, consolidant Gemini 2.0 Flash com una opció versàtil per a diversos sectors.

Ètica en la generació de continguts

Tot i que les capacitats descrites són prometedores, Google encara no ha mostrat exemples concrets d’àudio o imatges generades amb el model, cosa que deixa a l’aire la comparació de qualitat amb altres IA líders. Per abordar les preocupacions ètiques, la companyia implementarà la tecnologia SynthID, dissenyada per marcar tots els continguts generats pel model com a sintètics, evitant així el mal ús en la creació de deepfakes, un problema en augment segons dades recents.

Una aposta per la precisió i la velocitat

En paraules de Tulsee Doshi, líder de producte de Gemini, el nou model combina velocitat i potència, millorant àrees clau com la codificació i l’anàlisi d’imatges. A més, Google assegura que Gemini 2.0 Flash ofereix una major precisió matemàtica i factualitat, consolidant-se com el seu model insígnia.

Amb la seva capacitat per executar tasques complexes i manejar converses naturals, Gemini 2.0 Flash marca un avenç significatiu en la cursa de la IA multimodal, preparant el terreny per a un impacte transversal en indústries com el desenvolupament de programari, la creació de contingut i més enllà.

Ara Parèntesi MEDia té un butlletí en català. Pots rebre’l setmanalment, cada diumenge, a la teva bústia de correu. Subscriu-te ja!

Tags:

Google llança Gemini 2.0 Flash i hi afegeix funcions multimodals

Una IA més enllà del text

Nova API per integrar en aplicacions

Ètica en la generació de continguts

Una aposta per la precisió i la velocitat

Tags:

Laia Herranz

Previous PostGemini ja té veu pròpia: analitzem el sistema d'àudio nadiu

Next PostRepassem les funcions avançades de Sora

Qui som

Política de Privadesa

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)