Skip to main content

La IA ha viscut un any de transformació radical, consolidant-se com una tecnologia omnipresent. El tancament del 2024 ha estat testimoni de grans avenços, especialment protagonitzats per Google i OpenAI, dos gegants que lideren el desenvolupament i el desplegament de models avançats. Des de la presentació de sistemes multimodals capaços d’interpretar text, àudio i imatges simultàniament, fins a eines de creació de contingut audiovisual d’alta qualitat, ambdues companyies han marcat el ritme de la innovació. No només han presentat models més ràpids i versàtils, sinó que també han posat el focus a fer-los més accessibles i útils en la vida quotidiana.

L’arribada d’eines com Gemini 2.0 de Google i les noves versions de GPT-4o i o1 d’OpenAI ha generat debats sobre els límits tecnològics, els usos pràctics i els desafiaments ètics d’aquestes aplicacions. En aquest context, l’impacte d’aquestes tecnologies va més enllà de l’eficiència: plantegen interrogants sobre l’automatització, la privacitat i el paper dels humans en un món cada cop més gestionat per la IA.

Google: un salt cap a la IA multimodal i el contingut audiovisual

Google ha fet una aposta decidida aquest final d’any amb el llançament de Gemini 2.0, un model dissenyat per superar els límits dels sistemes existents. El seu enfocament multimodal permet combinar text, imatges i so en temps real, oferint respostes més completes i naturals. Aquesta capacitat ha revolucionat sectors com l’educació i l’atenció al client, on la comunicació fluida és essencial. A més, Gemini 2.0 s’ha integrat en productes clau com Search, Maps i Workspace, convertint la IA en una part intrínseca de l’ecosistema Google. Aquesta estratègia reforça la seva presència al mercat, aprofitant les plataformes ja establertes per oferir una experiència unificada.

Un altre desenvolupament clau ha estat l’arribada de Veo 2, un model de generació de vídeo amb IA que ha sorprès per la qualitat i precisió de les seves creacions. Veo 2 permet crear clips d’alta resolució basats en indicacions textuals, mantenint la coherència visual en escenes complexes. Aquesta eina promet transformar la producció multimèdia, facilitant la creació de contingut en publicitat, xarxes socials i entreteniment.

Google també ha avançat en el desenvolupament d’una IA més accessible, amb el llançament de models més petits i eficients com Gemini 1.5 Flash, que poden executar-se en dispositius convencionals, apropant aquestes tecnologies al públic general.

OpenAI: més enllà del text, raonament avançat i aplicacions pràctiques

Per la seva banda, OpenAI ha continuat liderant el mercat amb millores en la seva tecnologia de llenguatge. El llançament de GPT-4o ha consolidat la seva posició com un dels models més avançats, destacant per la seva capacitat de raonament lògic i anàlisi d’informació complexa.

Tanmateix, el veritable salt ha arribat amb els models o1 i o1-pro, dissenyats per abordar problemes complexos que requereixen pensament analític. Aquestes eines han demostrat ser capaces de processar documents científics complets, identificar errors matemàtics i oferir solucions, imitant el raonament humà.

La seva capacitat per analitzar informació detallada i verificar càlculs posiciona aquests models com a eines clau en investigació i desenvolupament. Tot i que la seva implementació planteja desafiaments ètics i normatius, aquestes tecnologies reforcen la idea que la IA pot exercir un paper crucial com a suport en tasques altament especialitzades.

L’últim anunci de la companyia ha estat el model o3, una IA que molts situen al nivell de la AGI (Intel·ligència Artificial General). Tot i que encara no es pot provar i el seu cost és molt superior al dels models actuals, el seu simple anunci deixa obertes moltes possibilitats. Probablement, el 2025 serà un any molt interessant en termes d’IA.

Calendari d'Advent d'OpenAI

Fes clic a cada bola per descobrir una sorpresa. Per: Xavier Cánovas.

1
2
3
4
5
6
7
8
9
10
11
12

Competència directa

La rivalitat entre Google i OpenAI ha impulsat un nivell d’innovació mai vist, però també ha revelat les tensions del sector. Mentre Google aposta per la integració de la IA en els seus productes i la creació de continguts visuals, OpenAI se centra en models amb capacitats analítiques avançades que imiten processos cognitius humans.

Aquest creixement no està exempt de problemes. D’una banda, el cost d’entrenar models cada cop més complexos ha portat ambdues companyies a desenvolupar versions més lleugeres i accessibles. De l’altra, les implicacions ètiques d’aquestes tecnologies, des de la desinformació fins a la pèrdua de llocs de treball, continuen sent objecte de debat.

Totes dues empreses també afronten el repte de mantenir la confiança pública. Amb l’augment de les eines de generació de contingut, l’autenticitat i la seguretat de la informació s’han convertit en preocupacions clau. Les solucions proposades inclouen sistemes de verificació i algorismes més transparents, però encara queda molt per fer per garantir un ús ètic i responsable.

Conclusió

El final del 2024 ha marcat una etapa d’avenços tecnològics que estan transformant la manera com interactuem amb la IA. Des d’eines multimodals com Gemini 2.0 fins a models analítics com o1-pro, Google i OpenAI han deixat clar que la cursa per dominar la IA tot just comença.

Més enllà dels avenços tècnics, aquestes innovacions plantegen preguntes profundes sobre el paper de la tecnologia en la societat. Amb un horitzó en constant canvi, queda clar que la IA continuarà sent el centre del debat tecnològic i social en els pròxims anys.

Foto de Solen Feyissa en Unsplash

Ara Parèntesi MEDia té un butlletí en català. Pots rebre’l setmanalment, cada diumenge, a la teva bústia de correu. Subscriu-te ja!