OpenAI llança els models o3 i o4‑mini: ara pensen amb imatges

Els nous models substitueixen a o1 i o3-mini, que deixen d’estar disponibles a ChatGPT

OpenAI ha llançat els seus nous models de raonament o3 i o4‑mini, els més intel·ligents que ha llançat fins ara i els primers de l’app capaços d’incorporar imatges en la seva cadena de pensament. Segons la companyia, això els permet, per exemple, interpretar una foto d’una pissarra, rotar-la i ampliar-la mentre resolen un problema matemàtic o generen codi, tot dins de la mateixa resposta. Això és un salt qualitatiu i també permetrà simplificar l’elecció de model: fins ara era necessari pensar quin model era millor en cadascuna de les funcions (programar, generar o interpretar imatges…).

Què aporten els nous models

Raonament de múltiples passos amb eines: o3 pot triar i encadenar de forma autònoma cerques web, execució de codi Python, anàlisi d’arxius i generació d’imatges per respondre a qüestions complexes en menys d’un minut. o4‑mini fa el mateix, però amb menor cost i més rapidesa.
Salt en potència: en els benchmarks acadèmics, o3 millora un 20 % la taxa d’encerts d’o1; o4‑mini supera o3‑mini en matemàtiques, programació i preguntes científiques, i domina l’AIME 2024‑25 i els reptes GPQA.
Visió integrada: ambdós models “pensen amb imatges”, quelcom inèdit a la sèrie o; els seus raonaments poden barrejar text, gràfics, esbossos o captures de pantalla.

Seguretat actualitzada

OpenAI afirma haver reconstruït tot el dataset d’entrenament en seguretat, reforçant la negativa davant peticions de biorriesc, malware o jailbreaks. A més, ha aplicat el seu nou Preparedness Framework i un monitor LLM que va detectar el 99 % d’intents perillosos durant el red‑teaming. Els resultats complets figuren a la system card publicada juntament amb el llançament.

Disponibilitat i plans de preus

Els usuaris de ChatGPT Plus, Pro i Team ja poden triar o3, o4‑mini i o4‑mini‑high; els subscriptors Enterprise i Edu el rebran la setmana vinent.
El model o4‑mini s’oferirà també a usuaris del pla gratuït sota l’opció “Think”.
A l’API, ambdós models estan actius des d’avui, i en poques setmanes arribarà o3‑pro amb accés complet a eines.

Codex CLI i programa de beques

Juntament amb els models, OpenAI ha alliberat Codex CLI, un agent lleuger que executa el raonament multimodal d’o3 i o4‑mini directament des del terminal del desenvolupador. Per incentivar projectes, l’empresa destinarà 1 milió de dòlars en crèdits API, repartits en ajudes de 25.000 dòlars per a propostes que integrin aquesta eina.

Per què importa

La convergència entre la sèrie o —especialitzada en raonament— i la sèrie GPT promet assistents capaços no només de conversar, sinó d’actuar: buscar, calcular, veure i crear. Amb o3 i o4‑mini, OpenAI fa un pas decisiu cap a aquest “ChatGPT agent” que resol tasques de principi a fi, marcant un nou estàndard d’intel·ligència útil i, ara, també visual.

Tags:

OpenAI llança els models o3 i o4‑mini: ara pensen amb imatges

Els nous models substitueixen a o1 i o3-mini, que deixen d’estar disponibles a ChatGPT

Què aporten els nous models

Seguretat actualitzada

Disponibilitat i plans de preus

Codex CLI i programa de beques

Per què importa

Tags:

Adrián Soler

Next PostSam Altman estaria disposat a convertir ChatGPT en una xarxa social

Leave a Reply

Qui som

Política de Privadesa

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)