Avui dia, milions de documents digitals emmagatzemen informació valuosa que podria transformar indústries i facilitar moltes investigacions. No obstant això, extreure dades d’arxius en format PDF continua sent un gran desafiament per a experts en dades, desenvolupadors i analistes d’intel·ligència artificial.
Per què és tan difícil extreure dades d’un PDF?
El format PDF va ser creat per mantenir l’aparença dels documents, garantint que es veiessin igual en qualsevol dispositiu. Però aquesta mateixa rigidesa el fa complicat per a les màquines.
Això es complica encara més quan els documents són simples imatges de text, la qual cosa obliga a utilitzar programes de Reconeixement Òptic de Caràcters (OCR) per convertir-los en dades editables.
La dificultat, però, augmenta amb documents antics, manuscrits o arxius amb dissenys complexos com taules, gràfics o columnes múltiples. Aquest problema afecta àrees com la preservació d’arxius històrics, la digitalització d’investigacions científiques, l’automatització de serveis d’atenció al client i l’accessibilitat de textos tècnics per a sistemes d’IA.
OCR tradicional vs. la nova generació d’IA
L’OCR existeix des dels anys 70 i, tot i que ha millorat amb el temps, continua tenint limitacions. El seu enfocament es basa a reconèixer patrons de píxels, cosa que funciona bé amb textos clars i ben escanejats. Però quan els documents tenen dissenys complexos o baixa qualitat d’imatge, els errors són comuns.
En els darrers anys, els LLMs han començat a destacar en aquest camp. Aquestes IA, com les d’OpenAI, Google i Meta, no només llegeixen el text, sinó que també interpreten els elements visuals dels documents, oferint una comprensió més completa. Per exemple, sistemes com ChatGPT poden analitzar el contingut i el disseny d’un PDF al mateix temps.
Noves apostes i primers tropencs
Empreses emergents també estan intentant avançar en aquest camp. La francesa Mistral, per exemple, va llançar recentment el seu model Mistral OCR, dissenyat per gestionar documents complexos, amb resultats espectaculars en benchmarks. Però encara lluny d’assolir la perfecció.
Tanmateix, les primeres proves no han estat del tot positives. El model encara comet errors en processar taules, repetint dades o confonent números, especialment en documents antics.
D’altra banda, Google sembla estar un pas endavant amb el seu model Gemini 2.0 Flash Pro Experimental. El principal avantatge és la seva capacitat per gestionar documents llargs i manuscrits amb major precisió. Això es deu, en gran part, a la seva àmplia “finestra de context”, que li permet analitzar grans volums d’informació sense perdre el fil.
El futur: ¿automatització o supervisió necessària?
Encara que els avenços són evidents, els LLMs encara tenen certs riscos. Els errors en la interpretació de taules o la inventiva de dades poden passar desapercebuts, cosa que és una amenaça en documents importants, com informes financers, registres legals o dades mèdiques.
De moment, la supervisió humana continua sent important. Les eines automatitzades poden accelerar la feina, però cal que siguin revisades amb cura per evitar errors que podrien tenir conseqüències greus.
Foto de Tianyi Ma a Unsplash
Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.