L’assistent de veu Maya, creat per Sesame, i un nou model xinès (R1-Omni) busquen dotar els assistents virtuals de la capacitat per transmetre i entendre quelcom tan humà com les emocions
El terreny dels robots i les emocions s’ha explorat des de fa temps en la ficció. Ara, que moltes vegades la interacció amb la IA és gairebé indistingible de la humana, les empreses busquen perfeccionar els seus models.
Perquè el terreny de les emocions és un repte majúscul: sovint es tracta d’identificar trets del llenguatge no verbal. En cada cultura, aquests poden variar, cosa que dificulta encara més la feina dels desenvolupadors. Per no parlar de la cara de pòquer que posem a vegades quan no podem expressar el que realment sentim. Podran els robots entendre això algun dia?
Hi ha dues dates que han estat grans punts d’inflexió. La primera, maig de 2024. OpenAI presenta el seu model multimodal 4o. De sobte, els assistents de veu comencen a xiuxiuejar i expressar tímides emocions. De nou, la legislació posa límits que a vegades fan que els models s’hagin de “robotitzar” de nou: OpenAI va decidir limitar el seu assistent perquè no pogués cantar, per exemple.
La segona data és febrer de 2025. La startup Sesame llança Maya. Aquest assistent és capaç d’interpretar emocions humanes i respondre en conseqüència. Les primeres demostracions deixen moments curiosos: fins i tot és capaç de “flirtejar” amb el seu interlocutor. I no cal parlar del seu potencial de convicció: les emocions són el que mou el món.
El trencador respecte a OpenAI és que aquest model és de codi obert i qualsevol desenvolupador pot fer-lo servir (la llicència és Apache 2.0, que permet ús comercial). L’empresa “confia” que siguin precisament els desenvolupadors qui en facin un ús ètic, per això l’han alliberat sense filtres. Ara bé: això afegeix complexitat a les tasques de supervisió de la UE. Ja no es tracta de silenciar una tecnològica multinacional, es tracta de revisar milions de serveis de desenvolupadors petits i mitjans. No és poca cosa!
R1-Omni: un model multimodal per ‘llegir’ les emocions
I seguint en l’àmbit de les emocions, Alibaba ha presentat aquesta setmana un interessant ‘paper’ sobre el seu model R1-Omni. Ells han utilitzat un model de reforç amb recompensa verificable. Quan la IA produeix una resposta, aquesta es compara automàticament amb una solució que sabem que és correcta. Si la resposta coincideix exactament, rep una recompensa positiva; si no, la recompensa és zero. Això elimina la necessitat de supervisió humana constant, fent l’entrenament més ràpid i objectiu.
D’aquesta manera, el model pot explicar amb claredat com arriba a una conclusió emocional, detallant com utilitza la informació visual (expressions facials, moviments corporals) i auditiva (to de veu, ritme, volum). Això permet entendre exactament quins factors influeixen més en el reconeixement d’emocions i, si no funcionen, corregir-los.
En definitiva: s’obre un terreny interessant i alhora inexplorat. Aquestes tecnologies capaces d’entendre la nostra cara més humana podrien utilitzar-se per a altres fins a èticament qüestionables, per això la UE hi incideix en el seu AI Act. Sobretot en l’aspecte de la transparència: que els humans sapiguem quan parlem amb un robot. No obstant això, podria arribar un dia en què als humans ens sembli irrellevant saber si parlem o no amb una màquina. I tu, per quin hipotètic futur et decantes?
Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.