Gemini fa els seus primers passos al nínxol de veu
En una nova fita al camp de la intel·ligència artificial, Google ha presentat Gemini 2.0, una versió actualitzada del seu model de llenguatge de grans dimensions que incorpora una característica innovadora: la capacitat de generar àudio de forma nativa i multilingüe, oferint una experiència més natural i versàtil.
Tot i que ha passat una mica desapercebut, aquest generador de veus compta amb algunes característiques trencadores. Aquesta funció no només millora l’accessibilitat, sinó que també obre noves possibilitats per a aplicacions que requereixen interacció per veu.
Què vol dir això?
Imagina poder tenir una conversa amb un ordinador que no només comprengui les teves paraules, sinó que també respongui amb una veu natural i expressiva. Això és el que Gemini 2.0 ja pot fer. Gràcies a aquesta nova funció, la IA pot generar respostes d’àudio en múltiples idiomes, amb diferents accents i tons de veu, cosa que la fa encara més semblant a un ésser humà.
Quines són les implicacions d’aquesta tecnologia?
- Assistents virtuals més naturals: Els assistents virtuals com Google Assistant es podrien convertir en companys de conversa molt més sofisticats, capaços de mantenir diàlegs fluids i personalitzats.
- Creació de contingut més eficient: Els creadors de contingut podran generar àudio per a vídeos, podcasts i altres formats de manera més ràpida i senzilla.
- Noves possibilitats en l’educació: La IA podria utilitzar-se per crear materials educatius més atractius i personalitzats, com ara audiollibres o tutorials interactius.
- Accessibilitat: La capacitat de generar àudio en múltiples idiomes podria ajudar a superar les barreres lingüístiques i fer que la informació sigui més accessible per a persones de tot el món.
Com funciona?
Gemini 2.0 utilitza tècniques avançades de processament del llenguatge natural i aprenentatge profund per generar àudio d’alta qualitat. El model ha estat entrenat amb una gran quantitat de dades dàudio, cosa que li permet aprendre a produir veu humana de forma realista.
Seguretat
Google ha implementat mesures per abordar preocupacions legals. Totes les sortides d’àudio i imatge inclouran marques d’aigua invisibles SynthID, cosa que ajudarà a mitigar problemes de desinformació i atribució de la informació incorrecta.
Quan estarà disponible?
Tot i que aquesta nova funcionalitat ja està disponible per a alguns desenvolupadors, s’espera el llançament complet els propers mesos. En resum, Gemini 2.0 representa un gran avenç al camp de la intel·ligència artificial. La capacitat de generar àudio de forma nativa obre un món de noves possibilitats i promet transformar la manera com interactuem amb les màquines.
Obre un parèntesi a les teves rutines. Subscriu-te a la nostra newsletter i posa’t al dia en tecnologia, IA i mitjans de comunicació.