El Surgimiento de Deepfakes de Audio: Una Nueva Era de Decepción Digital

Los rápidos avances en inteligencia artificial están abriendo camino a posibilidades sin precedentes en la era digital. No solo estamos presenciando avances tecnológicos, sino que estamos enfrentando una serie de riesgos capaces de impactar profundamente nuestras vidas a largo plazo. Entre estos peligros se encuentran los audio deepfakes, una forma de manipulación sonora digital habilitada por la IA que plantea importantes preocupaciones éticas, sociales y de seguridad.

Imagina a un padre que recibe una llamada angustiosa de su hijo pidiendo dinero, supuestamente varado en un país desconocido. Una voz sorprendentemente realista ruega por ayuda, llevando al padre preocupado a enviar cientos de euros. Sin embargo, el dinero no estaría ayudando a su hijo, sino que acabaría en manos del estafador que clonó la voz para este engaño.

La creación de audio deepfakes implica que la IA aprenda a imitar la voz de una persona con mínimas diferenciaciones. Utilizando técnicas de aprendizaje automático, como redes neuronales profundas, el proceso comienza recolectando una muestra de voz y procesándola para identificar rasgos distintivos como tono, entonación y ritmo. Andrea Federica de Cesco, jefa de Chora Academy y experta en podcasting, explica que con unos pocos segundos de audio, recogidos de un video en línea o una llamada interceptada, la IA puede clonar una voz, resaltando empresas como ElevenLabs que ofrecen tales servicios a partir de muestras cortas de audio.

Además de la replicación vocal, estos sistemas de IA utilizan Modelos de Lenguaje Grandes para responder contextualmente durante conversaciones. Esto significa que la IA está entrenada no solo para generar voces sorprendentemente similares a humanos específicos, sino también para proporcionar respuestas coherentes y relevantes que se entrelazan naturalmente en una conversación, entendiendo el contexto gracias a un extenso entrenamiento de datos.

Los audio deepfakes pueden ser más engañosos que las versiones de video y son más fáciles de producir, lo que los hace accesibles para casi cualquier persona. Según de Cesco, hay un elemento psicológico en juego: tendemos a confiar en las voces debido a la conexión íntima que fomentan. Cuando la voz sintética suena casi indistinguible de un humano real, nuestros mecanismos de confianza se activan, volviéndonos más vulnerables, especialmente porque a menudo escuchamos mientras nuestras manos están ocupadas y nuestra atención está dividida.