En el apasionante mundo de la tecnología y la inteligencia artificial, los deepfakes se han convertido en un tema candente y de gran preocupación en los últimos años y especialmente en épocas electorales.
Las herramientas de inteligencia artificial que pueden simular voces (deepfake) se están utilizando en elecciones en Colombia y otros países de América Latina. Por un lado, se emplean para crear grabaciones falsas con el fin de desprestigiar a un candidato, mientras que, por otro lado, algunos candidatos las utilizan como excusa para negar su participación en grabaciones en las que realmente estuvieron presentes.
El motivo de escribir este artículo es que a menudo me hacen preguntas sobre cómo reconocer grabaciones de audio falsas y qué herramientas son efectivas para este propósito.
Qué son los deepfakes de audios
Los deepfakes de audio son una forma de falsificación de audio que utiliza la inteligencia artificial para crear un audio que parece haber sido dicho por una persona real. Se crean utilizando un proceso llamado aprendizaje profundo, que permite a los algoritmos aprender a identificar patrones en los datos. En el caso de los deepfakes de audio, los algoritmos se entrenan en un conjunto de datos de audio de la persona que se quiere falsificar. Una vez entrenados, los algoritmos pueden generar audio que suena como si hubiera sido dicho por esa persona.
Los deepfakes de audio se están volviendo importantes por varias razones:
- La tecnología está mejorando rápidamente, lo que hace que los deepfakes sean cada vez más difíciles de detectar.
- Los deepfakes de audio se pueden utilizar para una variedad de propósitos maliciosos, como difundir información falsa o chantajear a las personas.
- Los deepfakes de audio se pueden utilizar para fines legítimos, automatizar la creación de contenido y la creación de voces de personajes para películas o videojuegos.
Los deepfakes de audio son una amenaza creciente para la sociedad, sobre todo en época de elecciones. La capacidad de crear audio que suena como si hubiera sido dicho por una persona real tiene el potencial de ser utilizado para engañar a las personas y manipular la opinión pública. Es importante que las personas sean conscientes de la existencia de los deepfakes de audio y que puedan detectarlos.
Qué se debe evaluar para identificar si un audio es falso (deepfake de audio)
En el ámbito forense, el reconocimiento de voz es una técnica utilizada para identificar a un individuo a partir de su voz. Esta técnica se basa en la extracción de características acústicas de la voz que son únicas para cada persona.
Para comprobar que una grabación la realizó una persona y no un imitador o una IA, se pueden realizar las siguientes pruebas forenses:
Análisis de las características físicas de la voz
Las características físicas de la voz son las características acústicas que se pueden medir directamente. Estas características incluyen:
- Tono: El tono es la frecuencia fundamental de la voz. El tono de la voz es controlado por las cuerdas vocales.
- Timbre: El timbre es la calidad de la voz. El timbre de la voz es controlado por la forma de la cavidad oral y nasal.
- Resonancia: La resonancia es la amplificación de ciertas frecuencias de la voz. La resonancia de la voz es controlada por la cavidad oral y nasal.
- Intensidad: La intensidad es el volumen de la voz. La intensidad de la voz es controlada por la fuerza con la que se producen los sonidos.
El análisis de las características físicas de la voz se realiza mediante un software especializado. Este software mide las características acústicas de la voz y las compara con las características de una base de datos de voces conocidas.
Análisis de las características articulatorias de la voz
Las características articulatorias de la voz son las características acústicas que se producen como resultado de la articulación de los sonidos. Estas características incluyen:
- Formantes: Los formantes son bandas de frecuencia que se producen como resultado de la vibración de las cuerdas vocales.
- Ruidos vocales: Los ruidos vocales son ruidos que se producen como resultado del contacto de los órganos articulatorios.
El análisis de las características articulatorias de la voz se realiza mediante un software especializado. Este software mide las características acústicas de la voz y las compara con las características de una base de datos de voces conocidas.
Análisis del contenido de la voz
El análisis del contenido de la voz se centra en el contenido de lo que se dice en la grabación. Este análisis puede ayudar a identificar al locutor si se dispone de otras grabaciones de la persona en cuestión.
El análisis del contenido de la voz se realiza mediante un software especializado. Este software analiza el vocabulario, la entonación y el ritmo de la voz.
Programas y herramientas para identificar los audios falsos (deepfakes de audios)
El análisis forense de audios se ha convertido en una pieza fundamental en investigaciones judiciales y criminológicas. Estas herramientas y técnicas permiten a los expertos en audio forense extraer información acústica de las grabaciones, analizar dicha información y compararla con otras grabaciones conocidas. En este artículo, exploraremos algunas de las herramientas más utilizadas en el campo del análisis forense de audio y su importancia en la determinación de la veracidad de las grabaciones.
Acoustic Signature Analysis (ASA)
El Acoustic Signature Analysis, o ASA, es un programa que se ha convertido en un pilar fundamental para identificar a una persona. Este software se centra en analizar las características acústicas de la voz, como la frecuencia, el tono, el ritmo y otros atributos únicos. Al comparar la firma acústica de una grabación desconocida con la de un locutor conocido, los expertos pueden determinar si la voz coincide o no, lo que resulta crucial en casos de identificación de hablantes en grabaciones anónimas.
Voice Intelligent Technology (VIT)
Voice Intelligent Technology (VIT) ofrece motores para activación de voz y comandos de voz que permiten la interfaz de voz de forma gratuita para desarrolladores. Utiliza tecnología de reconocimiento de voz basada en aprendizaje profundo y se puede configurar con VoiceSeeker para operación de campo lejano. Disponible en varias plataformas sin regalías.
Voice Inspector for Forensic Experts
Voice Inspector for Forensic Experts realiza un análisis forense de voz rápido y altamente preciso, independiente del idioma, utilizando una solución de reconocimiento de locutor diseñada específicamente para expertos forenses y exclusivamente impulsada por modernas redes neuronales profundas.
Forensic Audio Suite (FAS)
Forensic Audio Suite (FAS) es una suite profesional de hardware y software para la forense de audio. Desde su lanzamiento en 1992, IKAR Lab ha evolucionado desde una aplicación de edición de sonido hasta convertirse en el laboratorio forense de audio más popular del mundo. Hoy en día, atiende a expertos en más de 350 laboratorios en más de 40 países en todo el mundo.
.