El reto (y las ventajas) de que la inteligencia artificial nos reconozca por la voz y por la cara

, 15 marzo 2023 19:19 4 min read 25

Este medio se sostiene gracias a su comunidad. APOYA EL PERIODISMO INDEPENDIENTE .

No cabe duda de que la tecnología se ha convertido en parte crucial de nuestras vidas. Los móviles, las tabletas o los ordenadores nos permiten estar en conexión constante con otras personas, crear contenido, hacer transacciones bancarias, adquirir todo tipo de artículos o asistir a una consulta médica desde casa, entre otras muchas cosas.

Un gran problema de esta nueva era online es que personas no deseadas pueden acceder a toda la información de nuestros dispositivos. Y también nos podemos encontrar con dificultades de acceso si no recordamos la contraseña o al buscar información específica en vídeos.

Por eso es tan importante incorporar técnicas de inteligencia artificial que reconozcan rasgos únicos e intransferibles del usuario como su cara o su voz, a modo de “huella digital”. La ventaja sobre la huella dactilar, por ejemplo, es que los dispositivos no precisan una tecnología específica: basta con la cámara y/o el micrófono que ya incorporan casi todos los modelos.

Máquinas que aprenden al estilo de nuestras neuronas

En los últimos años se han producido grandes avances en este campo gracias a las técnicas de aprendizaje profundo basadas en redes neuronales. Estas redes intentan aprender igual que el cerebro, simulando el proceso de aprendizaje por acierto y error que llevan a cabo nuestras neuronas. Por ejemplo, cuando somos bebés, no sabemos distinguir a quién estamos viendo u oyendo. El cerebro aprende a identificarlos con la experiencia.

La clave del proceso es, pues, el entrenamiento. Se trata de ofrecer al sistema un conjunto de datos de entrada, indicándole la información que debe aprender de ellos. Una vez asimile dicha información, sabrá qué debe hacer cuando reciba nuevos datos. En el caso que nos ocupa, voces e imágenes de rostros.

Estas técnicas ya funcionan bastante bien cuando se “alimenta” al sistema con mucha información. Pero ¿qué pasa si queremos crear un sistema de reconocimiento de personas por su voz con pocos datos específicos para la aplicación donde se va a usar?

Identificar la frase exacta

Hoy en día, es fácil disponer de grabaciones sonoras de personas que hablan de cualquier tema, pero no tanto diciendo una frase específica que permita mejorar la seguridad o la personalización de los sistemas de reconocimiento.

Un ejemplo son los asistentes virtuales que solo se activan cuando el dueño dice: ‘Oye, Siri’ u ‘Ok, Google’. Estos aparatos funcionan ya bastante bien hoy en día, pero los desarrolladores no siempre pueden disponer de los inmensos recursos con los que cuentan Apple o Google.

En casos así, con pocos datos adecuados para enseñar al sistema, usar grandes redes neuronales entrenadas de forma genérica no es la mejor solución. El sistema no va a poder diferenciar correctamente entre varios individuos hablando y diciendo una frase específica.

Para abordar este desafío, en el Instituto de Investigación en Ingeniería de Aragón, Universidad de Zaragoza, hemos usado redes neuronales modificadas. En su desarrollo tuvimos en cuenta la importancia de que la persona que habla pronuncie la frase que le corresponde, ya que tratar todas las partes de las grabaciones por igual –como lo hacen las grandes redes neuronales– no es lo ideal en estos casos.

Con este fin, introdujimos modificaciones que permitieran fijar la atención de los sistemas en los distintos segmentos de la frase pronunciada, aparte de reconocer la identidad del locutor. Las redes así creadas han demostrado ser robustas y capaces de diferenciar bastante bien entre diferentes personas diciendo cosas concretas.

Más allá de estos avances, la escasez de datos específicos en determinadas situaciones sigue constituyendo un reto para mejorar la seguridad y la personalización de los sistemas de reconocimiento. Por ejemplo, todavía nos encontramos con problemas cuando la voz del locutor cambia mucho debido a una enfermedad.

Por otra parte, también nos podemos enfrentar al problema opuesto: ¿qué ocurre cuando disponemos de demasiada información y dos rasgos físicos que reconocer?

Reconocimiento simultáneo de voz y rostro

La expansión de dispositivos con cámaras y micrófonos ha aumentado exponencialmente el volumen de vídeos disponibles en los propios aparatos o internet en general. Esas grabaciones son muy valiosas para desarrollar las técnicas de inteligencia artificial: pueden aprovecharse las voces y los rostros para crear sistemas más seguros que identifiquen ambos rasgos a la vez.

Sin embargo, necesitamos saber qué información exacta aparece en los archivos. Hasta ahora ese proceso se ha hecho manualmente y es muy costoso.

En el trabajo citado anteriormente también desarrollamos nuevos sistemas de reconocimiento conjunto de voz y cara que pueden ayudar a analizar y catalogar el contenido audiovisual de manera más eficiente y automática. Por ejemplo, permitiría buscar en un programa de noticias en qué momento ha hablado alguien de algún tema o cuándo ha aparecido en escena, aunque esté en silencio.

En resumen, la tecnología de reconocimiento de voz y rostro ha avanzado mucho en los últimos años y ya es parte de nuestra vida cotidiana, pero aún existen desafíos por delante. Es importante abordarlos para mejorar el acceso y la seguridad de nuestros dispositivos y acercar la tecnología a todas las personas.

Victoria Mingote Bueno recibe fondos del Ministerio de Economía y Competitividad del Gobierno de España y del Gobierno de Aragón.

Este periodismo no lo financian bancos ni partidos

Lo sostienen personas como tú. En un contexto de ruido, propaganda y desinformación, hacer periodismo crítico, independiente y sin miedo tiene un coste.

Si este artículo te ha servido, te ha informado o te ha hecho pensar, puedes ayudarnos a seguir publicando.

Apoya este medio independiente

Cada aportación cuenta. Sin intermediarios. Sin líneas rojas impuestas. Solo periodismo sostenido por su comunidad.

NOTICIAS

Los dibujos de la economía: la curva invertida de tipos y la caída del Silicon Valley Bank

NOTICIAS

Cómo facilitar la igualdad en los trabajos universitarios

Luciana Gatti entra en política porque el Congreso brasileño está legislando la catástrofe

Luciana Gatti lleva más de 30 años estudiando la Amazonia y los gases que aceleran el calentamiento global. Es investigadora principal del Instituto Nacional de Investigaciones Espaciales de Brasil, el INPE, y coordina su Laboratorio de Gases de Efecto Invernadero. No es una tertuliana reciclada, una celebridad buscando foco ni una profesional de la política fabricada en un despacho. Es una científica que ha dedicado décadas a medir cómo uno de los mayores reguladores climáticos del planeta está dejando de funcionar.

Ahora ha decidido presentarse al Congreso.

Gatti anunció el 13 de julio su precandidatura a diputada federal por São Paulo dentro del Partido Socialismo y Libertad, el PSOL. Las candidaturas deberán registrarse oficialmente antes del 15 de agosto y la primera vuelta de las elecciones brasileñas se celebrará el 4 de octubre. Su objetivo es llevar la ciencia al lugar donde se aprueban las leyes que están acelerando el desastre. Porque publicar investigaciones sirve de poco cuando quienes legislan las ignoran, las niegan o directamente trabajan para las empresas responsables.

Redaccion, 16 julio 2026 08:10 0

Ecuador abandona la Amazonia al oro ilegal y deja solos a quienes la protegen

La Amazonia ecuatoriana está siendo devorada por la minería ilegal mientras el Estado llega tarde, responde a medias o directamente mira hacia otro lado. Retroexcavadoras, dragas, campamentos clandestinos y grupos armados avanzan sobre territorios indígenas y áreas protegidas. Frente a ellos, 598 guardaparques abandonados a su suerte, sin capacidad legal para incautar maquinaria y sin medios para enfrentarse a organizaciones que llevan fusiles.

En el Parque Nacional Sumaco Napo-Galeras, varios trabajadores fueron interceptados durante una inspección por hombres fuertemente armados que afirmaron proporcionar seguridad a los mineros. Les quitaron los teléfonos, el GPS y la cámara. Quienes debían representar la autoridad ambiental terminaron desarmados, retenidos y obligados a explicar qué hacían dentro del espacio que estaban protegiendo. Los delincuentes pedían cuentas a los guardaparques y no al revés.

Redaccion, 16 julio 2026 07:44 0

Ayuso convierte la cultura madrileña en un photocall pagado con dinero público

La política cultural de Isabel Díaz Ayuso tiene una regla bastante sencilla: para las creadoras y creadores corrientes existen formularios, convocatorias, límites presupuestarios y meses de espera; para las celebridades dispuestas a promocionar Madrid y posar junto al poder aparecen patrocinios millonarios, espacios públicos y contratos diseñados específicamente para ellas.

No es mecenazgo. Tampoco es una defensa desinteresada de la cultura. Es dinero público utilizado para comprar prestigio, propaganda turística y fotografías institucionales. La obra artística queda reducida a soporte publicitario y las administraciones se comportan como una agencia de representación financiada por las y los contribuyentes.

Nacho Cano fue durante años el mejor ejemplo de este modelo. Ahora Woody Allen recoge el testigo con un proyecto que recibirá 3 millones de euros de la Comunidad y del Ayuntamiento de Madrid. Dos nombres famosos, dos operaciones presentadas como apoyo cultural y una misma lógica: socializar el coste para que el beneficio político y empresarial quede en pocas manos.

Redaccion, 16 julio 2026 07:37 0

15.000 personas ya han visto cómo la fe se convierte en poder

El último ReportajeSR analiza cómo determinados sectores del evangelismo conservador dejaron de limitarse a los templos para convertirse en una maquinaria política al servicio de la extrema derecha. De Trump a Bolsonaro, de Milei a Vox: redes comunitarias, guerras culturales, dinero, medios y religión convertidos en infraestructura electoral.

Presentado por Léa Gugelmann, el reportaje ya ha superado las 15.000 visualizaciones desde su estreno. Porque para entender el auge de la extrema derecha no basta con mirar a sus candidatos: también hay que observar quién construye sus discursos, moviliza sus bases y presenta el autoritarismo como una misión divina.

Redaccion, 13 julio 2026 08:07 0

Vídeo | Sadismo en primera persona

Un turista graba el encierro de San Fermín como si estuviera en una atracción. Adrenalina, golpes, risas y animales convertidos en decorado para conseguir un vídeo viral. No está viviendo una tradición: está consumiendo sufrimiento como entretenimiento.

Además, corre con una cámara cuando está prohibido hacerlo, poniendo en peligro a quienes tiene alrededor. La turistificación añade otra capa de irresponsabilidad a una barbaridad ya normalizada: venir, beber, molestar, jugar con la vida ajena y marcharse con unos cuantos clics. El sadismo también se graba en primera persona.

Redaccion, 13 julio 2026 08:06 0

Blog

El reto (y las ventajas) de que la inteligencia artificial nos reconozca por la voz y por la cara

Máquinas que aprenden al estilo de nuestras neuronas

Identificar la frase exacta

Reconocimiento simultáneo de voz y rostro

Este periodismo no lo financian bancos ni partidos

SÍGUENOS

Luciana Gatti entra en política porque el Congreso brasileño está legislando la catástrofe

Ecuador abandona la Amazonia al oro ilegal y deja solos a quienes la protegen

Ayuso convierte la cultura madrileña en un photocall pagado con dinero público

15.000 personas ya han visto cómo la fe se convierte en poder

Vídeo | Sadismo en primera persona

Transparencia económica en Spanish Revolution

Blog

El reto (y las ventajas) de que la inteligencia artificial nos reconozca por la voz y por la cara

Máquinas que aprenden al estilo de nuestras neuronas

Identificar la frase exacta

Reconocimiento simultáneo de voz y rostro

Este periodismo no lo financian bancos ni partidos

Related posts

Océanos de plástico: mucho más allá de lo visible

Las sustancias químicas invisibles que podrían afectar a la pubertad

Mirar a Safo nos devuelve nuestro reflejo

Una declaración para la abolición universal de la gestación subrogada, clave para el futuro

Ada Colau ganaría las elecciones, según las encuestas, gracias a su gestión del Covid

Debemos dejar de comer anguilas antes de que desaparezcan para siempre

SÍGUENOS

Luciana Gatti entra en política porque el Congreso brasileño está legislando la catástrofe

Ecuador abandona la Amazonia al oro ilegal y deja solos a quienes la protegen

Ayuso convierte la cultura madrileña en un photocall pagado con dinero público

15.000 personas ya han visto cómo la fe se convierte en poder

Vídeo | Sadismo en primera persona