Este medio se sostiene gracias a su comunidad. APOYA EL PERIODISMO INDEPENDIENTE .
No cabe duda de que la tecnología se ha convertido en parte crucial de nuestras vidas. Los móviles, las tabletas o los ordenadores nos permiten estar en conexión constante con otras personas, crear contenido, hacer transacciones bancarias, adquirir todo tipo de artículos o asistir a una consulta médica desde casa, entre otras muchas cosas.
Un gran problema de esta nueva era online es que personas no deseadas pueden acceder a toda la información de nuestros dispositivos. Y también nos podemos encontrar con dificultades de acceso si no recordamos la contraseña o al buscar información específica en vídeos.
Por eso es tan importante incorporar técnicas de inteligencia artificial que reconozcan rasgos únicos e intransferibles del usuario como su cara o su voz, a modo de “huella digital”. La ventaja sobre la huella dactilar, por ejemplo, es que los dispositivos no precisan una tecnología específica: basta con la cámara y/o el micrófono que ya incorporan casi todos los modelos.
Máquinas que aprenden al estilo de nuestras neuronas
En los últimos años se han producido grandes avances en este campo gracias a las técnicas de aprendizaje profundo basadas en redes neuronales. Estas redes intentan aprender igual que el cerebro, simulando el proceso de aprendizaje por acierto y error que llevan a cabo nuestras neuronas. Por ejemplo, cuando somos bebés, no sabemos distinguir a quién estamos viendo u oyendo. El cerebro aprende a identificarlos con la experiencia.
La clave del proceso es, pues, el entrenamiento. Se trata de ofrecer al sistema un conjunto de datos de entrada, indicándole la información que debe aprender de ellos. Una vez asimile dicha información, sabrá qué debe hacer cuando reciba nuevos datos. En el caso que nos ocupa, voces e imágenes de rostros.
Estas técnicas ya funcionan bastante bien cuando se “alimenta” al sistema con mucha información. Pero ¿qué pasa si queremos crear un sistema de reconocimiento de personas por su voz con pocos datos específicos para la aplicación donde se va a usar?
Identificar la frase exacta
Hoy en día, es fácil disponer de grabaciones sonoras de personas que hablan de cualquier tema, pero no tanto diciendo una frase específica que permita mejorar la seguridad o la personalización de los sistemas de reconocimiento.
Un ejemplo son los asistentes virtuales que solo se activan cuando el dueño dice: ‘Oye, Siri’ u ‘Ok, Google’. Estos aparatos funcionan ya bastante bien hoy en día, pero los desarrolladores no siempre pueden disponer de los inmensos recursos con los que cuentan Apple o Google.
En casos así, con pocos datos adecuados para enseñar al sistema, usar grandes redes neuronales entrenadas de forma genérica no es la mejor solución. El sistema no va a poder diferenciar correctamente entre varios individuos hablando y diciendo una frase específica.
Para abordar este desafío, en el Instituto de Investigación en Ingeniería de Aragón, Universidad de Zaragoza, hemos usado redes neuronales modificadas. En su desarrollo tuvimos en cuenta la importancia de que la persona que habla pronuncie la frase que le corresponde, ya que tratar todas las partes de las grabaciones por igual –como lo hacen las grandes redes neuronales– no es lo ideal en estos casos.
Con este fin, introdujimos modificaciones que permitieran fijar la atención de los sistemas en los distintos segmentos de la frase pronunciada, aparte de reconocer la identidad del locutor. Las redes así creadas han demostrado ser robustas y capaces de diferenciar bastante bien entre diferentes personas diciendo cosas concretas.
Más allá de estos avances, la escasez de datos específicos en determinadas situaciones sigue constituyendo un reto para mejorar la seguridad y la personalización de los sistemas de reconocimiento. Por ejemplo, todavía nos encontramos con problemas cuando la voz del locutor cambia mucho debido a una enfermedad.
Por otra parte, también nos podemos enfrentar al problema opuesto: ¿qué ocurre cuando disponemos de demasiada información y dos rasgos físicos que reconocer?
Reconocimiento simultáneo de voz y rostro
La expansión de dispositivos con cámaras y micrófonos ha aumentado exponencialmente el volumen de vídeos disponibles en los propios aparatos o internet en general. Esas grabaciones son muy valiosas para desarrollar las técnicas de inteligencia artificial: pueden aprovecharse las voces y los rostros para crear sistemas más seguros que identifiquen ambos rasgos a la vez.
Sin embargo, necesitamos saber qué información exacta aparece en los archivos. Hasta ahora ese proceso se ha hecho manualmente y es muy costoso.
En el trabajo citado anteriormente también desarrollamos nuevos sistemas de reconocimiento conjunto de voz y cara que pueden ayudar a analizar y catalogar el contenido audiovisual de manera más eficiente y automática. Por ejemplo, permitiría buscar en un programa de noticias en qué momento ha hablado alguien de algún tema o cuándo ha aparecido en escena, aunque esté en silencio.
En resumen, la tecnología de reconocimiento de voz y rostro ha avanzado mucho en los últimos años y ya es parte de nuestra vida cotidiana, pero aún existen desafíos por delante. Es importante abordarlos para mejorar el acceso y la seguridad de nuestros dispositivos y acercar la tecnología a todas las personas.
Victoria Mingote Bueno recibe fondos del Ministerio de Economía y Competitividad del Gobierno de España y del Gobierno de Aragón.
Este periodismo no lo financian bancos ni partidos
Lo sostienen personas como tú. En un contexto de ruido, propaganda y desinformación, hacer periodismo crítico, independiente y sin miedo tiene un coste.
Si este artículo te ha servido, te ha informado o te ha hecho pensar, puedes ayudarnos a seguir publicando.
Cada aportación cuenta. Sin intermediarios. Sin líneas rojas impuestas. Solo periodismo sostenido por su comunidad.
Related posts
SÍGUENOS
Netanyahu ya no disimula: Gaza se ocupa por porcentajes
Netanyahu ya no disimula. Gaza se está ocupando por porcentajes: primero el 52%, luego el 60%, ahora ordena avanzar hasta el 70% y, cuando el público le pide el 100%, responde con una broma: “vayamos en orden”.
Eso no es seguridad. Es desposesión administrada. Es convertir un alto el fuego en una coartada para encerrar a 2,1 millones de personas en cada vez menos territorio, mientras el mundo finge sorpresa ante una estrategia que lleva meses desplegándose delante de todos.
Cuando un Gobierno habla de ocupar Gaza por fases, ya no estamos ante una guerra: estamos ante un plan.
👉 El artículo completo puede leerse en el primer comentario.
Y si quieres ayudarnos a seguir haciendo periodismo que no baja la cabeza:
donorbox.org/aliadas
Contra el racismo institucional: Ayuso intentó vender colapso y el Supremo le contestó con una palabra incómoda, pruebas
Ayuso intentó vender colapso y el Supremo le ha contestado con lo único que desmonta la propaganda: pruebas. Y no las había. Ni de que la sanidad fuera a hundirse, ni de que la educación fuera a reventar, ni de que Madrid fuese a convertirse en una especie de apocalipsis administrativo por regularizar a personas migrantes.
El truco es viejo y miserable: primero deterioran lo público y luego culpan a quienes llegan buscando derechos, trabajo y una vida posible. No era gestión. Era racismo institucional con membrete oficial.
El artículo completo puede leerse en el primer comentario 👇
Y si queréis ayudarnos a seguir haciendo periodismo que no agacha la cabeza: Donorbox.org/aliadas
Aimar Bretos toma ‘Hoy por hoy’ mientras la SER intenta vender normalidad donde huele a crisis
La SER intenta vender como relevo natural lo que suena demasiado a operación de poder.
Aimar Bretos asumirá Hoy por hoy el 31 de agosto, tras la salida de Àngels Barceló después de 21 años en la cadena y 7 al frente del programa. El problema no es Bretos. El problema es ese viejo truco de llamar “pluralidad” a lo que muchas veces significa presión editorial, ajuste interno y disciplina empresarial.
Porque cuando una periodista sale así, cuando compañeras y compañeros lamentan públicamente las formas, cuando la plantilla tiene que defender su profesionalidad, la palabra independencia empieza a sonar menos a principio y más a decorado.
A lo que llaman relevo quizá haya que llamarlo por su nombre: una operación de despacho con música de sintonía.
👉 Artículo completo en el primer comentario.
💥 Puedes ayudarnos a seguir haciendo periodismo incómodo en Donorbox.org/aliadas.
Vídeo | Palantir en España: el contrato opaco que mete a Silicon Valley en el corazón de Defensa
Defensa entregó a una empresa nacida en el ecosistema de la CIA una pieza sensible de la inteligencia militar española, sin publicidad, con una sola oferta y bajo una capa de secreto que huele demasiado a negocio blindado.
Vídeo | Palantir en España: el contrato opaco que mete el tecnofascismo en Defensa
Mientras nos hablan de modernización, eficiencia y seguridad, el Estado español abre la puerta de su inteligencia militar a una de las empresas más vinculadas al negocio global de la vigilancia, la guerra y el poder algorítmico. Te lo contamos en #ReportajesSR. Presentado por Patricia Salvador.
Seguir
Seguir
Seguir
Subscribe
Seguir