Este medio se sostiene gracias a su comunidad. APOYA EL PERIODISMO INDEPENDIENTE .

Vivimos una pandemia de origen y alcance sin determinar que requiere de grandes esfuerzos para frenar sus efectos. La coordinación de científicos, políticos y ciudadanía, con el apoyo de muchas empresas tecnológicas, es un hecho singular que afecta positivamente a la investigación científica en un espacio muy breve de tiempo, generando herramientas de búsqueda basadas, muchas de ellas, en tecnologías semánticas.
La descripción de la documentación científica, la normalización terminológica vía tesauros y facetas, la minería de datos y el desarrollo de sistemas interoperables han permitido, en un tiempo récord, generar una amplia variedad de fuentes de información alrededor del coronavirus (artículos, casos clínicos, datos epidemiológicos, evidencias o patentes).
La reacción en cadena de editoriales, universidades, centros de investigación y empresas tecnológicas ha propiciado una diseminación de la información científica sobre la covid-19, paralela al ritmo de contagio del propio virus, que algunos autores califican de “revolución”.
Buscadores de información
Revistas biomédicas como New England Journal of Medicine, Lancet, Nature, Science o British Medical Journal han publicado abundante material bibliográfico en abierto. Además, las editoriales han creado espacios de información con búsquedas predefinidas por los principales tópicos (Cambridge Core Coronavirus Free Access Collection, EBSCO Covid-19, Elsevier Coronavirus Research Repository, etc.).
Por otra parte, los repositorios temáticos ofrecen artículos y ‘preprints’. Entre ellos podemos encontrar MedRxiv, Biorxiv o Pubmed. Esta última, por ejemplo, ha añadido publicaciones relacionadas diariamente desde principios de enero, con un pico de 300 artículos en un solo día.
Las grandes plataformas bibliográficas y los buscadores académicos también permiten acceder a los documentos mediante búsquedas predeterminadas, filtros y conjuntos de datos estructurados (Dimensions, Kaggle, Google Dataset Search, Semantic Scholar, etc.). También están involucrados el buscador de patentes Lens (patentes) y el de casos clínicos, Kahun.
Las autoridades sanitarias, universidades, sociedades científicas y centros de investigación han desarrollado servicios informativos: National Institutes of Health, Centers for Disease Control and Prevention, Organización Mundial de la Salud y el Centro de Recursos de Coronavirus de la Universidad Johns Hopkins, el punto informativo más conocido.
La emergencia informativa no solo recae en el ámbito científico, sino también en el político y social. Ello propicia una enorme proliferación de datos de distinto tipo, estructura, formato y cobertura, saturando su localización y gestión.

¿Cuántos tipos de buscadores existen?
Es preciso diferenciar entre ellos. Podemos encontrar los estadísticos (epidemiológicos), terminológicos (semánticos) y bibliográficos. Los primeros se nutren de las series estadísticas aportadas por las administraciones e instituciones sanitarias. Esta información no suele disponerse en formatos y estructuras limpias para su reutilización. Además, necesita del desarrollo de herramientas de visualización y actualización para la toma de decisiones y para su difusión en medios de comunicación.
Para ello suelen utilizarse infografías y visualizaciones de datos, donde destacan ‘Information is beautiful’ y el mapa de la Universidad Johns Hopkins, enlazado a más de 200 000 sitios web y referente de los medios de comunicación.
Por su parte, los conjuntos de datos terminológicos son fundamentales en la gestión de información. Por ejemplo, hay distintos lenguajes controlados, como MESH o DeCS, que poseen un valor equiparable a la propia producción científica porque aumentan la precisión al recuperar información.
Al mismo tiempo, los conjuntos de datos bibliográficos recogen datos estructurados de investigación y agregan contenido desde otras fuentes. Además, es la base para el desarrollo de buscadores basados en conceptos y mapas de relaciones.
Sin embargo, la sobrecarga informativa producida por la vasta producción científica es más un problema que una ayuda si no se dispone de sistemas de recuperación de información adecuados. Los buscadores web convencionales no sirven para cribar la información útil.
Por ello, ha rebrotado la importancia de la descripción documental en estos conjuntos de datos y se apuesta claramente por la inteligencia artificial (IA) y la minería de datos, poniéndose a disposición de los investigadores prototipos que no habían tenido suficiente audiencia e interés hasta ahora.
Se precisa un nuevo paradigma para recuperar información que filtre entre la inmensa plétora de resultados. El reto es tremendo por el volumen y por trabajar al unísono con artículos revisados, ‘preprints’ y una heterogénea colección de fuentes oficiales. Es un verdadero desafío para la recuperación de información y, además, hay una gran urgencia en disponer de la misma.

CORD-19: Recopilación de datos sobre SARS-CoV-2
Por eso, en respuesta a esta gran cantidad de datos, el Instituto Allen y la Oficina de Política de Ciencia y Tecnología de Estados Unidos pusieron en marcha un recurso de libre acceso para la comunidad investigadora, llamado CORD-19, que engloba datos de investigación abierta sobre covid-19. Cuenta con 280 000 artículos académicos, incluyendo más de 150 000 con texto completo, sobre covid-19, SARS-CoV-2 y coronavirus relacionados.
Este recurso se puso en marcha el 16 de marzo de 2020 y participaron también la Biblioteca Nacional de Medicina (NLM), la iniciativa Chan Zuckerberg, Microsoft Research Asia y el contenedor de datos Kaggle, coordinado por el Centro de Seguridad y Tecnologías Emergentes de la Universidad de Georgetown.
CORD-19 agrega información semanalmente desde los repositorios PubMed, MedRxiv y OMS. Además, existe una gran sinergia entre CORD-19 y el buscador semántico académico Semantic Scholar, por lo que permite la descarga del conjunto de datos. Es, sin duda alguna, el referente informativo para los investigadores durante esta pandemia, ya que Google Scholar no ha llevado a cabo algo parecido.
El esfuerzo desarrollado por la comunidad científica no tiene precedentes en volumen de su producción y en la velocidad de su transmisión. El volumen de información a manejar es ingente, el ‘big data’ ayuda a los virólogos y a otros expertos en el manejo de la información estadística y en la identificación de posibles patrones de comportamiento de la pandemia.
Información científica clasificada
A partir de CORD-19, hemos identificado más de 40 fuentes (13 conjuntos de datos y 27 buscadores) sobre la pandemia que podemos clasificar en tres categorías:
-
Buscadores convencionales. Similares a los sistemas de búsqueda de las plataformas bibliográficas. Estos alinean la respuesta según la relevancia, con filtrado de documentos por fuente (Elsevier, biorxiv, WHO/OMS, etc.), revista, autor y fecha de publicación. También localizan información por términos o por frase exacta.
-
“Visualizadores” de la información. Además de la búsqueda convencional localizan documentos gracias a tesauros, frecuencia de uso, proximidad de términos en las frases y expresiones regulares. Suelen complementarse con herramientas de visualización de las asociaciones entre estos conceptos (genes, productos químicos, fármacos, mutaciones, líneas celulares, especies y enfermedades). También muestran los resultados mediante nubes de etiquetas.
-
Inteligencia artificial. Son herramientas de última generación que aplican modelos de redes neuronales para mejorar la calidad de la información recuperada. Pretenden ayudar a la toma de decisiones basadas en evidencias y en generación de ideas. También es posible la navegación por facetas y otros sistemas se apoyan en la idea del ‘chatbot’. Hay sistemas que aplican el modelado de temas para descubrir ideas subyacentes. Otros sistemas entregan como respuesta informes con asociaciones entre conceptos, filtrado por fuentes, edad de los pacientes, género, tipo de publicaciones, características del trastorno, tratamientos aplicados y resultados, palabras clave más relacionadas con el concepto, fechas de publicación y autores más influyentes en el campo de la consulta.
Es muy significativo, y digno de elogio, el esfuerzo de empresas e instituciones que han desarrollado servicios de consulta y los han puesto a disposición de la comunidad científica.
Resulta claro que la lucha contra la pandemia ha disparado el uso de buscadores semánticos por la necesidad de filtrar los resultados de las búsquedas por tres razones. La primera es la enorme producción científica que puede “infoxicar”, algo consustancial al tiempo presente. La segunda es la necesidad de recuperar por facetas o conceptos más que por coincidencia de términos. La última es la imposibilidad material de emplear el impacto como referencia para elegir un artículo.
Queda ahora verificar si este avance de la tecnología de búsqueda semántica se va a quedar circunscrito a la lucha contra la pandemia o si se va a ampliar a otros sistemas de información. Lo lógico (y deseable) es que así sea.
Una versión más ampliada de este artículo está accesible en acceso abierto en la Revista Española de Documentación Científica, editada por el CSIC.
![]()
The authors do not work for, consult, own shares in or receive funding from any company or organization that would benefit from this article, and have disclosed no relevant affiliations beyond their academic appointment.
The Conversation. Rigor académico, oficio periodístico
Este periodismo no lo financian bancos ni partidos
Lo sostienen personas como tú. En un contexto de ruido, propaganda y desinformación, hacer periodismo crítico, independiente y sin miedo tiene un coste.
Si este artículo te ha servido, te ha informado o te ha hecho pensar, puedes ayudarnos a seguir publicando.
Cada aportación cuenta. Sin intermediarios. Sin líneas rojas impuestas. Solo periodismo sostenido por su comunidad.
Related posts
SÍGUENOS
‘MANGOS’, parte 8 | el peligro que se viene
Durante años nos vendieron Silicon Valley como un laboratorio de futuro. Jóvenes brillantes, garajes, innovación, camisetas negras, discursos sobre conectar a la humanidad y mejorar el mundo. La postal era limpia. La realidad, bastante más sucia. Detrás de cada promesa había concentración. Detrás de cada aplicación gratuita, extracción de datos. Detrás de cada “nube”, centros de datos, contratos, energía, agua, minerales, trabajadores y trabajadoras precarizadas, lobbies y dependencias públicas cada vez más profundas.
Ahora esa vieja maquinaria entra en una fase más peligrosa. Los MANGOS —Meta, Anthropic, Nvidia, Google, OpenAI y SpaceX— no quieren dominar solo una red social, un buscador, un sistema de satélites, una nube o un modelo de inteligencia artificial. Quieren colocarse en todos los puntos por los que tendrá que pasar la economía digital de la próxima década. Chips, datos, cómputo, aplicaciones, satélites, sistemas operativos, distribución, defensa, publicidad, centros de datos y modelos generativos. El menú completo.
Y eso cambia la escala del problema.
‘MANGOS’, parte 7 | Google: la inteligencia artificial que no necesita pedir permiso porque ya vive en tu móvil
Google lleva años vendiéndose como una puerta al conocimiento. Una caja blanca. Un logo simpático. Una promesa infantil de acceso universal a la información. Durante mucho tiempo funcionó. Buscar algo en Internet era “googlearlo”, como si una empresa privada hubiera conseguido convertirse en verbo sin que eso pareciera un problema político. Y ahí empezó todo. Cuando una compañía logra confundirse con una acción cotidiana, ya no compite en un mercado. Organiza el mercado.
Ahora Google forma parte de los MANGOS, el nuevo club de gigantes tecnológicos que aspiran a dominar la inteligencia artificial: Meta, Anthropic, Nvidia, Google, OpenAI y SpaceX. Es, junto a Meta, una de las supervivientes del viejo bloque de las GAFAM. No ha llegado a esta fase desde fuera. No es una recién llegada con hambre de disrupción. Es una de las corporaciones que ya moldeaban Internet antes de que ChatGPT encendiera la fiebre global el 30 de noviembre de 2022.
Su ventaja es brutal. Google no necesita convencer a medio mundo de entrar en su ecosistema porque medio mundo ya vive dentro. El buscador, Gmail, YouTube, Maps, Android, Chrome, Google Docs, la nube, la publicidad. Una arquitectura entera de dependencia cotidiana. La inteligencia artificial no aterriza ahí como un producto nuevo, sino como una capa añadida sobre una infraestructura existente. Gemini no tiene que llamar a la puerta. La puerta es suya.
‘MANGOS’, parte 6 | Nvidia: la fábrica de picos de la fiebre del oro de la inteligencia artificial
Toda fiebre del oro necesita una mentira y una verdad. La mentira es que cualquiera puede hacerse rico si corre lo bastante rápido. La verdad es que casi siempre ganan quienes venden las herramientas. En la inteligencia artificial, esa empresa se llama Nvidia.
Mientras OpenAI, Anthropic, Google, Meta y SpaceX compiten por modelos, asistentes, plataformas, satélites y relatos de futuro, Nvidia ocupa un lugar más frío y mucho más decisivo: el hardware. Los chips. La base material. Sin sus procesadores, no hay entrenamiento masivo de modelos, no hay centros de datos a escala, no hay carrera por la IA generativa, no hay promesa de automatizarlo todo. Hay discursos, sí. Hay presentaciones. Hay CEOs hablando de cambiar el mundo. Pero falta la máquina.
Por eso Nvidia forma parte de los MANGOS, el nuevo acrónimo que agrupa a Meta, Anthropic, Nvidia, Google, OpenAI y SpaceX como las empresas llamadas a dominar la cadena de valor de la inteligencia artificial. Su papel es distinto al de las demás. No necesita llegar directamente a 3.500 millones de usuarios activos como Meta. No necesita tener la aplicación más conocida como OpenAI. No necesita controlar Android como Google ni lanzar satélites como SpaceX. Nvidia está antes. Más abajo. En el sótano real del sistema.
Y quien controla el sótano controla el edificio.
Vídeo | Más de 1.000.000 de personas han visto nuestra denuncia ‘Fábrica de obediencia’
Dicen que una bandera arcoíris “adoctrina” a la infancia. Pero meter a menores bajo una carpa para que lloren, griten, se arrodillen y aprendan obediencia lo llaman “avivamiento”.
Estrenamos nuevo reportaje de Spanish Revolution: “Tras la Nakba”, segunda parte de “Palestina y la historia que quieren borrar”.
La historia de Palestina no empezó el 7 de octubre de 2023. Y tampoco terminó en 1948 con la Nakba. Después vino 1967, la ocupación de Gaza, Cisjordania y Jerusalén Este, los checkpoints, los asentamientos, el muro, el bloqueo y una maquinaria de control que…
Seguir
Seguir
Seguir
Subscribe
Seguir