CORD-19: Buscador semántico de información científica para hacer frente a la pandemia

Redaccion, 09 marzo 2021 21:48 0 7 min read 23

Este medio se sostiene gracias a su comunidad. APOYA EL PERIODISMO INDEPENDIENTE .

file 20210222 23 1ih1vv6.jpg?ixlib=rb 1.1 — Shutterstock / PopTika

Vivimos una pandemia de origen y alcance sin determinar que requiere de grandes esfuerzos para frenar sus efectos. La coordinación de científicos, políticos y ciudadanía, con el apoyo de muchas empresas tecnológicas, es un hecho singular que afecta positivamente a la investigación científica en un espacio muy breve de tiempo, generando herramientas de búsqueda basadas, muchas de ellas, en tecnologías semánticas.

La descripción de la documentación científica, la normalización terminológica vía tesauros y facetas, la minería de datos y el desarrollo de sistemas interoperables han permitido, en un tiempo récord, generar una amplia variedad de fuentes de información alrededor del coronavirus (artículos, casos clínicos, datos epidemiológicos, evidencias o patentes).

La reacción en cadena de editoriales, universidades, centros de investigación y empresas tecnológicas ha propiciado una diseminación de la información científica sobre la covid-19, paralela al ritmo de contagio del propio virus, que algunos autores califican de “revolución”.

Buscadores de información

Revistas biomédicas como New England Journal of Medicine, Lancet, Nature, Science o British Medical Journal han publicado abundante material bibliográfico en abierto. Además, las editoriales han creado espacios de información con búsquedas predefinidas por los principales tópicos (Cambridge Core Coronavirus Free Access Collection, EBSCO Covid-19, Elsevier Coronavirus Research Repository, etc.).

Por otra parte, los repositorios temáticos ofrecen artículos y ‘preprints’. Entre ellos podemos encontrar MedRxiv, Biorxiv o Pubmed. Esta última, por ejemplo, ha añadido publicaciones relacionadas diariamente desde principios de enero, con un pico de 300 artículos en un solo día.

Las grandes plataformas bibliográficas y los buscadores académicos también permiten acceder a los documentos mediante búsquedas predeterminadas, filtros y conjuntos de datos estructurados (Dimensions, Kaggle, Google Dataset Search, Semantic Scholar, etc.). También están involucrados el buscador de patentes Lens (patentes) y el de casos clínicos, Kahun.

Las autoridades sanitarias, universidades, sociedades científicas y centros de investigación han desarrollado servicios informativos: National Institutes of Health, Centers for Disease Control and Prevention, Organización Mundial de la Salud y el Centro de Recursos de Coronavirus de la Universidad Johns Hopkins, el punto informativo más conocido.

La emergencia informativa no solo recae en el ámbito científico, sino también en el político y social. Ello propicia una enorme proliferación de datos de distinto tipo, estructura, formato y cobertura, saturando su localización y gestión.

file 20210222 21 t1md1y.png?ixlib=rb 1.1 — Centro de Recursos del Coronavirus de la Universidad Johns Hopkins. Johns Hopkins University

¿Cuántos tipos de buscadores existen?

Es preciso diferenciar entre ellos. Podemos encontrar los estadísticos (epidemiológicos), terminológicos (semánticos) y bibliográficos. Los primeros se nutren de las series estadísticas aportadas por las administraciones e instituciones sanitarias. Esta información no suele disponerse en formatos y estructuras limpias para su reutilización. Además, necesita del desarrollo de herramientas de visualización y actualización para la toma de decisiones y para su difusión en medios de comunicación.

Para ello suelen utilizarse infografías y visualizaciones de datos, donde destacan ‘Information is beautiful’ y el mapa de la Universidad Johns Hopkins, enlazado a más de 200 000 sitios web y referente de los medios de comunicación.

Por su parte, los conjuntos de datos terminológicos son fundamentales en la gestión de información. Por ejemplo, hay distintos lenguajes controlados, como MESH o DeCS, que poseen un valor equiparable a la propia producción científica porque aumentan la precisión al recuperar información.

Al mismo tiempo, los conjuntos de datos bibliográficos recogen datos estructurados de investigación y agregan contenido desde otras fuentes. Además, es la base para el desarrollo de buscadores basados en conceptos y mapas de relaciones.

Sin embargo, la sobrecarga informativa producida por la vasta producción científica es más un problema que una ayuda si no se dispone de sistemas de recuperación de información adecuados. Los buscadores web convencionales no sirven para cribar la información útil.

Por ello, ha rebrotado la importancia de la descripción documental en estos conjuntos de datos y se apuesta claramente por la inteligencia artificial (IA) y la minería de datos, poniéndose a disposición de los investigadores prototipos que no habían tenido suficiente audiencia e interés hasta ahora.

Se precisa un nuevo paradigma para recuperar información que filtre entre la inmensa plétora de resultados. El reto es tremendo por el volumen y por trabajar al unísono con artículos revisados, ‘preprints’ y una heterogénea colección de fuentes oficiales. Es un verdadero desafío para la recuperación de información y, además, hay una gran urgencia en disponer de la misma.

file 20210222 21 jerolv.png?ixlib=rb 1.1

CORD-19: Recopilación de datos sobre SARS-CoV-2

Por eso, en respuesta a esta gran cantidad de datos, el Instituto Allen y la Oficina de Política de Ciencia y Tecnología de Estados Unidos pusieron en marcha un recurso de libre acceso para la comunidad investigadora, llamado CORD-19, que engloba datos de investigación abierta sobre covid-19. Cuenta con 280 000 artículos académicos, incluyendo más de 150 000 con texto completo, sobre covid-19, SARS-CoV-2 y coronavirus relacionados.

Este recurso se puso en marcha el 16 de marzo de 2020 y participaron también la Biblioteca Nacional de Medicina (NLM), la iniciativa Chan Zuckerberg, Microsoft Research Asia y el contenedor de datos Kaggle, coordinado por el Centro de Seguridad y Tecnologías Emergentes de la Universidad de Georgetown.

CORD-19 agrega información semanalmente desde los repositorios PubMed, MedRxiv y OMS. Además, existe una gran sinergia entre CORD-19 y el buscador semántico académico Semantic Scholar, por lo que permite la descarga del conjunto de datos. Es, sin duda alguna, el referente informativo para los investigadores durante esta pandemia, ya que Google Scholar no ha llevado a cabo algo parecido.

El esfuerzo desarrollado por la comunidad científica no tiene precedentes en volumen de su producción y en la velocidad de su transmisión. El volumen de información a manejar es ingente, el ‘big data’ ayuda a los virólogos y a otros expertos en el manejo de la información estadística y en la identificación de posibles patrones de comportamiento de la pandemia.

Información científica clasificada

A partir de CORD-19, hemos identificado más de 40 fuentes (13 conjuntos de datos y 27 buscadores) sobre la pandemia que podemos clasificar en tres categorías:

Buscadores convencionales. Similares a los sistemas de búsqueda de las plataformas bibliográficas. Estos alinean la respuesta según la relevancia, con filtrado de documentos por fuente (Elsevier, biorxiv, WHO/OMS, etc.), revista, autor y fecha de publicación. También localizan información por términos o por frase exacta.
“Visualizadores” de la información. Además de la búsqueda convencional localizan documentos gracias a tesauros, frecuencia de uso, proximidad de términos en las frases y expresiones regulares. Suelen complementarse con herramientas de visualización de las asociaciones entre estos conceptos (genes, productos químicos, fármacos, mutaciones, líneas celulares, especies y enfermedades). También muestran los resultados mediante nubes de etiquetas.
Inteligencia artificial. Son herramientas de última generación que aplican modelos de redes neuronales para mejorar la calidad de la información recuperada. Pretenden ayudar a la toma de decisiones basadas en evidencias y en generación de ideas. También es posible la navegación por facetas y otros sistemas se apoyan en la idea del ‘chatbot’. Hay sistemas que aplican el modelado de temas para descubrir ideas subyacentes. Otros sistemas entregan como respuesta informes con asociaciones entre conceptos, filtrado por fuentes, edad de los pacientes, género, tipo de publicaciones, características del trastorno, tratamientos aplicados y resultados, palabras clave más relacionadas con el concepto, fechas de publicación y autores más influyentes en el campo de la consulta.

Es muy significativo, y digno de elogio, el esfuerzo de empresas e instituciones que han desarrollado servicios de consulta y los han puesto a disposición de la comunidad científica.

Resulta claro que la lucha contra la pandemia ha disparado el uso de buscadores semánticos por la necesidad de filtrar los resultados de las búsquedas por tres razones. La primera es la enorme producción científica que puede “infoxicar”, algo consustancial al tiempo presente. La segunda es la necesidad de recuperar por facetas o conceptos más que por coincidencia de términos. La última es la imposibilidad material de emplear el impacto como referencia para elegir un artículo.

Queda ahora verificar si este avance de la tecnología de búsqueda semántica se va a quedar circunscrito a la lucha contra la pandemia o si se va a ampliar a otros sistemas de información. Lo lógico (y deseable) es que así sea.

Una versión más ampliada de este artículo está accesible en acceso abierto en la Revista Española de Documentación Científica, editada por el CSIC.

The authors do not work for, consult, own shares in or receive funding from any company or organization that would benefit from this article, and have disclosed no relevant affiliations beyond their academic appointment.

The Conversation. Rigor académico, oficio periodístico

Este periodismo no lo financian bancos ni partidos

Lo sostienen personas como tú. En un contexto de ruido, propaganda y desinformación, hacer periodismo crítico, independiente y sin miedo tiene un coste.

Si este artículo te ha servido, te ha informado o te ha hecho pensar, puedes ayudarnos a seguir publicando.

Apoya este medio independiente

Cada aportación cuenta. Sin intermediarios. Sin líneas rojas impuestas. Solo periodismo sostenido por su comunidad.

Tags #Artículos anteriores

DERECHOS Y LIBERTADES, PRINCIPAL

El tema que Évole olvidó ante Ibai: una madre denuncia la adicción a las tecnologías de su hijo menor de edad

Artículos anteriores

¿Vulnera derechos el pasaporte de vacunación contra la covid-19?

Deja una respuesta Cancelar la respuesta

Netanyahu ya no disimula: Gaza se ocupa por porcentajes

Netanyahu ya no disimula. Gaza se está ocupando por porcentajes: primero el 52%, luego el 60%, ahora ordena avanzar hasta el 70% y, cuando el público le pide el 100%, responde con una broma: “vayamos en orden”.

Eso no es seguridad. Es desposesión administrada. Es convertir un alto el fuego en una coartada para encerrar a 2,1 millones de personas en cada vez menos territorio, mientras el mundo finge sorpresa ante una estrategia que lleva meses desplegándose delante de todos.

Cuando un Gobierno habla de ocupar Gaza por fases, ya no estamos ante una guerra: estamos ante un plan.

👉 El artículo completo puede leerse en el primer comentario.

Y si quieres ayudarnos a seguir haciendo periodismo que no baja la cabeza:
donorbox.org/aliadas

Redaccion, 29 mayo 2026 07:42 0

Contra el racismo institucional: Ayuso intentó vender colapso y el Supremo le contestó con una palabra incómoda, pruebas

Ayuso intentó vender colapso y el Supremo le ha contestado con lo único que desmonta la propaganda: pruebas. Y no las había. Ni de que la sanidad fuera a hundirse, ni de que la educación fuera a reventar, ni de que Madrid fuese a convertirse en una especie de apocalipsis administrativo por regularizar a personas migrantes.

El truco es viejo y miserable: primero deterioran lo público y luego culpan a quienes llegan buscando derechos, trabajo y una vida posible. No era gestión. Era racismo institucional con membrete oficial.

El artículo completo puede leerse en el primer comentario 👇

Y si queréis ayudarnos a seguir haciendo periodismo que no agacha la cabeza: Donorbox.org/aliadas

Redaccion, 29 mayo 2026 07:41 0

Aimar Bretos toma ‘Hoy por hoy’ mientras la SER intenta vender normalidad donde huele a crisis

La SER intenta vender como relevo natural lo que suena demasiado a operación de poder.

Aimar Bretos asumirá Hoy por hoy el 31 de agosto, tras la salida de Àngels Barceló después de 21 años en la cadena y 7 al frente del programa. El problema no es Bretos. El problema es ese viejo truco de llamar “pluralidad” a lo que muchas veces significa presión editorial, ajuste interno y disciplina empresarial.

Porque cuando una periodista sale así, cuando compañeras y compañeros lamentan públicamente las formas, cuando la plantilla tiene que defender su profesionalidad, la palabra independencia empieza a sonar menos a principio y más a decorado.

A lo que llaman relevo quizá haya que llamarlo por su nombre: una operación de despacho con música de sintonía.

👉 Artículo completo en el primer comentario.

💥 Puedes ayudarnos a seguir haciendo periodismo incómodo en Donorbox.org/aliadas.

Xan Pereira, 29 mayo 2026 07:39 0

Vídeo | Palantir en España: el contrato opaco que mete a Silicon Valley en el corazón de Defensa

Defensa entregó a una empresa nacida en el ecosistema de la CIA una pieza sensible de la inteligencia militar española, sin publicidad, con una sola oferta y bajo una capa de secreto que huele demasiado a negocio blindado.

Redaccion, 26 mayo 2026 07:08 0

Vídeo | Palantir en España: el contrato opaco que mete el tecnofascismo en Defensa

Mientras nos hablan de modernización, eficiencia y seguridad, el Estado español abre la puerta de su inteligencia militar a una de las empresas más vinculadas al negocio global de la vigilancia, la guerra y el poder algorítmico. Te lo contamos en #ReportajesSR. Presentado por Patricia Salvador.

Redaccion, 25 mayo 2026 06:59 0

Blog

CORD-19: Buscador semántico de información científica para hacer frente a la pandemia

Buscadores de información

¿Cuántos tipos de buscadores existen?

CORD-19: Recopilación de datos sobre SARS-CoV-2

Información científica clasificada

Este periodismo no lo financian bancos ni partidos

Deja una respuesta Cancelar la respuesta

SÍGUENOS

Netanyahu ya no disimula: Gaza se ocupa por porcentajes

Contra el racismo institucional: Ayuso intentó vender colapso y el Supremo le contestó con una palabra incómoda, pruebas

Aimar Bretos toma ‘Hoy por hoy’ mientras la SER intenta vender normalidad donde huele a crisis

Vídeo | Palantir en España: el contrato opaco que mete a Silicon Valley en el corazón de Defensa

Vídeo | Palantir en España: el contrato opaco que mete el tecnofascismo en Defensa

Transparencia económica en Spanish Revolution

Blog

CORD-19: Buscador semántico de información científica para hacer frente a la pandemia

Buscadores de información

¿Cuántos tipos de buscadores existen?

CORD-19: Recopilación de datos sobre SARS-CoV-2

Información científica clasificada

Este periodismo no lo financian bancos ni partidos

Related posts

Cómo Chile se convirtió en un improbable ganador en la carrera de la vacuna covid-19

¿Qué son los mercados de predicción y por qué necesitamos uno público para ciencia y tecnología?

Morir antes de nacer: ¿cómo actuar ante una muerte que jamás se contempla?

¿Pueden los políticos saltarse la cola? Dilemas éticos de la vacuna de covid-19

Cuidado: Los resultados de la plitidepsina contra la covid-19 siguen siendo preliminares

Más allá del Brexit, Reino Unido y la UE siguen obligados a entenderse

Deja una respuesta Cancelar la respuesta

SÍGUENOS

Netanyahu ya no disimula: Gaza se ocupa por porcentajes

Contra el racismo institucional: Ayuso intentó vender colapso y el Supremo le contestó con una palabra incómoda, pruebas

Aimar Bretos toma ‘Hoy por hoy’ mientras la SER intenta vender normalidad donde huele a crisis

Vídeo | Palantir en España: el contrato opaco que mete a Silicon Valley en el corazón de Defensa

Vídeo | Palantir en España: el contrato opaco que mete el tecnofascismo en Defensa