CORD-19: Buscador semántico de información científica para hacer frente a la pandemia

Redaccion, 09 marzo 2021 21:48 0 7 min read 34

Este medio se sostiene gracias a su comunidad. APOYA EL PERIODISMO INDEPENDIENTE .

file 20210222 23 1ih1vv6.jpg?ixlib=rb 1.1 — Shutterstock / PopTika

Vivimos una pandemia de origen y alcance sin determinar que requiere de grandes esfuerzos para frenar sus efectos. La coordinación de científicos, políticos y ciudadanía, con el apoyo de muchas empresas tecnológicas, es un hecho singular que afecta positivamente a la investigación científica en un espacio muy breve de tiempo, generando herramientas de búsqueda basadas, muchas de ellas, en tecnologías semánticas.

La descripción de la documentación científica, la normalización terminológica vía tesauros y facetas, la minería de datos y el desarrollo de sistemas interoperables han permitido, en un tiempo récord, generar una amplia variedad de fuentes de información alrededor del coronavirus (artículos, casos clínicos, datos epidemiológicos, evidencias o patentes).

La reacción en cadena de editoriales, universidades, centros de investigación y empresas tecnológicas ha propiciado una diseminación de la información científica sobre la covid-19, paralela al ritmo de contagio del propio virus, que algunos autores califican de “revolución”.

Buscadores de información

Revistas biomédicas como New England Journal of Medicine, Lancet, Nature, Science o British Medical Journal han publicado abundante material bibliográfico en abierto. Además, las editoriales han creado espacios de información con búsquedas predefinidas por los principales tópicos (Cambridge Core Coronavirus Free Access Collection, EBSCO Covid-19, Elsevier Coronavirus Research Repository, etc.).

Por otra parte, los repositorios temáticos ofrecen artículos y ‘preprints’. Entre ellos podemos encontrar MedRxiv, Biorxiv o Pubmed. Esta última, por ejemplo, ha añadido publicaciones relacionadas diariamente desde principios de enero, con un pico de 300 artículos en un solo día.

Las grandes plataformas bibliográficas y los buscadores académicos también permiten acceder a los documentos mediante búsquedas predeterminadas, filtros y conjuntos de datos estructurados (Dimensions, Kaggle, Google Dataset Search, Semantic Scholar, etc.). También están involucrados el buscador de patentes Lens (patentes) y el de casos clínicos, Kahun.

Las autoridades sanitarias, universidades, sociedades científicas y centros de investigación han desarrollado servicios informativos: National Institutes of Health, Centers for Disease Control and Prevention, Organización Mundial de la Salud y el Centro de Recursos de Coronavirus de la Universidad Johns Hopkins, el punto informativo más conocido.

La emergencia informativa no solo recae en el ámbito científico, sino también en el político y social. Ello propicia una enorme proliferación de datos de distinto tipo, estructura, formato y cobertura, saturando su localización y gestión.

file 20210222 21 t1md1y.png?ixlib=rb 1.1 — Centro de Recursos del Coronavirus de la Universidad Johns Hopkins. Johns Hopkins University

¿Cuántos tipos de buscadores existen?

Es preciso diferenciar entre ellos. Podemos encontrar los estadísticos (epidemiológicos), terminológicos (semánticos) y bibliográficos. Los primeros se nutren de las series estadísticas aportadas por las administraciones e instituciones sanitarias. Esta información no suele disponerse en formatos y estructuras limpias para su reutilización. Además, necesita del desarrollo de herramientas de visualización y actualización para la toma de decisiones y para su difusión en medios de comunicación.

Para ello suelen utilizarse infografías y visualizaciones de datos, donde destacan ‘Information is beautiful’ y el mapa de la Universidad Johns Hopkins, enlazado a más de 200 000 sitios web y referente de los medios de comunicación.

Por su parte, los conjuntos de datos terminológicos son fundamentales en la gestión de información. Por ejemplo, hay distintos lenguajes controlados, como MESH o DeCS, que poseen un valor equiparable a la propia producción científica porque aumentan la precisión al recuperar información.

Al mismo tiempo, los conjuntos de datos bibliográficos recogen datos estructurados de investigación y agregan contenido desde otras fuentes. Además, es la base para el desarrollo de buscadores basados en conceptos y mapas de relaciones.

Sin embargo, la sobrecarga informativa producida por la vasta producción científica es más un problema que una ayuda si no se dispone de sistemas de recuperación de información adecuados. Los buscadores web convencionales no sirven para cribar la información útil.

Por ello, ha rebrotado la importancia de la descripción documental en estos conjuntos de datos y se apuesta claramente por la inteligencia artificial (IA) y la minería de datos, poniéndose a disposición de los investigadores prototipos que no habían tenido suficiente audiencia e interés hasta ahora.

Se precisa un nuevo paradigma para recuperar información que filtre entre la inmensa plétora de resultados. El reto es tremendo por el volumen y por trabajar al unísono con artículos revisados, ‘preprints’ y una heterogénea colección de fuentes oficiales. Es un verdadero desafío para la recuperación de información y, además, hay una gran urgencia en disponer de la misma.

file 20210222 21 jerolv.png?ixlib=rb 1.1

CORD-19: Recopilación de datos sobre SARS-CoV-2

Por eso, en respuesta a esta gran cantidad de datos, el Instituto Allen y la Oficina de Política de Ciencia y Tecnología de Estados Unidos pusieron en marcha un recurso de libre acceso para la comunidad investigadora, llamado CORD-19, que engloba datos de investigación abierta sobre covid-19. Cuenta con 280 000 artículos académicos, incluyendo más de 150 000 con texto completo, sobre covid-19, SARS-CoV-2 y coronavirus relacionados.

Este recurso se puso en marcha el 16 de marzo de 2020 y participaron también la Biblioteca Nacional de Medicina (NLM), la iniciativa Chan Zuckerberg, Microsoft Research Asia y el contenedor de datos Kaggle, coordinado por el Centro de Seguridad y Tecnologías Emergentes de la Universidad de Georgetown.

CORD-19 agrega información semanalmente desde los repositorios PubMed, MedRxiv y OMS. Además, existe una gran sinergia entre CORD-19 y el buscador semántico académico Semantic Scholar, por lo que permite la descarga del conjunto de datos. Es, sin duda alguna, el referente informativo para los investigadores durante esta pandemia, ya que Google Scholar no ha llevado a cabo algo parecido.

El esfuerzo desarrollado por la comunidad científica no tiene precedentes en volumen de su producción y en la velocidad de su transmisión. El volumen de información a manejar es ingente, el ‘big data’ ayuda a los virólogos y a otros expertos en el manejo de la información estadística y en la identificación de posibles patrones de comportamiento de la pandemia.

Información científica clasificada

A partir de CORD-19, hemos identificado más de 40 fuentes (13 conjuntos de datos y 27 buscadores) sobre la pandemia que podemos clasificar en tres categorías:

Buscadores convencionales. Similares a los sistemas de búsqueda de las plataformas bibliográficas. Estos alinean la respuesta según la relevancia, con filtrado de documentos por fuente (Elsevier, biorxiv, WHO/OMS, etc.), revista, autor y fecha de publicación. También localizan información por términos o por frase exacta.
“Visualizadores” de la información. Además de la búsqueda convencional localizan documentos gracias a tesauros, frecuencia de uso, proximidad de términos en las frases y expresiones regulares. Suelen complementarse con herramientas de visualización de las asociaciones entre estos conceptos (genes, productos químicos, fármacos, mutaciones, líneas celulares, especies y enfermedades). También muestran los resultados mediante nubes de etiquetas.
Inteligencia artificial. Son herramientas de última generación que aplican modelos de redes neuronales para mejorar la calidad de la información recuperada. Pretenden ayudar a la toma de decisiones basadas en evidencias y en generación de ideas. También es posible la navegación por facetas y otros sistemas se apoyan en la idea del ‘chatbot’. Hay sistemas que aplican el modelado de temas para descubrir ideas subyacentes. Otros sistemas entregan como respuesta informes con asociaciones entre conceptos, filtrado por fuentes, edad de los pacientes, género, tipo de publicaciones, características del trastorno, tratamientos aplicados y resultados, palabras clave más relacionadas con el concepto, fechas de publicación y autores más influyentes en el campo de la consulta.

Es muy significativo, y digno de elogio, el esfuerzo de empresas e instituciones que han desarrollado servicios de consulta y los han puesto a disposición de la comunidad científica.

Resulta claro que la lucha contra la pandemia ha disparado el uso de buscadores semánticos por la necesidad de filtrar los resultados de las búsquedas por tres razones. La primera es la enorme producción científica que puede “infoxicar”, algo consustancial al tiempo presente. La segunda es la necesidad de recuperar por facetas o conceptos más que por coincidencia de términos. La última es la imposibilidad material de emplear el impacto como referencia para elegir un artículo.

Queda ahora verificar si este avance de la tecnología de búsqueda semántica se va a quedar circunscrito a la lucha contra la pandemia o si se va a ampliar a otros sistemas de información. Lo lógico (y deseable) es que así sea.

Una versión más ampliada de este artículo está accesible en acceso abierto en la Revista Española de Documentación Científica, editada por el CSIC.

The authors do not work for, consult, own shares in or receive funding from any company or organization that would benefit from this article, and have disclosed no relevant affiliations beyond their academic appointment.

The Conversation. Rigor académico, oficio periodístico

Este periodismo no lo financian bancos ni partidos

Lo sostienen personas como tú. En un contexto de ruido, propaganda y desinformación, hacer periodismo crítico, independiente y sin miedo tiene un coste.

Si este artículo te ha servido, te ha informado o te ha hecho pensar, puedes ayudarnos a seguir publicando.

Apoya este medio independiente

Cada aportación cuenta. Sin intermediarios. Sin líneas rojas impuestas. Solo periodismo sostenido por su comunidad.

Tags #Artículos anteriores

DERECHOS Y LIBERTADES, PRINCIPAL

El tema que Évole olvidó ante Ibai: una madre denuncia la adicción a las tecnologías de su hijo menor de edad

Artículos anteriores

¿Vulnera derechos el pasaporte de vacunación contra la covid-19?

Deja una respuesta Cancelar la respuesta

Luciana Gatti entra en política porque el Congreso brasileño está legislando la catástrofe

Luciana Gatti lleva más de 30 años estudiando la Amazonia y los gases que aceleran el calentamiento global. Es investigadora principal del Instituto Nacional de Investigaciones Espaciales de Brasil, el INPE, y coordina su Laboratorio de Gases de Efecto Invernadero. No es una tertuliana reciclada, una celebridad buscando foco ni una profesional de la política fabricada en un despacho. Es una científica que ha dedicado décadas a medir cómo uno de los mayores reguladores climáticos del planeta está dejando de funcionar.

Ahora ha decidido presentarse al Congreso.

Gatti anunció el 13 de julio su precandidatura a diputada federal por São Paulo dentro del Partido Socialismo y Libertad, el PSOL. Las candidaturas deberán registrarse oficialmente antes del 15 de agosto y la primera vuelta de las elecciones brasileñas se celebrará el 4 de octubre. Su objetivo es llevar la ciencia al lugar donde se aprueban las leyes que están acelerando el desastre. Porque publicar investigaciones sirve de poco cuando quienes legislan las ignoran, las niegan o directamente trabajan para las empresas responsables.

Redaccion, 16 julio 2026 08:10 0

Ecuador abandona la Amazonia al oro ilegal y deja solos a quienes la protegen

La Amazonia ecuatoriana está siendo devorada por la minería ilegal mientras el Estado llega tarde, responde a medias o directamente mira hacia otro lado. Retroexcavadoras, dragas, campamentos clandestinos y grupos armados avanzan sobre territorios indígenas y áreas protegidas. Frente a ellos, 598 guardaparques abandonados a su suerte, sin capacidad legal para incautar maquinaria y sin medios para enfrentarse a organizaciones que llevan fusiles.

En el Parque Nacional Sumaco Napo-Galeras, varios trabajadores fueron interceptados durante una inspección por hombres fuertemente armados que afirmaron proporcionar seguridad a los mineros. Les quitaron los teléfonos, el GPS y la cámara. Quienes debían representar la autoridad ambiental terminaron desarmados, retenidos y obligados a explicar qué hacían dentro del espacio que estaban protegiendo. Los delincuentes pedían cuentas a los guardaparques y no al revés.

Redaccion, 16 julio 2026 07:44 0

Ayuso convierte la cultura madrileña en un photocall pagado con dinero público

La política cultural de Isabel Díaz Ayuso tiene una regla bastante sencilla: para las creadoras y creadores corrientes existen formularios, convocatorias, límites presupuestarios y meses de espera; para las celebridades dispuestas a promocionar Madrid y posar junto al poder aparecen patrocinios millonarios, espacios públicos y contratos diseñados específicamente para ellas.

No es mecenazgo. Tampoco es una defensa desinteresada de la cultura. Es dinero público utilizado para comprar prestigio, propaganda turística y fotografías institucionales. La obra artística queda reducida a soporte publicitario y las administraciones se comportan como una agencia de representación financiada por las y los contribuyentes.

Nacho Cano fue durante años el mejor ejemplo de este modelo. Ahora Woody Allen recoge el testigo con un proyecto que recibirá 3 millones de euros de la Comunidad y del Ayuntamiento de Madrid. Dos nombres famosos, dos operaciones presentadas como apoyo cultural y una misma lógica: socializar el coste para que el beneficio político y empresarial quede en pocas manos.

Redaccion, 16 julio 2026 07:37 0

15.000 personas ya han visto cómo la fe se convierte en poder

El último ReportajeSR analiza cómo determinados sectores del evangelismo conservador dejaron de limitarse a los templos para convertirse en una maquinaria política al servicio de la extrema derecha. De Trump a Bolsonaro, de Milei a Vox: redes comunitarias, guerras culturales, dinero, medios y religión convertidos en infraestructura electoral.

Presentado por Léa Gugelmann, el reportaje ya ha superado las 15.000 visualizaciones desde su estreno. Porque para entender el auge de la extrema derecha no basta con mirar a sus candidatos: también hay que observar quién construye sus discursos, moviliza sus bases y presenta el autoritarismo como una misión divina.

Redaccion, 13 julio 2026 08:07 0

Vídeo | Sadismo en primera persona

Un turista graba el encierro de San Fermín como si estuviera en una atracción. Adrenalina, golpes, risas y animales convertidos en decorado para conseguir un vídeo viral. No está viviendo una tradición: está consumiendo sufrimiento como entretenimiento.

Además, corre con una cámara cuando está prohibido hacerlo, poniendo en peligro a quienes tiene alrededor. La turistificación añade otra capa de irresponsabilidad a una barbaridad ya normalizada: venir, beber, molestar, jugar con la vida ajena y marcharse con unos cuantos clics. El sadismo también se graba en primera persona.

Redaccion, 13 julio 2026 08:06 0

Blog

CORD-19: Buscador semántico de información científica para hacer frente a la pandemia

Buscadores de información

¿Cuántos tipos de buscadores existen?

CORD-19: Recopilación de datos sobre SARS-CoV-2

Información científica clasificada

Este periodismo no lo financian bancos ni partidos

Deja una respuesta Cancelar la respuesta

SÍGUENOS

Luciana Gatti entra en política porque el Congreso brasileño está legislando la catástrofe

Ecuador abandona la Amazonia al oro ilegal y deja solos a quienes la protegen

Ayuso convierte la cultura madrileña en un photocall pagado con dinero público

15.000 personas ya han visto cómo la fe se convierte en poder

Vídeo | Sadismo en primera persona

Transparencia económica en Spanish Revolution

Blog

CORD-19: Buscador semántico de información científica para hacer frente a la pandemia

Buscadores de información

¿Cuántos tipos de buscadores existen?

CORD-19: Recopilación de datos sobre SARS-CoV-2

Información científica clasificada

Este periodismo no lo financian bancos ni partidos

Related posts

El parto libre está en auge: ¿por qué lo eligen algunas mujeres?

Yolanda Díaz, al PP: “Aporten una idea, al menos una, que no se traduzca en precariedad”

Qué debemos tener en cuenta en una entrevista de trabajo

La genética ayuda a averiguar de dónde salieron los cuatro millones de ibis momificados de Saqqara

Joan Margarit y la música del cielo

Cómo varían el riesgo y el pronóstico de covid-19 en un paciente de EPOC

Deja una respuesta Cancelar la respuesta

SÍGUENOS

Luciana Gatti entra en política porque el Congreso brasileño está legislando la catástrofe

Ecuador abandona la Amazonia al oro ilegal y deja solos a quienes la protegen

Ayuso convierte la cultura madrileña en un photocall pagado con dinero público

15.000 personas ya han visto cómo la fe se convierte en poder

Vídeo | Sadismo en primera persona