La urgencia de ser F.A.I.R.

Hoja informativa

Solo en 2018 se recopilaron miles de petabytes de datos. Pero con demasiada frecuencia, los datos científicos no se utilizan más allá de su finalidad prevista. De hecho, PLOS realizó un estudio que indica que solo alrededor del 20% de los artículos publicados publican sus datos de apoyo en un repositorio científico de información. Esto dificulta a los científicos el acceso a los datos y su utilización. En lugar de ello, se quedan en discos duros u ordenadores, acumulando polvo digital.

Cuando se piensa en el esfuerzo que supone generar y conservar datos, duele el hecho de que apenas se utilicen y luego se archiven de forma inadecuada. ¿Por qué los científicos no aprovechan todo el potencial de los datos? En este artículo hablaremos de los obstáculos al uso y la reutilización de los datos y explicaremos por qué la industria de I+D necesita eliminarlos urgentemente.

No subestime el papel de los datos

El sector de I+D se basa en los datos; es uno de los principales productores y consumidores de datos y se basa en su análisis para desarrollar productos y servicios innovadores. Pero a la hora de compartir esos datos, hay que tener en cuenta ciertos requisitos: ¿son fácilmente localizables mediante herramientas de búsqueda comunes? ¿Pueden otros investigadores acceder a ellos para examinar fácilmente los datos y los metadatos asociados? ¿Y pueden utilizar los datos de múltiples maneras, de modo que puedan compararlos, analizarlos e integrarlos utilizando términos y formatos de uso común? ¿Se pueden reutilizar? En una palabra, ¿son F.A.I.R. (findable, accessible, interoperable, re-useable)? Barend Mons, profesor del Centro Médico de la Universidad de Leiden (Países Bajos), codirector de GO FERIA y el comité de datos del Consejo Científico Internacional, lo expresa mejor: "Es irresponsable apoyar la investigación pero no la gestión de datos".

Los datos son nuestro activo más valioso; cada dato constituye una pieza del rompecabezas necesario para innovar. Piense en todos los descubrimientos interesantes y potencialmente revolucionarios que han pasado desapercibidos porque los datos no se han tratado de la forma correcta. Tomemos como ejemplo la industria farmacéutica. Descubrir un fármaco es difícil, ya que resulta complicado predecir sus propiedades, como la eficacia y la toxicidad en el cuerpo humano. Para poder maximizar las posibilidades de descubrimiento de fármacos y reconvertir las moléculas en nuevos tratamientos, es crucial tener acceso a todos los datos disponibles.

Asimismo, la reutilización de datos ha cobrado mayor importancia a la hora de desarrollar modelos predictivos y aprender de la experiencia y los errores. Esto es especialmente relevante en un momento en el que ninguna organización por sí sola puede ofrecer el valor necesario en este mundo digital y conectado.

Es difícil para los investigadores compartir adecuadamente sus datos

Las nuevas formas de comunicación con herramientas digitales han derribado las fronteras tradicionales, dando lugar a más asociaciones, y las empresas deben poder compartir información para tomar decisiones con conocimiento de causa. Ahí es donde radica el reto: las organizaciones no pueden encontrar los datos, acceder a ellos fácilmente o interoperarlos. Por tanto, los datos no pueden reutilizarse.

Un informe de 2018 de la Comisión Europea calcula que los problemas de reutilización de datos cuestan a la UE unos 10.000 millones de euros al año solo en el sector académico, y otros 16.000 millones en oportunidades perdidas de innovar. Si se incluye el coste del problema de la reproducibilidad, estos costes aumentan considerablemente.

Según PLOS, incluso cuando los investigadores afirman que sus datos están "totalmente disponibles previa solicitud", otras personas que desean utilizarlos se topan a menudo con un muro, incapaces de acceder a los conjuntos de datos.

De hecho, sólo uno de cada diez conjuntos de datos era accesible y fiable para su uso, incluso cuando se solicitaba directamente al autor. Según el estudio, esto podía deberse a que el investigador no estaba localizable, no quería compartir sus datos o, simplemente, los datos se habían perdido o no estaban disponibles. Lo que necesitamos es que las políticas de intercambio de datos garanticen que los datos no sólo estén disponibles, sino que también sean fiables y accesibles a largo plazo.

Si no estás F.A.I.R., estás perdiendo dinero

Colocar los datos en un repositorio apoya los principios F.A.I.R.. Los repositorios proporcionan identificadores claros y persistentes, recopilación y curación por expertos, páginas de destino adecuadas y todo el apoyo necesario para citar los datos. Todo ello ofrece una información clara y coherente que es fácil de encontrar, acceder, utilizar de múltiples maneras -ya sea por un investigador o por una máquina- y reutilizar. Con este nivel de detalle e información, también es mucho más fácil establecer conexiones con otros estudios relacionados y extraer conclusiones fundamentadas.

Mons también subraya que si los datos se recopilan, conservan y tratan adecuadamente, los investigadores tendrán mucho más tiempo para realizar más investigaciones. Tal y como se hace ahora, los estudiantes de doctorado dedican 80% de su tiempo a corregir problemas de formato y errores menores para que los datos sean aptos para el análisis. Es una pérdida de tiempo y de talento. En términos monetarios, 400 de estos estudiantes equivaldrían a 200 empleados a tiempo completo.

Esta cuestión va más allá de la investigación y llega a la industria, animando a las organizaciones a formar asociaciones y romper silos para aportar el valor necesario. Entonces, ¿qué ocurre cuando los datos de una organización no son F.A.I.R.? Actualmente, las bases de datos internas de muchas organizaciones farmacéuticas están atascadas en silos y son menos F.A.I.R. que los datos del sector público. Una de las razones es que históricamente (y hasta hace poco), los datos se generaban para un proyecto o estudio específico, sin considerar la posibilidad de reutilizarlos. Dado que la modelización predictiva y el aprendizaje a partir de experimentos pasados dependen de la reutilización de los datos, esta situación no es la ideal y debe cambiar urgentemente.

Aquí es donde los principios rectores de la F.A.I.R. tendrán mayor repercusión: al principio del viaje de los datos, cuando se recopilan y almacenan. Los datos F.A.I.R. no sólo repercutirán en los datos que se comparten fuera de la empresa, sino que también ayudarán a evitar los silos de datos internos, facilitando también la vida de los científicos. Cuanto más F.A.I.R. sean los datos, mejor calidad tendrán y mejores resultados se generarán.

Adoptar la F.A.I.R. no será fácil, pero sigue siendo fundamental

La industria ha respondido rápidamente y ha iniciado su adopción. Grandes empresas como Janssen, Bayer, Novartis y Roche se han embarcado en proyectos F.A.I.R., esforzándose por una buena gestión de los datos.

Ahora bien, como la literatura sobre F.A.I.R. está llena de tecnicismos sobre normas, metadatos y directrices sobre mejores prácticas de gestión de datos, es posible que piense: "esto es un problema de TI". Pero no, la F.A.I.R. afecta a todo el mundo, desde el científico que trabaja en el laboratorio hasta el consumidor final. Esta es una gran parte del transformación digital que las empresas están aplicando para seguir siendo competitivas.

Todo el mundo estará de acuerdo en que los futuros líderes de todas las industrias serán los primeros en aprovechar el poder de la ciencia de datos, la IA (Inteligencia Artificial) y la Aprendizaje automático. Pero, ¿está usted preparado? ¿Sus datos están correctamente capturados, contextualizados y conservados? En otras palabras, ¿están preparados para la máquina?

Por ejemplo, el Journal of Biomedical Semantics publicó un estudio en el que se presentaba un modelo de aprendizaje automático utilizando la plataforma de IA Euretos que podía predecir si un medicamento concreto sería eficaz en el tratamiento de una enfermedad específica. El acceso a recursos de datos públicos permite a este modelo predecir con una precisión de 78%, que es 12% más precisa que los modelos "de vanguardia" anteriores. Puede que tu próximo éxito de ventas ya esté esperando en tu cajón, ¡si tan sólo fueras lo suficientemente organizado para verlo!

Hacer que los datos sean F.A.I.R. representa para la industria -y, por extensión, para el mundo- una oportunidad tremenda. ¿A qué espera? Cuanto antes empieces, más cerca estarás de innovaciones que te cambiarán la vida.

¿No sabe por dónde empezar? Nosotros podemos ayudarle. 

Descargar hoja informativa
Solicitar una demostraciónConectar con un experto

Más información

E-WorkBook Avance

Mejore su rendimiento con una captura de datos coherente, potentes funciones de análisis y generación rápida de informes.

La urgencia de ser F.A.I.R.

¿Por qué los científicos no aprovechan todo el potencial de los datos? En este artículo hablaremos de los bloqueos al uso de datos...