L'urgence d'être F.A.I.R.

Fiche d'information

Rien qu'en 2018, des milliers de pétaoctets de données ont été collectés. Mais trop souvent, les données scientifiques ne sont pas utilisées au-delà de leur objectif. En fait, PLOS a mené une étude indiquant que seulement 20% des articles publiés publient leurs données d'appui dans un référentiel d'information scientifique. Il est donc difficile pour les scientifiques d'accéder aux données et de les utiliser. Au lieu de cela, elles restent sur des lecteurs ou des ordinateurs, accumulant la poussière numérique.

Lorsque l'on pense aux efforts déployés pour générer et conserver des données, le fait qu'elles soient à peine utilisées, puis classées de manière inappropriée, fait mal. Pourquoi les scientifiques n'utilisent-ils pas les données à leur plein potentiel ? Dans cet article, nous examinerons les obstacles à l'utilisation et à la réutilisation des données et expliquerons pourquoi l'industrie de la R&D doit les éliminer de toute urgence.

Ne pas sous-estimer le rôle des données

Le secteur de la R&D repose sur les données ; il est le premier producteur et consommateur de données et s'appuie sur leur analyse pour développer des produits et des services innovants. Mais lorsqu'il s'agit de partager ces données, certaines exigences doivent être prises en compte : sont-elles facilement trouvables à l'aide d'outils de recherche courants ? D'autres chercheurs peuvent-ils y accéder pour examiner facilement les données et les métadonnées associées ? Sont-ils en mesure d'utiliser les données de plusieurs façons, de sorte qu'ils puissent les comparer, les analyser et les intégrer à l'aide de termes et de formats couramment utilisés ? Les données sont-elles réutilisables ? En un mot, les données sont-elles F.A.I.R. (findable, accessible, interoperable, re-useable) ? Barend Mons, professeur au centre médical de l'université de Leiden aux Pays-Bas, codirecteur du projet GO FAIR et le comité sur les données du Conseil international de la science : "Il est irresponsable de soutenir la recherche mais pas la gestion des données.

Les données sont notre bien le plus précieux ; chaque point de données constitue une pièce du puzzle nécessaire à l'innovation. Pensez à toutes les découvertes passionnantes et potentiellement révolutionnaires qui passent inaperçues, simplement parce que les données n'ont pas été traitées correctement. Prenons l'exemple de l'industrie pharmaceutique. Il est difficile de découvrir un médicament, car il est difficile de prédire ses propriétés, telles que l'efficacité et la toxicité dans le corps humain. Pour maximiser les chances de découverte d'un médicament et réorienter les molécules vers de nouveaux traitements, il est essentiel d'avoir accès à toutes les données disponibles.

En outre, la réutilisation des données est devenue plus importante pour développer des modèles prédictifs et tirer des leçons de l'expérience et des erreurs. Ceci est particulièrement pertinent à une époque où aucune organisation ne peut à elle seule offrir la valeur nécessaire dans ce monde numérique et connecté.

Il est difficile pour les chercheurs de partager correctement leurs données

Les nouveaux modes de communication avec les outils numériques ont fait tomber les frontières traditionnelles, donnant lieu à davantage de partenariats, et les entreprises devraient être en mesure de partager des informations pour prendre des décisions éclairées. C'est là que réside le défi : les organisations ne peuvent pas trouver les données, y accéder facilement ou les interopérer. Les données ne peuvent donc pas être réutilisées.

Un rapport de 2018 de la Commission européenne a estimé que les problèmes de réutilisation des données coûtent à l'UE environ 10 milliards d'euros par an dans le seul secteur universitaire, et 16 milliards d'euros supplémentaires en occasions perdues d'innover. Si l'on y ajoute le coût du problème de la reproductibilité, ces coûts augmentent considérablement.

Selon PLOS, même lorsque les chercheurs déclarent que leurs données sont "entièrement disponibles sur demande", les personnes souhaitant utiliser ces données se heurtent souvent à un mur, incapables d'accéder aux ensembles de données.

En fait, seul un ensemble de données sur dix était accessible et fiable, même lorsqu'il était demandé directement à l'auteur. L'étude a révélé que cela pouvait être dû au fait que le chercheur n'était pas joignable, qu'il ne voulait pas partager ses données ou que les données étaient tout simplement perdues ou indisponibles. Ce qu'il faut, c'est que les politiques de partage des données garantissent non seulement la disponibilité des données, mais aussi leur fiabilité et leur accessibilité à long terme.

Si vous n'êtes pas F.A.I.R., vous perdez de l'argent

Le fait de placer les données dans un dépôt soutient les principes F.A.I.R.. Les référentiels fournissent des identifiants clairs et persistants, une collecte et une curation expertes, des pages d'accueil appropriées et tout le soutien nécessaire pour les citations de données. Tout cela permet de disposer d'informations claires et cohérentes, faciles à trouver, à consulter, à utiliser de multiples façons - que ce soit par un chercheur ou par une machine - et à réutiliser. Avec ce niveau de détail et d'information, il est également beaucoup plus facile d'établir des liens avec d'autres études connexes et de tirer des conclusions éclairées.

Mons souligne également que si les données sont collectées, conservées et traitées correctement, les chercheurs auront beaucoup plus de temps pour mener d'autres recherches. Dans l'état actuel des choses, les doctorants passent 80% de leur temps à corriger des problèmes de formatage et des erreurs mineures pour que les données puissent être analysées. C'est une perte de temps et de talent. En termes monétaires, 400 de ces étudiants équivaudraient à 200 employés à temps plein.

Cette question dépasse le cadre de la recherche et s'étend à l'industrie, encourageant les organisations à former des partenariats et à briser les silos afin de fournir la valeur requise. Que se passe-t-il donc lorsque les données d'une organisation ne sont pas F.A.I.R. ? Actuellement, les bases de données internes de nombreuses organisations pharmaceutiques sont bloquées dans des silos et moins F.A.I.R. que les données du secteur public. Cela s'explique notamment par le fait qu'historiquement (et jusqu'à récemment), les données étaient générées pour un projet ou une étude spécifique, sans tenir compte de la possibilité de les réutiliser. Étant donné que la modélisation prédictive et l'apprentissage à partir d'expériences passées dépendent de la réutilisation des données, ce scénario est loin d'être idéal et doit changer - de toute urgence.

C'est là que les principes directeurs du F.A.I.R. auront le plus d'impact : au début du parcours des données, lorsque les données sont collectées et stockées. Non seulement les données F.A.I.R. auront un impact sur les données partagées à l'extérieur de l'entreprise, mais elles contribueront également à éviter les silos de données internes, facilitant ainsi la vie des scientifiques. Plus les données sont F.A.I.R., plus elles sont de qualité et plus les résultats sont bons.

L'adoption de F.A.I.R. ne sera pas facile, mais reste essentielle

L'industrie a réagi rapidement et a commencé à l'adopter. De grandes entreprises telles que Janssen, Bayer, Novartis et Roche se sont lancées dans des projets F.A.I.R., s'efforçant d'assurer une bonne gestion des données.

La littérature sur le F.A.I.R. étant pleine de détails techniques sur les normes, les métadonnées et les lignes directrices sur les meilleures pratiques de gestion des données, vous vous dites peut-être qu'il s'agit d'un problème informatique. Mais non, la F.A.I.R. a un impact sur tout le monde, du scientifique travaillant sur le banc d'essai au consommateur final. Il s'agit là d'une grande partie de l'initiative "F.A.I.R.". transformation numérique que les entreprises mettent en œuvre pour rester compétitives.

Tout le monde s'accorde à dire que les futurs leaders de tous les secteurs d'activité seront les premiers à exploiter la puissance de la science des données, de l'IA (Intelligence Artificielle) et de la technologie. Apprentissage automatique. Mais êtes-vous prêt ? Vos données sont-elles correctement capturées, contextualisées et conservées ? En d'autres termes, sont-elles prêtes pour la machine ?

Par exemple, le Journal of Biomedical Semantics a publié une étude présentant un modèle d'apprentissage automatique utilisant la plateforme d'IA d'Euretos qui pourrait prédire si un médicament particulier sera efficace dans le traitement d'une maladie spécifique. L'accès aux ressources de données publiques permet à ce modèle de prédire avec une précision de 78%, soit 12% de plus que les modèles antérieurs "de pointe". Votre prochain produit phare se trouve peut-être déjà dans votre tiroir, si seulement vous étiez assez organisé pour le voir !

Rendre les données F.A.I.R. offre à l'industrie - et, par extension, au monde - une formidable opportunité. Qu'attendez-vous ? Plus tôt vous commencerez, plus vous serez proche d'innovations qui changeront votre vie.

Vous ne savez pas par où commencer ? Nous pouvons vous aider. 

Télécharger la fiche d'information
Demander une démonstrationSe connecter avec un expert

Plus de fiches d'information

E-WorkBook Avance

Améliorez votre rendement grâce à une saisie cohérente des données, à des analyses puissantes et à des capacités de création rapide de rapports.

L'urgence d'être F.A.I.R.

Pourquoi les scientifiques n'utilisent-ils pas les données à leur plein potentiel ? Dans cet article, nous aborderons les obstacles à l'utilisation des données...