Reproduire la science : $28 milliards de dollars sont gaspillés chaque année rien qu'aux États-Unis

Fiche d'information

Pourquoi ? Parce que les études ne peuvent pas être reproduites.

Si une étude scientifique ne peut être reproduite, est-elle toujours valable ?

Les études scientifiques sont notoirement difficiles à reproduire. Une étude de Plos Biology a montré qu'environ $28 milliards de dollars sont dépensés chaque année pour des recherches qui ne peuvent pas être reproduites. Et ce, rien qu'aux États-Unis. Si l'on extrapole ces chiffres à l'échelle mondiale, on se trouve face à un véritable problème.

Ces dernières années, avec l'augmentation de la puissance de calcul, l'adoption généralisée des logiciels en nuage et l'accroissement des ensembles de données, il est devenu de plus en plus évident que les scientifiques sont incapables de produire les mêmes résultats, même en utilisant les mêmes ensembles de données. Si les études ne peuvent être reproduites et que les mêmes conclusions ne peuvent être tirées, la crédibilité des scientifiques et de la science elle-même s'en trouve ébranlée.

Les répercussions de cette situation pourraient être graves. Si les résultats ne sont pas fiables, c'est la nature même de la science et du processus scientifique qui est remise en question. À l'heure où de nouvelles technologies comme apprentissage automatique et l'intelligence artificielle sont en train d'émerger, elle encourage les gens à remettre en question la valeur de ces technologies puissantes et susceptibles de changer leur vie, et peut susciter un certain degré de méfiance. Dans cet article, nous allons voir pourquoi ce problème est si répandu et comment nous pouvons y remédier.

Le problème continuera de s'aggraver si aucune mesure n'est prise

Cette "crise de la réplication" n'est pas un problème nouveau. En fait, il s'agit d'une question omniprésente dans le domaine de la recherche. les sciences sociales depuis des décennies. Un article de Jerry Alder, "The reformation : can social Les scientifiques se sauvent-ils eux-mêmes ?", publié dans Pacific Standard, a couvert le sujet en détail. détails. Mais ce modèle d'études non reproductibles n'est en aucun cas limité à l'étude de l'Université d'Helsinki. Il s'agit d'un problème majeur dans le monde des sciences sociales, mais aussi dans l'industrie pharmaceutique.

En 2005, John Ioannidis, professeur de recherche et de politique de santé à l'université de Stanford, a rédigé un article qui a attiré pour la première fois l'attention de la communauté scientifique sur ce problème. Publié dans la revue PLoS Medicine, son article intitulé "Why most published findings are false" (Pourquoi la plupart des résultats publiés sont faux) a mis en lumière les méthodologies, les biais et les défaillances dans la conception des études. Il conclut que "les simulations montrent que pour la plupart des modèles et des contextes d'étude, il est plus probable qu'une allégation de recherche soit fausse que vraie".

Son article a eu un impact considérable, encourageant les entreprises à réexaminer leur travail. En 2011, le géant pharmaceutique Bayer a constaté que seul un quart des études étaient reproductibles. La même année, Glenn Begley, qui dirigeait à l'époque la division oncologie de la société biopharmaceutique Amgen, a entrepris de reproduire les résultats de 53 articles publiés au cours de la décennie précédente et qui constituaient les fondements de l'oncologie. Même en utilisant des ensembles de données identiques aux originaux, Begley n'a pu reproduire les résultats que de six d'entre eux.

L'irreproductibilité ne peut être ignorée

La reproduction des travaux est la pierre angulaire de l'initiative processus scientifique - le résultat doit être un pour qu'elle soit confirmée.

Un résultat unique peut être une erreur ou un coup de chance. Si l'on obtient le même résultat dans des conditions identiques une deuxième fois, on peut encore parler de coïncidence, voire de partialité. Mais une troisième fois, c'est fini.

Ce principe est tellement ancré dans la science qu'il fait partie des directives de laboratoire, enseignées à tous les scientifiques en herbe : il faut au moins trois lots consécutifs pour valider un produit pharmaceutique. Ce nombre de lots dépend du niveau de risque lié à la fabrication. Si le processus est peu connu, il est logique que davantage de données statistiques soient nécessaires pour prouver que le processus est suffisamment cohérent pour répondre aux exigences de qualité.

Les scientifiques ne peuvent pas obtenir d'informations à partir d'un seul point de données, et deux points ne font que tracer une ligne droite. Il faut un minimum de trois
lots à valider, et les laboratoires s'en tiennent généralement à trois. Et pourquoi pas plus ? Bien que les organismes de réglementation, tels que la Food and Drug Administration (FDA) aux États-Unis, ne spécifient pas de nombre maximal de lots à valider, l'exécution de lots est coûteuse et prend du temps, de sorte que la plupart des laboratoires suivent les lignes directrices.

Les méthodes ont leur raison d'être

Comment ce phénomène est-il devenu si répandu ? problème ? Comme c'est souvent le cas, il est dû à une diverses raisons - méthodes médiocres, procédures alambiquées, etc. et parfois même des fautes professionnelles.

De plus en plus souvent, les chercheurs entament leurs études sans disposer d'une hypothèse correcte, et pourraient finir par s'accrocher à des bouts de ficelle pour trouver des "corrélations significatives" dans les données. Souvent, il y a de bonnes chances de trouver une valeur p valable, car plus l'ensemble de données est important, plus il est probable qu'un petit modèle au sein de l'ensemble apparaisse significatif, au lieu d'un événement aléatoire.

Dans son article, M. Ioannidis se dit préoccupé par le fait que les chercheurs essaient de trouver des modèles dans les données, en utilisant l'apprentissage automatique pour trouver une hypothèse, au lieu de partir d'une hypothèse. Il en résulte une approche qui ne nécessite que peu ou pas de validation.

Plusieurs facteurs peuvent y contribuer, notamment le biais de publication, les erreurs dans les expériences, la mauvaise utilisation des méthodes statistiques et les techniques d'apprentissage automatique inadéquates. Mais tous ces facteurs ont un point commun : les scientifiques repèrent dans les données des schémas qui ne correspondent pas à la réalité.

La pression pour produire des études utiles est toujours présente

Aujourd'hui, nous disposons de nombreux outils pour nous aider à collecter et à analyser d'énormes quantités de données. Nous avons la possibilité de bien faire les choses dès le départ, la liberté de décider comment nous collectons les données, comment nous les organisons et comment nous les analysons et les interprétons.

La capacité de collecter et d'accéder à des quantités considérables de données s'accompagne d'un besoin accru de méthodologies appropriées. Le défi à relever consiste à concevoir une méthode qui corresponde à une hypothèse et à la tester à l'aide des données recueillies ou à utiliser les méthodes statistiques appropriées lorsque le nombre d'hypothèses est très élevé.

Prenons l'exemple de l'étude Bayer. Bien qu'ils n'aient pas été en mesure de reproduire plus de 25% de leurs études, ils ont heureusement constaté que les résultats qu'ils ont pu reproduire ont prouvé qu'ils étaient robustes - un excellent indicateur du potentiel clinique de l'étude.

Il a été suggéré que les scientifiques peuvent utiliser des techniques d'exploration de données pour trouver les études les plus susceptibles d'être reproduites. Mais pour ce faire, il faut disposer d'un ensemble de données à exploiter. Plus de réplication
des études doivent être menées afin de constituer une base de données et de rationaliser le processus à l'avenir.

Mais pour l'instant, les scientifiques doivent continuer à essayer de reproduire les études existantes, en testant leur reproductibilité et leur robustesse.

Ils peuvent aussi planifier une étude de la bonne manière, en utilisant des logiciels pour élaborer des méthodes, détecter les écarts avant qu'il ne soit trop tard et collecter des données en contexte afin qu'elles puissent être consultées et interprétées facilement. Plus important encore, la bonne plateforme informatique scientifique permet de valider les résultats, ce qui garantit que les études peuvent être reproduites, mais qu'elles n'ont pas à être refaites à cause d'erreurs.

Télécharger la fiche d'information
Demander une démonstrationSe connecter avec un expert

Plus de fiches d'information

E-WorkBook Avance

Améliorez votre rendement grâce à une saisie cohérente des données, à des analyses puissantes et à des capacités de création rapide de rapports.

L'urgence d'être F.A.I.R.

Pourquoi les scientifiques n'utilisent-ils pas les données à leur plein potentiel ? Dans cet article, nous aborderons les obstacles à l'utilisation des données...