Replik der Wissenschaft: $28 Milliarden werden jedes Jahr allein in den USA verschwendet

Infoblatt

Warum? Weil Studien nicht repliziert werden können.

Wenn eine wissenschaftliche Studie nicht repliziert werden kann, ist sie dann noch brauchbar?

Wissenschaftliche Studien sind notorisch schwer zu reproduzieren. Eine Studie von Plos Biology zeigt, dass jedes Jahr etwa $28 Milliarden Euro für Forschung ausgegeben werden, die nicht reproduziert werden kann. Und das allein in den Vereinigten Staaten. Wenn man diese Zahlen auf die ganze Welt hochrechnet, haben wir ein echtes Problem.

In den letzten Jahren, als die Rechenleistung zunahm, Cloud-Software weithin eingeführt wurde und die Datensätze wuchsen, wurde immer deutlicher, dass Wissenschaftler nicht in der Lage sind, dieselben Ergebnisse zu erzielen, selbst wenn sie dieselben Datensätze verwenden. Wenn Studien nicht repliziert werden können und nicht zu denselben Schlussfolgerungen führen, untergräbt dies die Glaubwürdigkeit der Wissenschaftler und der Wissenschaft selbst.

Dies könnte schwerwiegende Folgen nach sich ziehen. Wenn man den Ergebnissen nicht trauen kann, wird das Wesen der Wissenschaft und des wissenschaftlichen Prozesses selbst in Frage gestellt. In einer Zeit, in der neue Technologien wie maschinelles Lernen und künstliche Intelligenz entstehen, ermutigen die Menschen, den Wert dieser leistungsstarken und potenziell lebensverändernden Technologien in Frage zu stellen, und können ein gewisses Misstrauen wecken. In diesem Artikel gehen wir der Frage nach, warum dieses Problem so weit verbreitet ist und wie wir es angehen können.

Ohne Maßnahmen wird sich das Problem weiter verschärfen

Diese "Replikationskrise" ist kein neues Problem. Tatsächlich ist es ein allgegenwärtiges Problem in die Sozialwissenschaften seit Jahrzehnten. Ein Artikel von Jerry Alder, "Die Reformation: Kann die Sozial Wissenschaftler retten sich selbst?", veröffentlicht im Pacific Standard, behandelt das Thema ausführlich Detail. Dieses Muster nicht reproduzierbarer Studien ist jedoch keineswegs auf die in der Welt der Sozialwissenschaften, aber auch in der pharmazeutischen Industrie ist sie ein wichtiges Thema.

Im Jahr 2005 verfasste John Ioannidis, Professor für Gesundheitsforschung und -politik an der Stanford University, einen Artikel, der die Aufmerksamkeit der wissenschaftlichen Gemeinschaft erstmals auf dieses Problem lenkte. Sein in der Zeitschrift PLoS Medicine veröffentlichter Artikel mit dem Titel "Why most published findings are false" (Warum die meisten veröffentlichten Ergebnisse falsch sind) wirft ein Schlaglicht auf Methodologien, Verzerrungen und Mängel im Studiendesign. Er kam zu dem Schluss, dass "Simulationen zeigen, dass es bei den meisten Studiendesigns und -umgebungen wahrscheinlicher ist, dass eine Forschungsbehauptung falsch ist als wahr".

Seine Arbeit hatte eine starke Wirkung und ermutigte die Unternehmen, ihre Arbeit zu überdenken. Im Jahr 2011 stellte der Pharmariese Bayer fest, dass nur ein Viertel der Studien reproduzierbar war. Im selben Jahr machte sich Glenn Begley, der damals Leiter der Onkologieabteilung des biopharmazeutischen Unternehmens Amgen war, daran, die Ergebnisse von 53 Arbeiten zu reproduzieren, die im vorangegangenen Jahrzehnt veröffentlicht worden waren und die Grundlage der Onkologie bilden. Selbst unter Verwendung identischer Datensätze wie bei den Originalen konnte Begley nur die Ergebnisse von sechs dieser Arbeiten reproduzieren.

Unreproduzierbarkeit kann nicht ignoriert werden

Die Vervielfältigung der Arbeit ist der Eckpfeiler der wissenschaftlicher Prozess - das Ergebnis muss ein Muster, um es zu bestätigen.

Ein einzelnes Ergebnis könnte ein Fehler oder ein Zufall sein. Erhält man dasselbe Ergebnis unter identischen Bedingungen ein zweites Mal, könnte man es immer noch als Zufall oder vielleicht als voreingenommen abtun. Aber ein drittes Mal und wir sind im Geschäft.

Dieser Grundsatz ist in der Wissenschaft so tief verwurzelt, dass er Teil der Laborrichtlinien ist, die allen angehenden Wissenschaftlern beigebracht werden: Bei Arzneimitteln sind mindestens drei aufeinander folgende Chargen zur Validierung erforderlich. Die Anzahl der Chargen hängt von der Höhe des Risikos bei der Herstellung ab. Wenn nur wenig über den Prozess bekannt ist, liegt es auf der Hand, dass mehr statistische Daten erforderlich sind, um zu beweisen, dass der Prozess konsistent genug ist, um die Qualitätsanforderungen zu erfüllen.

Wissenschaftler können aus einem einzigen Datenpunkt keine Erkenntnisse gewinnen, und zwei Punkte zeichnen einfach eine gerade Linie. Man braucht mindestens drei
Chargen zu validieren, und im Allgemeinen halten sich die Labors an die Zahl drei. Und warum nicht mehr? Obwohl Aufsichtsbehörden wie die Food and Drug Administration (FDA) in den USA keine Höchstzahl an zu validierenden Chargen vorschreiben, ist die Durchführung von Chargen teuer und zeitaufwändig, so dass sich die meisten Labors an die Richtlinien halten.

Methoden sind aus einem bestimmten Grund da

Wie konnte dies zu einer so weit verbreiteten Problem? Wie so oft, liegt es an einer eine Vielzahl von Gründen - schlechte Methoden, unübersichtliche Protokolle, und manchmal sogar Fehlverhalten.

Immer häufiger beginnen Forscher ihre Studien ohne eine richtige Hypothese und könnten am Ende nach Strohhalmen greifen, um "aussagekräftige Korrelationen" in den Daten zu finden. Oft besteht eine recht gute Chance, dass ein gültiger p-Wert gefunden werden kann, denn je größer der Datensatz ist, desto wahrscheinlicher ist es, dass ein kleines Muster innerhalb des Satzes signifikant erscheint und nicht nur ein zufälliges Ereignis.

In seinem Papier erklärt Ioannidis, dass er besorgt darüber ist, dass Forscher versuchen, Muster in den Daten zu finden, indem sie maschinelles Lernen einsetzen, um eine Hypothese zu finden, anstatt von einer Hypothese auszugehen. Das Ergebnis ist ein Ansatz, der wenig bis gar keine Validierung erfordert.

Dafür können verschiedene Faktoren verantwortlich sein, z. B. Verzerrungen bei der Veröffentlichung, Fehler bei Experimenten, nicht korrekt angewandte statistische Methoden und unzureichende maschinelle Lernverfahren. Alle diese Faktoren haben jedoch eines gemeinsam: Die Wissenschaftler erkennen in den Daten Muster, die nicht mit der Realität übereinstimmen.

Der Druck, nützliche Studien zu erstellen, bleibt bestehen

Heute stehen uns zahlreiche Instrumente zur Verfügung, die uns bei der Erfassung und Analyse enormer Datenmengen helfen. Wir haben die Möglichkeit, es von Anfang an richtig zu machen, die Freiheit zu entscheiden, wie wir Daten sammeln, sie organisieren und wie wir sie analysieren und interpretieren.

Mit der Möglichkeit, Unmengen von Daten zu sammeln und abzurufen, steigt auch der Bedarf an geeigneten Methoden. Die Herausforderung besteht darin, eine Methode zu entwickeln, die zu einer Hypothese passt, und sie mit den gesammelten Daten zu testen oder die geeigneten statistischen Methoden anzuwenden, wenn die Zahl der Hypothesen sehr groß ist.

Nehmen wir die Bayer-Studie. Obwohl sie nicht in der Lage waren, mehr als 25% ihrer Studien zu wiederholen, stellten sie glücklicherweise fest, dass die Ergebnisse, die sie reproduzieren konnten, sich als robust erwiesen - ein hervorragender Indikator dafür, dass die Studie klinisches Potenzial hat.

Es wurde vorgeschlagen, dass Wissenschaftler Data-Mining-Techniken einsetzen können, um diejenigen Studien zu finden, die am ehesten reproduzierbar sind. Dazu ist jedoch ein Datensatz erforderlich, der ausgewertet werden kann. Mehr Replikation
Es müssen Studien durchgeführt werden, um eine Datenbank aufzubauen und das Verfahren in Zukunft zu straffen.

Doch vorerst müssen die Wissenschaftler weiterhin versuchen, bestehende Studien zu wiederholen und sie auf ihre Reproduzierbarkeit und Robustheit zu prüfen.

Oder sie können eine Studie von Anfang an richtig planen, indem sie Software einsetzen, um Methoden zu entwickeln, Abweichungen zu erkennen, bevor es zu spät ist, und Daten mit Kontext zu sammeln, so dass sie problemlos abgerufen und interpretiert werden können. Vor allem aber kann die richtige Plattform für wissenschaftliche Informatik die Ergebnisse validieren und sicherstellen, dass Studien wiederholt werden können, ohne dass sie aufgrund von Fehlern erneut durchgeführt werden müssen.

Infoblatt herunterladen
Demo anfordernVerbindung mit einem Experten

Weitere Infoblätter

E-WorkBook Vorlauf

Verbessern Sie Ihren Durchsatz mit konsistenter Datenerfassung, leistungsstarken Analysen und schnellen Berichtsfunktionen.

Die Dringlichkeit, F.A.I.R. zu sein

Warum nutzen Wissenschaftler nicht das volle Potenzial von Daten? In diesem Artikel werden wir die Hindernisse für die Datennutzung erörtern...