Die Dringlichkeit, F.A.I.R. zu sein

Infoblatt

Allein im Jahr 2018 wurden Tausende von Petabytes an Daten gesammelt. Doch allzu oft werden wissenschaftliche Daten nicht über ihren eigentlichen Zweck hinaus genutzt. Tatsächlich hat PLOS eine Studie durchgeführt, aus der hervorgeht, dass nur 20% der veröffentlichten Arbeiten ihre unterstützenden Daten in ein wissenschaftliches Informationsarchiv einstellen. Dies macht es für Wissenschaftler schwierig, auf die Daten zuzugreifen und sie zu nutzen. Stattdessen verstauben die Daten in Laufwerken oder Computern und sammeln digitalen Staub.

Wenn man bedenkt, welcher Aufwand für die Erstellung und Pflege von Daten betrieben wird, schmerzt die Tatsache, dass sie kaum genutzt und dann unsachgemäß abgelegt werden. Warum nutzen Wissenschaftler nicht das volle Potenzial ihrer Daten? In diesem Artikel erörtern wir die Hindernisse, die der Nutzung und Wiederverwendung von Daten im Wege stehen, und erklären, warum die F&E-Branche sie dringend beseitigen muss.

Unterschätzen Sie die Rolle der Daten nicht

Der FuE-Sektor basiert auf Daten; er ist ein führender Produzent und Verbraucher von Daten und stützt sich auf deren Analyse, um innovative Produkte und Dienstleistungen zu entwickeln. Bei der gemeinsamen Nutzung dieser Daten sind jedoch bestimmte Anforderungen zu beachten: Sind sie mit gängigen Suchwerkzeugen leicht auffindbar? Können andere Forscher darauf zugreifen, um die Daten und die zugehörigen Metadaten problemlos zu untersuchen? Und sind sie in der Lage, die Daten auf vielfältige Weise zu nutzen, so dass sie Daten unter Verwendung allgemein gebräuchlicher Begriffe und Formate vergleichen, analysieren und integrieren können? Sind die Daten wiederverwendbar? Mit einem Wort: Sind sie F.A.I.R. (findable, accessible, interoperable, re-useable)? Barend Mons, Professor am Medizinischen Zentrum der Universität Leiden in den Niederlanden, Ko-Leiter von GO FAIR und der Ausschuss für Daten des Internationalen Wissenschaftsrats, bringt es am besten auf den Punkt: "Es ist unverantwortlich, die Forschung zu unterstützen, aber nicht die Datenverwaltung."

Daten sind unser wertvollstes Gut; jeder Datenpunkt ist ein Teil des Puzzles, das wir für Innovationen benötigen. Denken Sie nur an all die spannenden und potenziell bahnbrechenden Erkenntnisse, die unentdeckt bleiben, nur weil die Daten nicht auf die richtige Weise behandelt wurden. Nehmen wir die Pharmaindustrie als Beispiel. Die Entdeckung eines Medikaments ist schwierig, da es schwierig ist, seine Eigenschaften, wie die Wirksamkeit und Toxizität im menschlichen Körper, vorherzusagen. Um die Chancen bei der Entdeckung von Arzneimitteln zu maximieren und Moleküle für neue Behandlungen umzuwandeln, ist der Zugang zu allen verfügbaren Daten entscheidend.

Auch die Wiederverwendung von Daten ist wichtiger geworden, um Vorhersagemodelle zu entwickeln und aus Erfahrungen und Fehlern zu lernen. Dies ist besonders wichtig in einer Zeit, in der keine einzelne Organisation den in dieser digitalen und vernetzten Welt benötigten Wert bieten kann.

Es ist schwierig für Forscher, ihre Daten ordnungsgemäß weiterzugeben

Neue Wege der Kommunikation mit digitalen Werkzeugen haben traditionelle Grenzen überwunden und zu mehr Partnerschaften geführt, und Unternehmen sollten in der Lage sein, Informationen auszutauschen, um fundierte Entscheidungen zu treffen. Genau hier liegt die Herausforderung: Unternehmen können Daten nicht finden, nicht einfach darauf zugreifen und sie nicht miteinander verknüpfen. Die Daten können also nicht wiederverwendet werden.

In einem Bericht der Europäischen Kommission aus dem Jahr 2018 wird geschätzt, dass Probleme mit der Wiederverwendung von Daten die EU allein im akademischen Sektor jährlich etwa 10 Mrd. EUR und weitere 16 Mrd. EUR an entgangenen Innovationschancen kosten. Rechnet man die Kosten für das Problem der Reproduzierbarkeit hinzu, steigen diese Kosten erheblich.

Selbst wenn Forscher angeben, dass ihre Daten "auf Anfrage vollständig verfügbar" sind, stoßen andere, die diese Daten nutzen wollen, laut PLOS oft auf eine Mauer, da sie keinen Zugang zu den Datensätzen haben.

Tatsächlich war nur einer von zehn Datensätzen zugänglich und zuverlässig zu verwenden, selbst wenn er direkt beim Autor angefordert wurde. Die Studie ergab, dass dies entweder daran liegen könnte, dass der Forscher nicht erreichbar ist, seine Daten nicht freigeben möchte oder die Daten einfach verloren gegangen oder nicht verfügbar sind. Wir brauchen eine Politik der gemeinsamen Datennutzung, die sicherstellt, dass die Daten nicht nur verfügbar, sondern auch zuverlässig und langfristig zugänglich sind.

Wenn Sie nicht F.A.I.R. sind, verlieren Sie Geld

Die Aufnahme von Daten in ein Repository unterstützt die F.A.I.R.-Grundsätze. Repositorien bieten klare und dauerhafte Identifikatoren, fachkundige Sammlung und Kuratierung, geeignete Zielseiten und jegliche Unterstützung, die für die Zitierung von Daten erforderlich ist. All dies bietet klare und konsistente Informationen, die leicht auffindbar, zugänglich und auf vielfältige Weise nutzbar sind - sei es durch einen Forscher oder eine Maschine - und wiederverwendet werden können. Mit diesem Detail- und Informationsgrad ist es auch viel einfacher, Verbindungen zu anderen verwandten Studien herzustellen und fundierte Schlussfolgerungen zu ziehen.

Mons betont auch, dass die Forscher viel mehr Zeit für die Forschung haben werden, wenn die Daten richtig gesammelt, kuratiert und behandelt werden. Derzeit verbringen Doktoranden 80% ihrer Zeit damit, Formatierungsprobleme und kleinere Fehler zu korrigieren, damit die Daten für die Analyse geeignet sind. Das ist eine Verschwendung von Zeit und Talent. In Geld ausgedrückt, würden 400 solcher Studenten 200 Vollzeitbeschäftigten entsprechen.

Dieses Thema reicht über die Forschung hinaus bis in die Industrie und ermutigt Organisationen, Partnerschaften zu bilden und Silos aufzubrechen, um den erforderlichen Wert zu schaffen. Was passiert also, wenn die Daten einer Organisation nicht F.A.I.R. sind? Derzeit sind die internen Datenbanken vieler Pharmaunternehmen in Silos gefangen und weniger F.A.I.R. als Daten im öffentlichen Sektor. Ein Grund dafür ist, dass in der Vergangenheit (und bis vor kurzem) Daten für ein bestimmtes Projekt oder eine Studie generiert wurden, ohne die Möglichkeit der Wiederverwendung der Daten zu berücksichtigen. Da prädiktive Modellierung und Lernen aus früheren Experimenten von der Wiederverwendung von Daten abhängen, ist dieses Szenario nicht ideal und muss dringend geändert werden.

Hier werden die F.A.I.R.-Leitprinzipien den größten Einfluss haben: am Anfang der Datenreise, wenn die Daten gesammelt und gespeichert werden. F.A.I.R.-Daten wirken sich nicht nur auf die Daten aus, die außerhalb des Unternehmens ausgetauscht werden, sondern tragen auch dazu bei, interne Datensilos zu vermeiden, was auch das Leben der Wissenschaftler erleichtert. Je F.A.I.R.er die Daten sind, desto besser ist ihre Qualität, und desto bessere Ergebnisse werden sie liefern.

Die Annahme von F.A.I.R. wird nicht einfach sein, bleibt aber entscheidend

Die Industrie hat schnell reagiert und mit der Einführung begonnen. Große Unternehmen wie Janssen, Bayer, Novartis und Roche haben F.A.I.R.-Projekte in Angriff genommen und streben ein gutes Datenmanagement an.

Da die F.A.I.R.-Literatur voller technischer Details über Normen, Metadaten und Leitlinien für bewährte Verfahren der Datenverwaltung ist, denken Sie vielleicht: "Das ist ein IT-Problem". Aber nein, F.A.I.R. wirkt sich auf alle aus, vom Wissenschaftler am Prüfstand bis hin zum Endverbraucher. Dies ist ein großer Teil der digitale Transformation die Unternehmen einführen, um wettbewerbsfähig zu bleiben.

Alle werden sich einig sein, dass die zukünftigen Führungskräfte aller Branchen die ersten sein werden, die die Möglichkeiten von Data Science, AI (Artificial Intelligence) und Maschinelles Lernen. Aber sind Sie bereit? Sind Ihre Daten korrekt erfasst, kontextualisiert und kuratiert? Mit anderen Worten: Sind sie maschinenfähig?

So wurde im Journal of Biomedical Semantics eine Studie veröffentlicht, in der ein Modell für maschinelles Lernen auf der KI-Plattform von Euretos vorgestellt wurde, das vorhersagen kann, ob ein bestimmtes Medikament bei der Behandlung einer bestimmten Krankheit wirksam ist. Durch den Zugang zu öffentlichen Datenressourcen kann dieses Modell Vorhersagen mit einer Genauigkeit von 78% treffen, was 12% genauer ist als bisherige "State-of-the-Art"-Modelle. Ihr nächster Kassenschlager könnte bereits in Ihrer Schublade liegen, wenn Sie nur gut genug organisiert wären, um ihn zu sehen!

Die Herstellung von F.A.I.R.-Daten stellt für die Branche - und im weiteren Sinne für die Welt - eine enorme Chance dar. Worauf warten Sie noch? Je früher Sie damit beginnen, desto näher sind Sie an lebensverändernden Innovationen.

Sie wissen nicht, wo Sie anfangen sollen? Wir können helfen. 

Infoblatt herunterladen
Demo anfordernVerbindung mit einem Experten

Weitere Infoblätter

E-WorkBook Vorlauf

Verbessern Sie Ihren Durchsatz mit konsistenter Datenerfassung, leistungsstarken Analysen und schnellen Berichtsfunktionen.

Die Dringlichkeit, F.A.I.R. zu sein

Warum nutzen Wissenschaftler nicht das volle Potenzial von Daten? In diesem Artikel werden wir die Hindernisse für die Datennutzung erörtern...