Replicare la scienza: Solo negli Stati Uniti si sprecano $28 miliardi all'anno

Scheda informativa

Perché? Perché gli studi non possono essere replicati.

Se uno studio scientifico non può essere replicato, è ancora valido?

Gli studi scientifici sono notoriamente difficili da riprodurre. Uno studio di Plos Biology ha dimostrato che ogni anno vengono spesi circa $28 miliardi per ricerche che non possono essere replicate. E questo solo negli Stati Uniti. Se si estrapolano queste cifre in tutto il mondo, il problema è reale.

Negli ultimi anni, con l'aumento della potenza di calcolo, l'adozione di software cloud e la crescita dei set di dati, è diventato sempre più evidente che gli scienziati non sono in grado di generare gli stessi risultati, anche utilizzando gli stessi set di dati. L'impossibilità di replicare gli studi e di giungere alle stesse conclusioni mina la credibilità degli scienziati e della scienza stessa.

Le ripercussioni di ciò potrebbero essere gravi. Se non ci si può fidare dei risultati, la natura stessa della scienza e del processo scientifico diventa discutibile. In un momento in cui nuove tecnologie come apprendimento automatico e l'intelligenza artificiale stanno emergendo, incoraggia le persone a mettere in dubbio il valore di queste tecnologie potenti e potenzialmente in grado di cambiare la vita e può instillare un livello di sfiducia. In questo articolo analizzeremo perché questo problema è così diffuso e come possiamo affrontarlo.

Il problema continuerà a peggiorare se non si interviene

Questa "crisi della replica" non è un problema nuovo. In effetti, è stato un problema pervasivo in delle scienze sociali per decenni. Un articolo di Jerry Alder, "The reformation: can social Gli scienziati si salvano da soli?", pubblicato su Pacific Standard, ha trattato l'argomento in modo approfondito. dettaglio. Ma questo modello di studi irriproducibili non è affatto limitato agli studi di mondo delle scienze sociali; è anche un problema importante nell'industria farmaceutica.

Nel 2005 John Ioannidis, professore di ricerca e politica sanitaria all'Università di Stanford, ha scritto un articolo che ha portato per la prima volta questo problema all'attenzione della comunità scientifica. Pubblicato sulla rivista PLoS Medicine, il suo articolo, "Perché la maggior parte dei risultati pubblicati sono falsi", ha puntato i riflettori su metodologie, pregiudizi e difetti di progettazione degli studi. L'autore ha concluso che "le simulazioni mostrano che per la maggior parte dei disegni e dei contesti di studio è più probabile che un'affermazione di ricerca sia falsa che vera".

Il suo articolo ha avuto un forte impatto, incoraggiando le aziende a rivedere il proprio lavoro. Nel 2011, il gigante farmaceutico Bayer ha scoperto che solo un quarto degli studi era riproducibile. Nello stesso anno, Glenn Begley, che all'epoca era a capo della divisione oncologica dell'azienda biofarmaceutica Amgen, si è messo a riprodurre i risultati di 53 articoli pubblicati nel decennio precedente che costituivano le fondamenta dell'oncologia. Anche utilizzando set di dati identici agli originali, Begley riuscì a replicare i risultati solo di sei di essi.

L'irriproducibilità non può essere ignorata

La replica del lavoro è la pietra angolare della processo scientifico - la scoperta deve essere un modello per la sua conferma.

Un singolo risultato potrebbe essere un errore o un colpo di fortuna. Se si riceve lo stesso risultato in condizioni identiche una seconda volta, lo si può ancora far passare per una coincidenza o forse per un errore. Ma una terza volta e il gioco è fatto.

Questo principio è talmente radicato nella scienza che fa parte delle linee guida di laboratorio, insegnate a tutti gli scienziati in erba: per convalidare i prodotti farmaceutici sono necessari almeno tre lotti consecutivi. Il numero di lotti dipende dal livello di rischio che la produzione comporta. Se si conosce poco del processo, è logico che siano necessari più dati statistici per dimostrare che il processo è sufficientemente coerente da soddisfare i requisiti di qualità.

Gli scienziati non possono ricavare informazioni da un solo punto di dati, e due punti disegnano semplicemente una linea retta. È necessario un minimo di tre
lotti da convalidare, e di solito i laboratori si attengono al numero di tre. E perché non di più? Sebbene gli enti normativi, come la Food and Drug Administration (FDA) negli Stati Uniti, non specifichino un numero massimo di lotti da convalidare, la gestione dei lotti è costosa e richiede tempo, quindi la maggior parte dei laboratori si attiene alle linee guida.

I metodi esistono per un motivo

Come mai è diventato un fenomeno così diffuso problema? Come spesso accade, il problema è dovuto a una per una serie di motivi: metodi inadeguati, convoluti protocolli, e talvolta anche di cattiva condotta.

Sempre più spesso i ricercatori iniziano i loro studi senza un'ipotesi adeguata e potrebbero finire per arrampicarsi sugli specchi per trovare "correlazioni significative" nei dati. Spesso c'è una buona probabilità di trovare un valore p valido, poiché più grande è l'insieme dei dati, più è probabile che un piccolo schema all'interno dell'insieme appaia significativo, invece di un evento casuale.

Nel suo articolo, Ioannidis afferma di essere preoccupato dal fatto che i ricercatori cerchino di trovare schemi nei dati, utilizzando l'apprendimento automatico per trovare un'ipotesi, invece di partire da un'ipotesi. Il risultato è un approccio che richiede poca o nessuna convalida.

I fattori che contribuiscono a questo fenomeno possono essere diversi, tra cui la distorsione nella pubblicazione, gli errori negli esperimenti, l'uso non corretto dei metodi statistici e le tecniche di apprendimento automatico inadeguate. Ma tutti questi fattori hanno una cosa in comune: gli scienziati individuano modelli nei dati che non corrispondono al mondo reale.

La pressione per produrre studi utili è ancora alta

Oggi disponiamo di numerosi strumenti che ci aiutano a raccogliere e analizzare enormi quantità di dati. Abbiamo l'opportunità di fare le cose per bene fin dall'inizio, la libertà di decidere come raccogliere i dati, organizzarli, analizzarli e interpretarli.

Con la possibilità di raccogliere e accedere a una mole di dati, aumenta la necessità di disporre di metodologie adeguate. La sfida che rimane è quella di progettare un metodo che si adatti a un'ipotesi e di testarla con i dati raccolti o di utilizzare i metodi statistici appropriati quando il numero di ipotesi è significativamente elevato.

Prendiamo lo studio di Bayer. Sebbene non siano riusciti a replicare più del 25% dei loro studi, fortunatamente hanno scoperto che i risultati che sono riusciti a riprodurre si sono dimostrati solidi, un ottimo indicatore del potenziale clinico dello studio.

È stato suggerito che gli scienziati possono utilizzare le tecniche di data mining per trovare gli studi che hanno maggiori probabilità di essere riprodotti. Ma per farlo è necessario un set di dati da estrarre. Più riproducibilità
È necessario condurre studi per creare una banca dati e snellire il processo in futuro.

Ma per ora gli scienziati devono continuare a cercare di replicare gli studi esistenti, verificandone la riproducibilità e la solidità.

Oppure, possono pianificare uno studio nel modo giusto, utilizzando il software per costruire metodi, individuare le deviazioni prima che sia troppo tardi e raccogliere dati contestualizzati in modo da poterli consultare e interpretare con facilità. Soprattutto, la giusta piattaforma informatica scientifica può convalidare i risultati, assicurando che gli studi possano essere replicati, ma non debbano essere rifatti a causa di errori.

Scarica la scheda informativa
Richiedi una demoCollegatevi con un esperto

Ulteriori schede informative

E-WorkBook Avanzamento

Migliorate la vostra produttività grazie all'acquisizione coerente dei dati, a potenti analisi e a rapide funzionalità di reporting.

L'urgenza di essere F.A.I.R.

Perché gli scienziati non utilizzano i dati al massimo del loro potenziale? In questo articolo discuteremo i fattori che ostacolano l'utilizzo dei dati...