과학 복제: 미국에서만 매년 1조5천2백억 달러가 낭비되고 있습니다.

정보 시트

왜 그럴까요? 연구는 복제할 수 없기 때문입니다.

과학 분야의 연구를 복제할 수 없다면 여전히 실행 가능한가요?

과학 연구는 재현하기 어려운 것으로 악명이 높습니다. Plos Biology의 연구에 따르면 매년 약 1조 5,280억 달러가 복제할 수 없는 연구에 지출되고 있다고 합니다. 이는 미국에만 해당되는 수치입니다. 이 수치를 전 세계로 추정하면 심각한 문제가 발생합니다.

최근 몇 년 동안 컴퓨팅 성능이 향상되고 클라우드 소프트웨어가 널리 채택되고 데이터 세트가 증가함에 따라 과학자들이 동일한 데이터 세트를 사용하더라도 동일한 결과를 도출할 수 없다는 사실이 점점 더 분명해지고 있습니다. 연구를 복제할 수 없고 동일한 결론에 도달할 수 없다면 과학자는 물론 과학 자체의 신뢰도가 떨어집니다.

이는 심각한 결과를 초래할 수 있습니다. 결과를 신뢰할 수 없다면 과학의 본질과 과학적 과정에 대한 의문이 제기될 수 있습니다. 다음과 같은 새로운 기술이 머신 러닝 와 인공 지능이 등장하면서 사람들은 이러한 강력하고 잠재적으로 삶을 변화시킬 수 있는 기술의 가치에 의문을 품게 되고 불신을 갖게 될 수 있습니다. 이 글에서는 이러한 문제가 널리 퍼진 이유와 이를 해결할 수 있는 방법을 살펴봅니다.

조치를 취하지 않으면 문제가 계속 악화됩니다.

이러한 '복제 위기'는 새로운 문제가 아닙니다. 사실 이 문제는 다음과 같은 분야에서 만연한 문제였습니다. 수십 년 동안 사회과학을 연구해 왔습니다. 제리 앨더의 글, '개혁: 사회 과학이 사회적으로 과학자들은 스스로를 구할 수 있을까요?'라는 제목으로 퍼시픽 스탠다드에 게재된 기사에서 이 주제를 심도 있게 다뤘습니다. 세부 사항. 그러나 이러한 재현 불가능한 연구 패턴은 결코 제약 업계에서도 주요 이슈로 떠오르고 있습니다.

2005년 스탠퍼드 대학교의 보건 연구 및 정책학 교수인 존 이오아니디스는 이 문제를 처음으로 과학계의 주목을 받은 논문을 썼습니다. PLoS Medicine 저널에 게재된 그의 논문 '왜 대부분의 발표된 연구 결과가 거짓인가'는 방법론, 편견, 연구 설계 오류에 대해 집중 조명했습니다. 그는 "시뮬레이션 결과 대부분의 연구 설계와 환경에서 연구 주장이 사실보다 거짓일 가능성이 더 높다는 결론을 내렸습니다."라고 말했습니다.

그의 논문은 강력한 영향력을 발휘하여 기업들이 자신의 연구를 다시 한 번 살펴보도록 독려했습니다. 2011년에 거대 제약사인 바이엘은 연구의 4분의 1만이 재현 가능하다는 사실을 발견했습니다. 같은 해, 당시 바이오 제약 회사인 암젠의 종양학 부서 책임자였던 글렌 베글리는 종양학의 기초를 형성한 지난 10년간 발표된 53편의 논문 결과를 재현하는 작업에 착수했습니다. 원본과 동일한 데이터 세트를 사용했지만, 베글리는 그 중 6편의 결과만 재현할 수 있었습니다.

재현 불가능성은 무시할 수 없습니다.

작업 복제는 작업의 초석입니다. 과학적 프로세스 - 발견은 패턴을 확인해야 합니다.

하나의 결과가 실수일 수도 있고 우연일 수도 있습니다. 동일한 조건에서 동일한 결과를 두 번 받더라도 우연이거나 편향된 결과일 수 있습니다. 하지만 세 번째라면 우리는 사업을 하고 있습니다.

이 원칙은 모든 신진 과학자에게 가르치는 실험실 지침의 일부일 정도로 과학계에 뿌리 깊게 자리 잡고 있으며, 제약 분야에서 검증하려면 최소 세 번의 연속 배치가 필요합니다. 이 배치 횟수는 제조와 관련된 위험 수준에 따라 달라집니다. 프로세스에 대해 알려진 것이 거의 없다면 프로세스가 품질 요건을 충족할 만큼 일관성이 있음을 증명하기 위해 더 많은 통계 데이터가 필요한 것은 당연합니다.

과학자들은 하나의 데이터 포인트에서 인사이트를 얻을 수 없으며, 두 개의 포인트는 단순히 직선을 그리기만 합니다. 최소 3개의
배치의 유효성을 검사하며, 일반적으로 실험실에서 고수하는 숫자는 3개입니다. 그 이상은 왜 안 될까요? 미국 FDA(식품의약국)와 같은 규제 기관에서는 검증할 최대 배치 수를 지정하지 않지만, 배치를 실행하는 데 많은 비용과 시간이 소요되므로 대부분의 실험실에서 이 지침을 따릅니다.

메소드에는 이유가 있습니다.

어떻게 이렇게 널리 퍼지게 되었나요? 문제가 있나요? 종종 그렇듯이, 이는 다음과 같은 문제 때문입니다. 다양한 이유 - 열악한 방법, 복잡한 방법 프로토콜, 때로는 위법 행위까지 포함합니다.

제대로 된 가설 없이 연구를 시작하는 연구자들이 점점 더 많아지고 있으며, 결국 데이터에서 '의미 있는 상관관계'를 찾기 위해 지푸라기라도 잡는 심정으로 연구를 시작하게 될 수도 있습니다. 데이터 세트가 클수록 무작위 이벤트 대신 세트 내의 작은 패턴이 유의미한 것으로 나타날 가능성이 높아지기 때문에 유효한 p-값을 찾을 수 있는 확률이 상당히 높습니다.

이오아니디스는 논문에서 연구자들이 가설을 세우는 대신 머신러닝을 사용하여 데이터에서 패턴을 찾아내려고 하는 것에 대해 우려를 표합니다. 그 결과 검증이 거의 또는 전혀 필요하지 않은 접근 방식이 탄생했습니다.

여기에는 출판 편향, 실험의 오류, 통계적 방법을 올바르게 사용하지 않은 경우, 부적절한 머신 러닝 기술 등 여러 가지 요인이 있을 수 있습니다. 하지만 이 모든 것에는 한 가지 공통점이 있습니다. 과학자들이 데이터에서 실제 세계와 일치하지 않는 패턴을 발견하고 있다는 점입니다.

유용한 연구를 생산해야 한다는 압박은 여전히 계속되고 있습니다.

오늘날에는 방대한 양의 데이터를 수집하고 분석하는 데 도움이 되는 수많은 도구가 있습니다. 데이터를 수집하고, 정리하고, 분석하고 해석하는 방법을 자유롭게 결정할 수 있는 기회를 처음부터 제대로 활용할 수 있습니다.

방대한 데이터를 수집하고 액세스할 수 있게 되면서 적절한 방법론에 대한 필요성이 커졌습니다. 남은 과제는 가설에 맞는 방법을 설계하고 수집된 데이터로 테스트하거나 가설의 수가 상당히 많을 때 적절한 통계 방법을 사용하는 것입니다.

바이엘의 연구를 예로 들어보겠습니다. 비록 25% 이상의 연구를 복제할 수는 없었지만, 다행히도 복제할 수 있었던 연구 결과가 견고하다는 것이 입증되었고, 이는 이 연구가 임상적 잠재력을 가지고 있다는 훌륭한 지표가 되었습니다.

과학자들은 데이터 마이닝 기법을 사용하여 재현 가능성이 가장 높은 연구를 찾을 수 있다고 제안되었습니다. 하지만 그렇게 하려면 마이닝할 데이터 세트가 필요합니다. 더 많은 복제
데이터베이스를 구축하고 향후 프로세스를 간소화하기 위한 연구를 수행해야 합니다.

하지만 현재로서는 과학자들이 기존 연구를 재현하고 그 재현성과 견고성을 테스트하는 노력을 계속해야 합니다.

또는 소프트웨어를 사용하여 방법을 구축하고, 너무 늦기 전에 편차를 포착하고, 맥락이 있는 데이터를 수집하여 쉽게 액세스하고 해석할 수 있도록 올바른 방식으로 연구를 계획할 수도 있습니다. 가장 중요한 것은 올바른 과학 정보학 플랫폼은 결과를 검증하여 연구를 복제할 수 있지만 실수로 인해 다시 수행할 필요가 없도록 보장할 수 있다는 점입니다.

정보 시트 다운로드
데모 요청하기전문가와 연결

추가 정보 시트

F.A.I.R.이 되어야 하는 긴급성

과학자들이 데이터를 최대한 활용하지 못하는 이유는 무엇일까요? 이 기사에서는 데이터 사용을 방해하는 요소에 대해 설명합니다...