Artículo traducido con Google, original en inglés al final.
Una breve historia de las estadísticas médicas y su papel
en la reproducibilidad.
Darren L Dahly
2 de febrero · 9 min de lectura
Tienen que admitir que la investigación médica es un
pájaro extraño. Hay pocas industrias donde tomamos un grupo de profesionales
altamente capacitados y especializados que ya asumen una gran responsabilidad y
luego les pedimos no solo que contribuyan a los esfuerzos de investigación,
sino que los lideren. Desafortunadamente, esta extraña situación tiene graves
consecuencias para la investigación médica, impactando negativamente las
perspectivas de los pacientes y la salud pública. Volveré a este punto en
breve, pero primero, mi broma favorita de todos los tiempos:
P: ¿Cuál es la diferencia entre investigación agrícola y
médica?
R: La primera no es realizada por agricultores (crédito a
Guernsey McPearson)
Siéntase libre de dejar que esto se desvanezca.
Si no ve el "humor" en esto, entonces podría
apartar la vista cuando comparta la cita en la que se basa, de la Conferencia
en memoria de Fisher de Michael Healy (1995) sobre la vida de Frank Yates (1):
Una cosa a tener en cuenta es que Yates fue durante toda
su carrera en tiempos de paz un científico agrícola. Para algunos puede parecer
que la ciencia agrícola es una especie de oxímoron, pero esto está lejos de ser
verdad. Bawden, mi entonces Director, me preguntó cuando dejé Rothamsted
"¿por qué estaba renunciando a una agricultura decente para un remanso
científico como la medicina?" (Como virólogo, pude haber sido
perjudicado). De hecho, como aprendí a su debido tiempo, la investigación
clínica es en gran medida una tarea de aficionados realizada por médicos,
mientras que la investigación agrícola es realizada por científicos profesionales,
no por agricultores.
Antes de que alguien se agite, esta cita se refiere a la
investigación médica a mediados del siglo XX, no mucho después de la
publicación del famoso ensayo de estreptomicina del MRC (2). La práctica
moderna de la investigación médica estaba en su infancia, por decir lo menos.
Avancemos rápidamente hasta hoy, y vemos que la
investigación médica ahora está altamente profesionalizada. El dinero público y
privado gastado a nivel mundial en investigación médica es sustancial (alrededor
de 40 mil millones al año solo de los NIH en los EE. UU.), Y los beneficios de
la investigación para los resultados futuros y actuales de los pacientes son
muy apreciados. Existe una mayor regulación de la investigación clínica, una
infraestructura de apoyo a la investigación más desarrollada y muchas más
oportunidades de capacitación en investigación para los médicos. Sin embargo,
hay un aspecto importante de la investigación clínica que sigue siendo poco
desarrollado, tal vez incluso amateur, que es cómo desplegamos la experiencia
estadística.
Un poco de historia
En algún momento, la comunidad de investigación clínica
aceptó ampliamente que cualquier persona razonablemente brillante con un poco
de entrenamiento podría "hacer las estadísticas". A continuación,
discutiremos las consecuencias de esto, pero quiero pensar un poco sobre cómo
llegamos allí primer lugar (para ser claros, esta es solo una aproximación
cruda, en el mejor de los casos, de cómo podría haber resultado esto. Está
influenciado por cosas que leí con el tiempo, no de ninguna investigación
dirigida de mi parte. Si encuentra que la historia de las estadísticas es
interesante, puedo recomendar Dicing with Death de Stephen Senn (3), y casi
todo lo que pueda encontrar de Stephen Stigler).
Al principio existía la teoría de la probabilidad, que es
un conjunto de reglas matemáticas para manipular un tipo especial de número,
donde cero es igual a imposible y uno es igual a certeza absoluta. Y aunque los
teoremas que rigen estas probabilidades fueron derivados por múltiples
personas, provenientes de múltiples perspectivas, todos terminaron en el mismo
lugar.
Un uso de la teoría de la probabilidad es resolver
problemas inteligentes y enigmas como el cumpleaños o los problemas de Monty
Hall. Estos son problemas en los que se le da un escenario y se espera que
resuelva el resultado. La resolución de este tipo de problema se conoce como
una aplicación de probabilidad directa, y se puede denotar como P (datos | ϴ),
que es la probabilidad de mis datos (el resultado que puedo ver) dado ϴ
(theta), donde ϴ es uno o más parámetros de una distribución de probabilidad
(una explicación de cómo se generaron los datos). Por ejemplo, dada una moneda bien hecha, para la cual la probabilidad de caras es 0.5 (esto es ϴ), ¿cuál es la
probabilidad de obtener 8 caras si la lanzas 10 veces?
Sin embargo, hay una aplicación más importante de la
teoría de la probabilidad, que es el problema opuesto: se le da el resultado y
se le pide que haga inferencias sobre los posibles escenarios que condujeron
allí. En otras palabras, desea resolver P (ϴ | datos). Por ejemplo, arrojó una
moneda 10 veces y observó 8 caras, y desea hacer una declaración sobre si la
moneda está bien hecha o estimar cuál es la probabilidad "verdadera" de las
caras. Esto es generalmente lo que estamos tratando de hacer en la investigación
médica, y es más desafiante, ya que es una pregunta epistemológica, no solo
matemática.
Este problema era originalmente una cuestión de
probabilidad inversa, y era competencia de los primeros bayesianos, quienes
usaron el teorema de Bayes para convertir las funciones de probabilidad en P (ϴ
| datos) multiplicando las primeras por una distribución de probabilidad previa
de la posible ϴ. Muchos expertos han escrito excelentes documentos que
describen la perspectiva bayesiana para los principiantes, por lo que no me
quedaré mucho tiempo aquí. Lo importante que debemos entender para nuestros
propósitos es que antes de la era de la computadora, tenía que ser un
matemático serio para hacer un cálculo bayesiano adecuado, e incluso entonces
se limitaban en gran medida a ciertas combinaciones de probabilidades y
distribuciones anteriores (ver conjugación). Mi punto aquí es que ni siquiera
podría fingirlo al insertar sus datos en SPSS y presionar botones aleatorios
para obtener "un resultado". Sin una computadora, falsificar un
cálculo bayesiano habría sido el equivalente a escribir símbolos aleatorios en
una hoja de papel.
Sin embargo, las cosas comenzaron a cambiar a principios
del siglo XX. En pocas palabras, los frecuentistas
llegaron a la escena, pusieron el problema en su lugar, comenzaron a calcular
las distribuciones de muestreo para estimadores útiles, y defendieron su uso
para inferencia y toma de decisiones (valores p, intervalos de confianza y
control de errores - ¡Dios mío!). Y si bien se necesitaron matemáticos muy
serios para resolver esas distribuciones de muestreo, una vez que se hicieron,
podrían imprimirse como tablas de probabilidad en grandes libros con los que
simples mortales como usted o yo podríamos sacar del estante y comparar
nuestros datos observados para ver cómo les fue, a la luz de la ahora famosa
"hipótesis nula". A medida que se elaboraron más de estas
distribuciones de muestreo, para más y más estimadores, bajo más y más
suposiciones sobre cómo podrían haberse generado los datos, se les dio nombres
(como una prueba t pareada o una prueba de ji cuadrado) y agrupadas en libros,
el más famoso de los cuales fue el método estadístico de RA Fisher para
investigadores, publicado por primera vez en 1925 (14 ediciones, la última en
1970).
Ahora no estoy exactamente seguro de cuándo fue normal
que los investigadores clínicos hicieran sus propias pruebas estadísticas,
aunque indudablemente el desarrollo de estadísticas frecuentistas, personificadas por el famoso texto de Fisher, jugó
un papel importante para lograrlo. Pero en 1929, solo unos años después del
famoso libro de Fisher, H. L. Dunn revisó 200 artículos de investigación en
medicina y fisiología y concluyó que el 90% debería haber usado métodos estadísticos,
pero no lo hizo (4,5). Solo tres años después de eso, el Mayor Greenwood
señalaba que "los documentos médicos ahora frecuentemente contienen
análisis estadísticos, y a veces estos análisis son correctos, pero los
escritores violan con tanta frecuencia como antes los principios fundamentales
del razonamiento estadístico o lógico general". (6) mientras que en 1937
Bradford Hill (un ex alumno de Greenwood) publicó Principios de estadísticas
médicas, en el que señaló (7,8):
"El trabajador en problemas médicos, en el campo de la
medicina clínica y preventiva, debe saber algo de técnica estadística, tanto en
arreglos experimentales como en la interpretación de cifras. Para permitirle
adquirir algún conocimiento de esta técnica, he intentado establecer de la
manera más simple posible los métodos estadísticos que la experiencia me ha
demostrado que son más útiles en los problemas que conciernen a los
trabajadores médicos".
Entonces, durante un período de tiempo bastante corto,
los análisis estadísticos pasaron de ser vistos como poco prácticos e
innecesarios en la investigación médica, a ser críticamente importantes;
mientras que los estadísticos se transformaron de "tontos" en
"titulares de patentes para magia más o menos poderosa" (6). ¿Y quién
estaba allí para satisfacer la demanda de estas pruebas y análisis estadísticos
ahora necesarios? Recuerde, las "nuevas" estadísticas de frecuencia y
diseño experimental moderno acababan de desarrollarse, y todos los estadísticos
profesionales eran lo suficientemente raros como para ser vistos como usuarios
de magia. Dado que el humilde estadístico aplicado aún no se había inventado
realmente, "hacer las estadísticas" en gran medida tendría que recaer
en los propios investigadores clínicos. Hubo un avance rápido en dos décadas, y
Donald Mainland (9) estaba preocupado porque los "aficionados
entusiastas" aplicaran pruebas estadísticas (10,11) y publicaran una larga
serie llamada "Rondas estadísticas de sala" en Farmacología Clínica y
Terapéutica para tratar de mejorar el estado común de mala práctica estadística
en investigación médica (12).
Entonces, ¿cómo funcionó todo? ¿Fueron los primeros
estadísticos médicos como Greenwood, Hill y Mainland capaces de detener la
marea de análisis estadísticos de mala calidad con libros y artículos de
revistas? ¿Pudimos convertir a los investigadores clínicos con poca
capacitación formal en estadística (13), personas brillantes que ya estaban
asumiendo la enorme responsabilidad de brindar atención, en sus propios
estadísticos? Aquí está Doug Altman sobre el asunto en 1994 (14):
"¿Qué deberíamos pensar acerca de un médico que usa el
tratamiento incorrecto, ya sea intencionalmente o por ignorancia, o que usa el
tratamiento correcto de manera incorrecta (por ejemplo, al administrar la dosis
incorrecta de un medicamento)? La mayoría de la gente estaría de acuerdo en que
tal comportamiento no era profesional, podría decirse que no era ético y
ciertamente inaceptable.
Entonces, ¿qué deberíamos pensar acerca de los
investigadores que usan las técnicas incorrectas (ya sea intencionalmente o por
ignorancia), usan las técnicas correctas de manera incorrecta, malinterpretan
sus resultados, informan sus resultados selectivamente, citan la literatura
selectivamente y sacan conclusiones injustificadas? Deberíamos estar
horrorizados. Sin embargo, numerosos estudios de la literatura médica, tanto en
revistas generales como especializadas, han demostrado que todos los fenómenos
anteriores son comunes. Esto es seguramente un escándalo".
Un rotundo no. Al no abordar los déficits
estructuralmente impulsados en el pensamiento científico y estadístico ya
aparentes décadas antes, y luego ampliándolos con incentivos profesionales para
producir más y más investigación (inadecuadamente medida por documentos
publicados), la investigación médica se había convertido en un escándalo. Altman
concluyó que "Necesitamos menos investigación, mejor investigación e
investigación realizada por las razones correctas". Esta es, en mi
opinión, la oración más importante jamás escrita sobre investigación médica,
pero cayó en oídos sordos. ¿Cómo se esto? Aproximadamente una década más tarde,
The Lancet publicó un número especial sobre desperdicio de investigación, que
justificó que la investigación médica que cuesta miles de millones de dólares
cada año se desperdicia debido a cosas como preguntas de investigación
deficientes, diseños de estudio defectuosos, análisis estadísticos erróneos e
investigación torpe informes (15).
Hace solo unos años, el editor de la misma Lancet parecía
resumir estos problemas cuando la ciencia daba "un giro hacia la oscuridad"
(16). Acababa de asistir a un simposio sobre la reproducibilidad (17) y la
fiabilidad de la investigación biomédica, un tema que tiende a presentarse como
una preocupación reciente o moderna. Pero no lo es. Aquí está la cita completa
de Horton:
“El caso en contra de la ciencia es sencillo: gran parte
de la literatura científica, quizás la mitad, puede ser simplemente falsa.
Afligida por estudios con tamaños de muestra pequeños, efectos minúsculos,
análisis exploratorios no válidos y conflictos de intereses flagrantes, junto
con una obsesión por seguir tendencias de moda de dudosa importancia, la
ciencia ha dado un giro hacia la oscuridad”.
Como puede ver, se trata de malentendidos conceptos
estadísticos, métodos estadísticos mal aplicados, o quizás lo más importante de
todo, una falta de pensamiento estadístico, cuyo valor, más que nada, es evitar
que nos engañemos a nosotros mismos y El uno al otro. Nunca hubo un giro hacia
la oscuridad. Así ha sido siempre en la investigación médica. La pregunta es
cuándo decidiremos girar hacia la luz.
Continuará…
Referencias
1. Healy, M. J. R. Frank Yates, 1902–1994 — The Work of a Statistician*.
Int. Stat. Rev. 63, 271–288 (1995).
2. Crofton, J. The MRC randomized trial of streptomycin and its legacy:
a view from the clinical front line. J. R. Soc. Med. 99, 531–534
(2006).
3. Senn, S. Dicing with death: chance, risk, and health.
(Cambridge University Press, 2003).
4. Dunn, H. L. APPLICATION OF STATISTICAL METHODS IN PHYSIOLOGY. Physiol.
Rev. 9, 275–398 (1929).
5. Mainland, D. The rise of experimental statistics and the problems of
a medical statistician. Yale J. Biol. Med. 27, 1–10 (1954).
6. Greenwood. WHAT IS WRONG WITH THE MEDICAL CURRICULUM ? The Lancet 219,
1269–1270 (1932).
7. Hill, B. Principles of medical statistics. (Lancet, 1937).
8. V Farewell & Johnson, A. The origins of Austin Bradford Hill’s
classic textbook of medical statistics. JLL Bulletin: Commentaries on the
history of treatment evaluation. (2011).
9. Altman, D. Donald Mainland: anatomist, educator, thinker, medical
statistician, trialist, rheumatologist. J. R. Soc. Med. 113,
28–38 (2020).
10. Mainland, D. The use and misuse of statistics in medical
publications. Clin. Pharmacol. Ther. 1, 411–422 (1960).
11. Cromie, Brian W. THE FEET OF CLAY OF THE DOUBLE-BLIND TRIAL. The
Lancet 282, 994–997 (1963).
12. Mainland, D. Statistical ward rounds — 1. Clin. Pharmacol. Ther. 8,
139–146 (1967).
13. Windish, D. M., Huot, S. J. & Green, M. L. Medicine Residents’
Understanding of the Biostatistics and Results in the Medical Literature. JAMA
298, 1010 (2007).
14. Altman, D. G. The scandal of poor medical research. BMJ 308,
283–284 (1994).
15. Ioannidis, J. P. A. et al. Increasing value and reducing
waste in research design, conduct, and analysis. The Lancet 383,
166–175 (2014).
16. Horton, R. Offline: What is medicine’s 5 sigma? The Lancet 385,
1380 (2015).
17.
Munafò, M. R. et al. A manifesto for
reproducible science. Nat. Hum. Behav. 1, 0021 (2017).
Una breve historia de las estadísticas médicas y su papel en la reproducibilidad.
Un rotundo no. Al no abordar los déficits estructuralmente impulsados en el pensamiento científico y estadístico ya aparentes décadas antes, y luego ampliándolos con incentivos profesionales para producir más y más investigación (inadecuadamente medida por documentos publicados), la investigación médica se había convertido en un escándalo. Altman concluyó que "Necesitamos menos investigación, mejor investigación e investigación realizada por las razones correctas". Esta es, en mi opinión, la oración más importante jamás escrita sobre investigación médica, pero cayó en oídos sordos. ¿Cómo se esto? Aproximadamente una década más tarde, The Lancet publicó un número especial sobre desperdicio de investigación, que justificó que la investigación médica que cuesta miles de millones de dólares cada año se desperdicia debido a cosas como preguntas de investigación deficientes, diseños de estudio defectuosos, análisis estadísticos erróneos e investigación torpe informes (15).
A brief history of medical statistics and its role in reproducibility.
You
have to admit that medical research is a strange bird. There are few
industries where we take a group of highly trained, specialized
practitioners that already shoulder a great deal of responsibility and
then ask them not only to contribute to research efforts, but to lead
them. Unfortunately, this odd situation has grim consequences for
medical research, negatively impacting prospects for patients and the
public’s health. I’ll come back to this point shortly, but first, my
favorite joke of all time:
Q: What’s the difference between agricultural and medical research?
A: The former isn’t conducted by farmers (credit to Guernsey McPearson)
Feel free to let that sink in.
If you don’t see the “humor” in this, then you might avert your eyes as I share the quote it’s based on, from Michael Healy’s Fisher Memorial Lecture (1995) on the life of Frank Yates (1):
One
thing to be taken into account is that Yates was throughout his
peace-time career an agricultural scientist. To some it may seem that
agricultural science is something of an oxymoron, but this is far from
the truth. Bawden, my then Director, asked me when I left Rothamsted
‘why was I giving up a decent area agriculture for a scientific
backwater like medicine?’ (as a virologist, he may have been
prejudiced). In fact, as I learned in due course, clinical research is a
largely amateur pursuit done by doctors, while agricultural research is
done by professional scientists, not farmers.
Before
any one gets agitated, this quote refers to medical research in the
mid-twentieth century, not all that long after the publication of the
MRC’s famous trial of streptomycin (2). The modern practice of medical
research was in its infancy, to say the least.
Fast
forward to today, and we see that medical research is now highly
professionalized. The public and private money spent globally on medical
research is substantial (about 40 billion a year from the NIH in the US
alone), and the benefits of research for both future and current
patient outcomes are widely appreciated. There is greater regulation of
clinical research, a more developed research support infrastructure, and
many more research training opportunities for clinicians. However,
there is an important aspect of clinical research that remains
underdeveloped, perhaps even amateurish, which is how we deploy
statistical expertise.
A bit of history
At
some point the clinical research community broadly accepted that any
reasonably bright person with a bit of training could “do the stats.”
Below we’ll discuss the consequences of this, but I want to think a bit
about how we got there in the first place (To be clear, this is just a
crude approximation, at best, of how this might have played out. It’s
influenced by things I’ve happened to read over time — not from any
directed research on my part. If you find the history of statistics
interesting, I can recommend Stephen Senn’s Dicing with Death (3), and pretty much anything you can find by Stephen Stigler).
In the beginning there was probability theory,
which is a set of mathematical rules for manipulating a special kind of
number where zero equals impossible, and one equals absolute certainty.
And while the theorems that govern these probabilities were derived by multiple people, coming from multiple perspectives, they all wound up in the same place.
One use of probability theory is to solve clever problems and brain teasers like the birthday or Monty Hall
problems. These are problems where you are given a scenario and
expected to work out the result. Solving this kind of problem has been
referred to as an application of direct probability,
and can be denoted as P(data|ϴ), which is the probability of my data
(the result I can see) given ϴ (theta), where ϴ is one or more
parameters of a probability distribution (an explanation for how the
data were generated). For example, given a fair coin for which the
probability of heads is 0.5 (this is ϴ), what is the probability of
getting 8 heads if you flip it 10 times?
There
is a more important application of probability theory however, which is
the opposite problem: You are given the result, and asked to make
inferences about the possible scenario(s) that led there. In other
words, you want to solve P(ϴ|data). For example, you’ve flipped a coin
10 times and observed 8 heads, and you want to make some statement about
whether the coin is fair, or estimate what the “true” probability of
heads is. This is usually what we are trying to do in medical research,
and is more challenging, since it an epistemological question, not just a
mathematical one.
This problem was originally a matter of inverse probability, and was the purview of the early Bayesians, who used Bayes’ theorem to turn likelihood functions
into P(ϴ|data) by multiplying the former by a prior probability
distribution of the possible ϴ. Lots of experts have written excellent
papers outlining the Bayesian perspective for novices, so I won’t linger
here long. The important thing to understand for our purposes is that
prior to the computer age, you had to be a serious mathematician to do a
proper Bayesian calculation, and even then they were largely limited to
certain combinations of likelihoods and prior distributions (see conjugacy).
My point here is that you couldn’t even fake it by shoving your data
into SPSS and pushing random buttons to get “a result”. Without a
computer, faking a Bayesian calculation would have been the equivalent
of writing random symbols on a piece of paper.
Things started changing in the early 20th century though. In a nutshell, the frequentists arrived
on the scene, turned the problem on its ear, started working out the
sampling distributions for useful estimators, and making the case for
their use in inference and decision making (p-values, confidence
intervals, and error control — Oh my!). And while it took very serious
mathematicians to work those sampling distributions out, once they were
done, they could be printed as probability tables in big books that mere
mortals such as you or I could pull off the shelf and compare our
observed data against to see how they fared in light of the now famous
“null hypothesis.” As more of these sampling distributions were worked
out, for more and more estimators, under more and more sets of
assumptions about how the data might have been generated, they were
given names (like a paired t-test, or a chi-squared test) and packaged
together into books, the most famous of which was RA Fisher’s Statistical Methods for Research Workers, first published in 1925 (14 editions, the last in 1970).
Now
I am not exactly sure when it became normal for clinical researchers to
do their own statistical tests, though undoubtedly the development of
frequentist statistics, epitomized by Fisher’s famous text, played an
important role in bringing that about. But in 1929, just a few years
after Fisher’s famous book, H. L. Dunn reviewed 200 research papers in
medicine and physiology and concluded that 90% should have used
statistical methods but didn’t (4,5). Just three years after that, Major
Greenwood was pointing out that, “medical papers now frequently contain
statistical analyses, and sometimes these analyses are correct, but the
writers violate quite as often as before, the fundamental principles of
statistical or of general logical reasoning” (6); while in 1937
Bradford Hill (a former student of Greenwood’s) published Principles of Medical Statistics, in which he noted (7,8):
The
worker in medical problems, in the field of clinical as well as
preventive medicine, must himself know something of statistical
technique, both in experimental arrangements and in the interpretation
of figures. To enable him to acquire some knowledge of this technique I
have tried to set down as simply as possible the statistical methods
that experience has shown me to be most helpful in the problems with
which medical workers are concerned
So
over a fairly short period of time, statistical analyses went from
being viewed as impractical and unnecessary in medical research, to
being critically important; while statisticians were transformed from
“triflers” into “patentees for more or less powerful magic” (6). And who
was there to meet the demand for these now necessary statistical tests
and analyses? Remember, the “new” statistics of frequentism and modern
experimental design had only just been developed,
and all the professional statisticians were rare enough to still be
viewed as magic-users. Since the humble applied statistician hadn’t
really been invented yet, “doing the stats” would largely have to fall
to the clinical researchers themselves. Fast forward two decades, and
Donald Mainland (9) was worried about “enthusiast amateurs” applying
statistical tests (10,11) and publishing a long series called
“Statistical ward rounds” in Clinical Pharmacology and Therapeutics to try and improve the common state of poor statistical practice in medical research (12).
So
how did it all work out? Were the early medical statisticians like
Greenwood, Hill and Mainland able to stem the tide of shoddy statistical
analyses with books and journal articles? Were we able to turn clinical
researchers with little formal training in statistics (13), bright
people who were already shouldering the enormous responsibility for
providing care, into their own statisticians? Here is Doug Altman on the
matter in 1994 (14):
What
should we think about a doctor who uses the wrong treatment, either
wilfully or through ignorance, or who uses the right treatment wrongly
(such as by giving the wrong dose of a drug)? Most people would agree
that such behaviour was unprofessional, arguably unethical, and
certainly unacceptable.
What,
then, should we think about researchers who use the wrong techniques
(either wilfully or in ignorance), use the right techniques wrongly,
misinterpret their results, report their results selectively, cite the
literature selectively, and draw unjustified conclusions? We should be
appalled. Yet numerous studies of the medical literature, in both
general and specialist journals, have shown that all of the above
phenomena are common. This is surely a scandal.
A
resounding no. By failing to address the structurally driven deficits
in scientific and statistical thinking already apparent decades earlier,
and then amplifying them with professional incentives to produce more
and more research (grossly mismeasured by papers published), medical
research had become a scandal. Altman concluded that “We need less
research, better research, and research done for the right reasons.”
This is, in my opinion, the most important sentence ever written about
medical research, but it fell on deaf ears. How do I know this? A decade
or so later, the Lancet published a special issue on research waste,
which made the case that medical research costing billions of dollars
each year is wasted due to things like poor research questions, flawed
study designs, erroneous statistical analyses, and clumsy research
reports (15).
Just
a few years ago, the editor of that same Lancet seemed to summarize
these problems as science taking “a turn towards darkness” (16). He had
just attended a symposium on the reproducibility (17) and reliability of
biomedical research, a topic that tends to be presented as a recent or
modern concern. But it isn’t. Here is Horton’s full quote:
The
case against science is straightforward: much of the scientific
literature, perhaps half, may simply be untrue. Afflicted by studies
with small sample sizes, tiny effects, invalid exploratory analyses, and
flagrant conflicts of interest, together with an obsession for pursuing
fashionable trends of dubious importance, science has taken a turn
towards darkness.
As
you can see, it’s all about misunderstanding statistical concepts,
statistical methods being misapplied, or perhaps the most important
thing of all, a lack of statistical thinking,
the value of which, more than anything else, is to stop us from fooling
ourselves and each other. There was never a turn towards darkness. This
is the way it’s always been in medical research. The question is when
we will decide to turn towards the light.
To be continued…
References
1. Healy, M. J. R. Frank Yates, 1902–1994 — The Work of a Statistician*. Int. Stat. Rev. 63, 271–288 (1995).
2. Crofton, J. The MRC randomized trial of streptomycin and its legacy: a view from the clinical front line. J. R. Soc. Med. 99, 531–534 (2006).
3. Senn, S. Dicing with death: chance, risk, and health. (Cambridge University Press, 2003).
4. Dunn, H. L. APPLICATION OF STATISTICAL METHODS IN PHYSIOLOGY. Physiol. Rev. 9, 275–398 (1929).
5. Mainland, D. The rise of experimental statistics and the problems of a medical statistician. Yale J. Biol. Med. 27, 1–10 (1954).
6. Greenwood. WHAT IS WRONG WITH THE MEDICAL CURRICULUM ? The Lancet 219, 1269–1270 (1932).
7. Hill, B. Principles of medical statistics. (Lancet, 1937).
8.
V Farewell & Johnson, A. The origins of Austin Bradford Hill’s
classic textbook of medical statistics. JLL Bulletin: Commentaries on
the history of treatment evaluation. (2011).
9. Altman, D. Donald Mainland: anatomist, educator, thinker, medical statistician, trialist, rheumatologist. J. R. Soc. Med. 113, 28–38 (2020).
10. Mainland, D. The use and misuse of statistics in medical publications. Clin. Pharmacol. Ther. 1, 411–422 (1960).
11. Cromie, Brian W. THE FEET OF CLAY OF THE DOUBLE-BLIND TRIAL. The Lancet 282, 994–997 (1963).
12. Mainland, D. Statistical ward rounds — 1. Clin. Pharmacol. Ther. 8, 139–146 (1967).
13.
Windish, D. M., Huot, S. J. & Green, M. L. Medicine Residents’
Understanding of the Biostatistics and Results in the Medical
Literature. JAMA 298, 1010 (2007).
14. Altman, D. G. The scandal of poor medical research. BMJ 308, 283–284 (1994).
15. Ioannidis, J. P. A. et al. Increasing value and reducing waste in research design, conduct, and analysis. The Lancet 383, 166–175 (2014).
16. Horton, R. Offline: What is medicine’s 5 sigma? The Lancet 385, 1380 (2015).
17. Munafò, M. R. et al. A manifesto for reproducible science. Nat. Hum. Behav. 1, 0021 (2017).
No hay comentarios:
Publicar un comentario
Todo comentario será revisado. Se publicarán solo aquellos que se consideren respetuosos
Nota: solo los miembros de este blog pueden publicar comentarios.