miércoles, enero 11, 2012

Nelson contra Bayes, o las probabilidades y el cáncer de la presidenta

Para barrenar el batifondo mediático generado en torno al cáncer que se le diagnosticó erróneamente a la presidenta de la nación, vale la pena discutir una sutileza respecto de la interpretación de los resultados de un test cualquera, la cual al ser ignorada genera enorme confusión.
Supongamos que se pretende detectar una cierta enfermedad en un dado paciente. Las posibilidades son obviamente dos, o bien "el paciente está enfermo" (denotemos esta proposición como e) o bien "el paciente está sano" (denotémosla como s), es decir que sabemos con certeza que e O s es una proposición verdadera. Por lo tanto, si pretendemos asignar una probabilidad a cada una de estas posibilidades, tendremos que P(e O s) = 1. Si llamamos P(e) a la probabilidad de "el paciente está enfermo", y P(s) a la de "el paciente está sano" tendremos, aplicando una de las reglas básicas del cálculo de probabilidades, que P(e O s) = P(e) + P(s) = 1, lo que implica que P(e) = 1 - P(s). En el caso del cáncer de tiroides que se le diagnosticó a la presidenta, la incidencia en la población general es de un 20-50 casos por cada millón de personas (*). A los fines de esta discusión, promediemos estos números en 35 casos por cada millón de personas, de donde tenemos que la probabilidad de que una persona cualquiera esté enferma es P(e) = 0,000035, y de que esté sana (**) es P(s)= 1 - P(e) = 0,999965.

Para detectar la enfermedad sometemos al paciente a un dado estudio, cuyo resultado se limita a las opciones "el resultado da positivo" (que llamaremos p) o "el resultado da negativo" (que llamaremos n). Razonando igual que en el párrafo anterior, sabemos que sus probabilidades satisfacen P(p) = 1 - P(n). Ahora bien, ningún estudio es perfecto, y siempre existe la eventualidad de obtener un resultado equivocado. Llamemos p|s a la proposición "el resultado es positivo cuando el paciente está sano" (que se conoce como "falso positivo"), y P(p|s) a su probabilidad. En el caso del estudio que se le aplicó a la presidenta, éste dá falsos positivos un 2% de las veces, con lo que tenemos P(p|s) = 0,02. Por supuesto, también existe la opción del "falso negativo", es decir de que se verifique la proposición "el resultado es negativo cuando el paciente está enfermo" que llamaremos n|e. En el caso en cuestión, supondremos que su probabilidad satisface P(n|e) = 0,02. Notemos que, dado que para un paciente enfermo el test debe dar o bien positivo o bien negativo, razonando como en el párrafo anterior podemos deducir P(p|e) = 1 - P(n|e) (y una fórmula análoga para un paciente sano, que no nos será de utilidad en lo que sigue). Para el caso de la presidenta esto implica que P(p|e) = 0,98. Este es el famoso "98% de efectividad del test" que mencionan los medios oficialistas. 

Notemos que la proposición "el resultado es positivo" puede ser verdadera si "el resultado es positivo cuando el paciente está enfermo" y "el paciente está enfemo", o si "el resultado es positivo cuando el paciente está sano" y "el paciente está sano". Eso nos permite escribir que P(p) = P( (p|s Y s) O (p|e Y e) ). Usando las reglas del cálculo de probabilidades, podemos reescribir esta fórmula como P(p) = P(p|s Y s) + P(p|e Y e) = P(p|s)P(s) + P(p|e)P(e). En nuestro caso, si ponemos los números obtenemos P(p) = 0,02 x  0,999965 + 0,98 x 0,000035 = 0,02. 

Con estos datos, queremos calcular cual es la probabilidad de la proposición "el paciente esta enfermo cuando el resultado es positivo", que llamaremos P(e|p). Sólo si esta probabilidad es alta debería el médico recomendar algún tratamiento, lo que en el caso de la enfermedad que se le diagnosticó a Cristina Fernández involucraría una intervención quirúrgica. Para hacer ese cálculo existe un teorema conocido como "regla de Bayes" que establece que

P(e|p) P(p) = P(p|e) P(e)

de aquí podemos despejar P(e|p) = P(p|e) P(e) / P(p) lo que en nuestro caso y con los números en la mano nos da

P(e|p) = 0.98 x 0.00003 / 0.02 = 0,001

Es decir que es una probabilidad bastante baja, sólo una de cada mil personas que reciban un diagnóstico positivo con el mencionado test estará realmente enferma ¿Cómo se interpreta este resultado? ¿Cómo puede ser que la probabilidad real de que la presidenta estuviera enferma fuera tan baja, cuando obtuvo un resultado positivo en un estudio que funciona bien el 98% de las veces? La respuesta está en que, más alla de la efectividad del test, hay información extra que se debe tener en cuenta. En particular, la incidencia de la enfermedad en la población general, codificada en nuestra fórmula a través de P(e), es muy baja, lo que potencia la posibilidad de que un resultado positivo sea en realidad un falso positivo.
Obviamente, y suponiendo que los números arriba insertados sean los correctos, en ausencia de otros estudios o síntomas que avalaran la hipótesis de la presencia de la enfermedad, no se hubiera debido recomendar la intervención. Este error, el no aplicar correctamente la regla de Bayes, es lamentablemente muy común entre los galenos. Y no sólo en la Argentina, varios estudios hechos entre médicos estadounidenses demostraron que solo un pequeño grupo sabe usarla correctamente para valorar el peso de un estudio en el proceso de diagnostico, y lo hace como rutina. 

__________________________________

(*) Este dato está tomado de aquí, es muy probable que si se discrimina por sexo y grupo etario esta probabilidad sea bastante más alta, con lo que el resultado final para P(E|P) sería mayor. Honestamente no creo que tal aumento en el resultado final altere sustancialmente la conclusión.

(**)  En lo que respecta al cáncer de tiroides, siempre podría sufrir de alguna otra enfermedad.

14 comentarios:

  1. Con esta patología y el procedimiento diagnóstico aplica perfecto, pero no dejaría de agregar que la punción implica la observación directa de características morfológicas. Quiero decir, se ve (forma, número, color, agrupación de células)
    En este caso tenés ecografía, edad y sexo compatible. Con un resultado que si bien no deja de ser un score (cada hallazgo en el citológico suma), se acerca demasiado a lo que va a ser la anatomía patológica. Que x otro lado tiene como objetivo NO confirmar, sino ampliar el diagnóstico (extensión)
    La probabilidad y el riesgo forman parte del diagnóstico médico. De ahí que nos suelan putear xq no damos certezas. Tema interesante (la participación del paciente)
    Me parece que la comunicación estuvo perfecta, correcta. Que después algunos prefieran obviar la explicación y saltar directamente a la indignación conspiranoica, es otra cosa

    ResponderEliminar
  2. Por un lado, los detalles de la punción corresponden son características particulares del estudio, responsables de que haya una probabilidad de falsos positivos P(s|p) o de falsos negativos P(e|n). Siendo estas probabilidades realmente muy bajas, quiere decir que el estudio es en verdad muy eficiente.

    Por otro lado, hay una dada incidencia de la enfermedad P(e) en las personas (dado su sexo, rango etario y antecedentes) que no tiene nada que ver con el estudio y que solo mide que tan común es la enfermedad en esa población.

    El punto crucial es que, para evaluar que probabilidad de estar enfermo tiene un paciente cuyo estudio da positivo P(e|p), ambos parrafos anteriores deben ser tenidos en cuenta a la vez, haciendo uso de la regla de Bayes. Puede ser que un paciente con resultado de puncion positivo tenga en realidad una muy baja probabilidad de estar enfermo, porque en su sexo y rango etario la incidencia de la enfermedad es muy baja.

    Es cierto que la medicina es una ciencia probabilista, algo que les gusta repetir a los médicos. Pero en realidad todas las ciencias lo son, y decirlo a modo de reaseguro ("puede fallar" decía Tusam) no sirve de mucho. Lo que sirve es conocer la manera precisa de calcular la significación que tiene un dado estudio en el diagnóstico, y usarla. Esto último, pocos médicos lo hacen.

    ResponderEliminar
  3. Faltaría ahora determinar la probabilidad de cometer el error que se cometió (aplicar la regla de Bayes mal). En otras palabras ¿es la UMP especialmente inepta o es un error explicable?

    Curiosamente habíamos discutido un asunto de probabilidades, miriusté...

    ResponderEliminar
  4. No, no es la UMP, es un error de lo más común. Es un agujero que tiene la formación de los médicos, y no sólo en Argentina, sino en todos lados. De hecho es tán común que ya tenía la mitad de este post escrito en un mail que pensaba mandarte para abundar en nuestra discusión probabilística. Cuando pasó lo de la operción de Cristina, solo tuve que cambiar el ejemplo y aclarar los números para transformarlo en post.

    El error no es aplicar la regla de Bayes mal, sino directamente no aplicarla. Cuando un test que tiene una efectividad del 95% da positivo, el médico lo interpreta como que hay un 95% de probabilidades de que el paciente esté enfermo, y eso no es así. Su análisis olvida la incidencia de la enfermedad, es decir la probabilidad a priori de estar enfermo. No es lo mismo si el test verifica una enfermedad muy común como la gripe o una muy rara como el Creutzfeldt-Jakob.

    Es bueno recordar esto siempre que uno va al médico, en especial porque la probabilidad de que el médico no lo recuerde es bastante alta (a pesar de que a todos los médicos les gusta resaltar el caracter probabilista de la medicina, como un modo de cubrir sus pifies).

    ResponderEliminar
  5. Pregunta de burro: si la regla de Bayes se aplica para calcular probabilidades, esto es, para tratar con sucesos aleatorios, se puede usar también con proposiciones? Que una proposición sea verdadera o falsa es un suceso aleatorio del que se pueden calcular probabilidades?

    Aníbal

    ResponderEliminar
  6. Anibal

    En efecto, las probailidades son una manerda de tratar con proposiciones. Tengo un post medio escrito al respecto, adelanto:

    Deciamos por aquí que a las proposiciones se las puede combinar para formar nuevas proposiciones usando los conectivos lógicos y y o y la negación no, es decir que si p es una proposicion, no p también lo es, y que si q es una proposicion, tanto p y q como p o q lo son (si es confuso, en el post hay ejemplos que aclaran un poco).

    Dijimos por aquí que con solo razonar correctamente no se puede establecer el valor de verdad de una proposicion cualquiera, sino solo transportar valores de verdad desde las premisas hasta las conclusiones. Para establecer el valor de verdad de una proposición es necesaria otra operación, la valuación, que toma cualquier proposición y nos dice si es verdadera y falsa, es decir Valuación(p) = Verdadero o bien Valuación(p) = Falso. La valuación debe ser "consistente", es decir que:

    - Si Valuación(p) = Verdadero
    entonces Valuación(no p) = Falso,

    - Si Valuación(p) = Falso
    entonces Valuación(no p) = Verdadero.

    - Si Valuación(p) = Verdadero y Valuación(q) = Verdadero,
    entonces Valuación(p y q) = Verdadero y Valuación(p o q) = Verdadero,

    - Si Valuación(p) = Verdadero y Valuación(q) = Falso, entonces Valuación(p y q) = Falso y Valuación(p o q) = Verdadero,

    - Si Valuación(p) = Falso y Valuación(q) = Falso, entonces Valuación(p y q) = Falso y Valuación(p o q) = Falso.

    (de nuevo si esto es muy confuso en el post hay ejemplos)

    Finalmente, decíamos aquí que para obtener una valuación de un sistema de proposiciones, lo que hace la ciencia es acceder a la realidad mediante el experimento. El punto es que, como explicamos aquí, todos los experimentos devuelven información estadística, y no una valuación completa de cualquier proposición. Por lo tanto, la ciencia tiene algo similar a una valuación pero que en lugar de devolver los valores Verdadero o Falso cuando se aplica a una proposición, devuelve una valoración estadística del valor de verdad de una proposición. Esta valoración estadística se traduce en un número que vale 1 si la proposición es verdadera y 0 si es falsa, pero que puede tomar cualquier valor intermedio. Es decir reemplazamos la operación de Valuación(p) por otraoperación de Probabilidad(p). Las reglas de consistencia antes enumeradas se reemplazan por las reglas del cálculo de probabilidades

    - Si Probabilidad(p) = x
    entonces Probabilidad(no p) = 1-x,

    - Si Probabilidad(p) = x y Probabilidad(q) = y,
    entonces Probabilidad(p y q) = x + y y además Probabilidad(p o q) = xy,

    Es decir, las probabilidades se inventaron para lidiar con proposiciones. En los libros de probabilidades las proposiciones suelen llamarse "eventos" por tradición.

    ResponderEliminar
  7. El razonamiento matemático es exacto, pero no las cifras utilizadas. No sólo, como ya alguien señaló, hay que ajustar la incidencia por edad y sexo, sino que también hay que considerar que: a)la punción con aguja fina es una herramienta diagnóstica para cualquier tipo de cáncer tiroideo, por lo que habría que emplear la incidencia de cáncer tiroideo en general y no la del tipo particular y b) la punción no se realiza a cualquiera, sino (salvo casos excepcionales) a quienes tienen nódulos mayores de 1 cm con clínica y estudios de imágenes (usualmente ecografía y radiocaptación) sugestivos de malignidad. Bajo estas últimas condiciones, la probabilidad pretest de un tumor maligno es de un 20% aprox.
    Por otra parte, y en defensa de mi facultad (la UNC), tuvimos al menos tres materias (que yo recuerde) en que analizamos estos temas y la importancia de considerar las probabilidades pre y post test a la hora de solicitar e interpretar los estudios. No puedo hablar por las demás (ni puedo asegurar que el resto de mis compañeros haya aprovechado esas clases), pero estos temas no nos son desconocidos.
    Por último, esos estudios realizados en EEUU hacían referencia a otro tipo de herramientas diagnósticas, las de primer nivel, y no a las altamente específicas, como es este caso.
    Por lo demás, excelente entrada.

    ResponderEliminar
  8. Pero, que una proposición sea verdadera o falsa depende del azar? O que un síntoma corresponda a tal o cual enfermedad depende del azar? No hay una relación causal en ambos casos?

    Aníbal

    ResponderEliminar
  9. Anónimo (che, pongase un nick que no cuesta nada y ameniza el intercambio)

    Se agradece la data, es cierto que la incidencia que usé la robe de una página web bastante poco confiable, no sé si es la del cáncer tiroideo en general o la de un tipo particular, en cualquier caso lo que decís es correcto. Tambien es correcto que esa probabilidad debería renormalizarse al restringir la muestra a una cierta ventana de edad y a un dado sexo. De todos modos ¿te fijaste cuanto cambian los números con una indicencia del 20%? habría que ver si cambian tanto....

    Estoy seguro que en la facultad se enseña la regla de Bayes y como aplicarla, lo que dudo es que los estudiantes realmente asimilen la importancia de lo que se les está explicando. En mi vida de paciente, varias veces me topé con la confusión de la efectividad del test con la probabilidad de enfermedad. Por otro lado, en infinitas conversaciones con médicos, algunos amigos, me encuentro con que invocan el caracter probabilista de la medicina a modo de mantra para exculpar pifies, al estilo del "puede fallar" de Tusam. Ese tipo de invocación me suena un poco a pensamiento mágico. Me cuesta creer que esas personas, por lo demás inteligentes y bien formadas, realmente entendieron de qué se trata una probabilidad....

    Se agradece el aporte, saludos

    ResponderEliminar
  10. Anibal

    Perdón por tanta autoreferencia, pero me parece que lo que planteás estaba explicado en este post

    Reexplico lo anterior para ver si soy más claro:

    Dado un conjunto de proposiciones que versen sobre la naturaleza, al científico le gustaría hacer un conjunto de experimentos que nos digan si son verdaderas o falsas. En jerga más técnica, tal conjunto de experimentos establece una operación de "valuación" la cual, apliicada a cualquier proposición del conjunto, retorna un valor de verdad "verdadera" o "falsa".

    Ahora bien, hay dos tipos básicos de experimento, la medición y el conteo. Pensandolo un poco es fácil darse cuenta de que todos los experimentos de todas las ciencias son de alguno de esos dos tipos.

    En el caso de los experimentos de medición, siempre se mide con precisión finita, porque medir es comparar una magnitud con una referencia o "unidad". Cuando la medida es lo bastante precisa, siempre sucede que las perturbaciones externas al sistema originadas en el resto del universo empiezan a hacerse visibles en la forma de ruido. Es decir, si refinamos los aparatos de medida, siempre sucede que en algún punto al medír varias veces no se obtiene el mismo número. Eso implica que el resultado de cualquier medida no es un número real, sino una lista de números reales con una cierta distribución estadística.

    En el caso de los experimentos de conteo, se hace uso de algún "criterio de identidad" para saber si un cierto evento observado en el experimento "se cuenta" o "no se cuenta". Ese criterio de identidad siempre hace referencia a algún proceso de medición (un evento se cuenta si cierta magnitud medida es mas grande que, o mas chica que, o del orden de, un dado valor de referencia). Pero como los procesos de medición contienen ruido, esto introduce ruido en los experimentos de conteo. Es decir, si contamos varias veces, puede resultas que obtengamos resultados diferentes. Por lo tanto el resultado de un experimento de conteo no es un número entero sino una lista de números enteros con una cierta distribución estadística.

    De lo anterior se deduce que un conjunto de experimentos jamás podrá establecer una valuación para un conjunto de proposiones, sino de un modo estadístico. Explico: al hacer varias veces los experimentos, el ruido estadístico antes mencionado se traduce, para cada proposición del conjunto, en una lista de valores de verdad que no siempre coinciden. Es decir que una proposición cualquiera puede resultar verdadera un cierto número de veces y falsa otras. La manera de lidiar con esto es describir ese comportamiento usando probabilidades. En otras palabras, en lugar de asignar a cada proposición alguno de los valores "verdadero" (1) o "falso" (0), asignamos un número que interpola entre ellos, en el intervalo (0..1), llamado la probabilidad de la proposición.

    Entonces, en ciencia el valor de verdad de cualquier proposición se conoce con una cierta probabilidad. Eso es cierto para proposiciones que versen tanto sobre física cuanto sobre biología, psicología, sociología o medicina. Es cierto si se habla tanto de la velocidad de la luz o la ley de gravedad cuanto de la efectividad de un tratamiento o del modo de reproducción de una especie. Lo que afirmamos como "verdades científicas" son proposiciones cuya base experimental permite afirmar que tienen una probabilidad muy cercana a 1.

    ResponderEliminar
  11. Leonardo (al anónimo del 20%).
    Acabo de caer en la cuenta de un detalle importantísimo, que no noté la primera vez por leer a las apuradas.
    El valor del 98% que dieron en los medios es el Valor Predictivo Positivo, que se calcula así: Verdaderos Positivos/(Verdaderos Positivos + Falsos Positivos).
    Por lo tanto, claro está, este valor no implica que el estudio dé un 2% de falsos positivos, sino que el 2% de los positivos es falso y, dado que la posibilidad de que un estudio (de este tipo) dé positivo es bajísima (porque los enfermos son minoría), el porcentaje de falsos positivos sobre el total de pacientes es bajísimo.
    Suponiendo que el estudio nunca dé falsos negativos (cosa que jamás ocurre), si se aplica a toda la población en un proceso con una incidencia de 50 por millón (la máxima dada en la entrada), el estudio dará 50 verdaderos positivos y 1 positivo falso (redondeando) por cada millón.

    ResponderEliminar
  12. No te da verguenza ser tan mentiroso? Te tomaron por forro y no hicieron mal, este post lo demuestra.

    Sin embargo te pido que sigas escribiendo, porque me haces cagar de risa. Idolo.

    ResponderEliminar
  13. Si chancho, no es tu cerebro de mosquito que no ter permite entender una cuenta sencilla, es que yo te estoy mintiendo. En fin...

    Che, hablando de tomar por forro ¿como andas de la gripe que nos iba a matar a todos? ¿ya aceptaste que compraste un bolazo empaquetado y con moño? ¿o sos lo bastante pelotudo como para no notar tu propia pelotudez?

    (ni te gastes en contestar, en este blog no nos gusta tu bosta, cualquier otra pelotudez que escribas será borrada, anda a buscar atención a otro lado)

    ResponderEliminar