16 ago 2022

Sobre la calidad epistemológica de las pruebas estadísticas

En el último post recomendé el episodio dedicado a Thomas Bayes, del podcast A Ciencia Cierta. Creí preciso ampliar lo que allí se dice acerca de las probabilidades en mecánica cuántica. Pero hay otro asunto sobre el que me gustaría añadir un matiz que considero importante, acerca de otra parte de este episodio, en concreto, los minutos 77 y 80, en los que Anabel Forte explica adecuadamente que es muy importante no confundir la probabilidad condicionada $P(A|B)$ con la otra probabilidad condicionada $P(B|A)$. Hay que agradecer a Forte que ponga tanto empeño en explicar al gran público esta distinción, ya que, desgraciadamente, esta falacia de confundir $P(A|B)$ con $P(B|A)$ es algo que recurrentemente está utilizando la ultraderecha xenófoba cuando, por ejemplo, confunde deliberadamente la probabilidad de que seas un violador siendo un extranjero, con la probabilidad de que seas un extranjero, siendo un violador. Se trata de uno de los múltiples ejemplos de anumerismo de los que se han valido los nazis ya desde hace casi un siglo para propagar su odio.

Otro ejemplo que ilustra lo grave que puede llegar a ser no tratar de forma correcta las probabilidades condicionadas es el que menciona Anabel Forte:
"Un ejemplo muy serio y muy triste es el de Sally Clark, que era una madre estadounidense cuyos hijos fallecieron, primero uno y luego años más tarde el otro, siendo muy bebés, y se la acabó acusando de haberlos asesinado y se la metió en la cárcel. Sally recurrió. Ella decía que no los había matado [...] ¿Cuál es la intuición que se aplicó en ese juicio? Pues que si ella era la culpable, era muy probable que sus dos hijos hubieran muerto. Pero eso no es lo que buscaba. Se buscaba la probabilidad de que ella hubiera sido la culpable, dadas las pruebas. Dado todo lo que había pasado. ¿Qué pasaba en este caso? Pues que el síndrome de muerte súbita es un síndrome que se da en niños muy pequeños, normalmente menores de un año, y que tiene una componente genética. Entonces, realmente, que hubiera fallecido el segundo condicionado a que hubiera fallecido el primero era una probabilidad mucho mayor. Entonces si tu juntabas toda esta información, la probabilidad de que Sally hubiera sido realmente la culpable era mucho más baja, y además se acabó demostrando que no era cierto".

Sin embargo, considero que hay un aspecto importante que se ha omitido en esta tertulia, y a eso quiero dedicar este post. Imaginemos que tenemos en cuenta esta influencia genética en casos como éste, y que se aplica el análisis bayesiano correctamente. Imaginemos que, aun así, nos sigue saliendo que es muy probable que esta mujer sea culpable. Bien, en ese caso tampoco sería adecuado asegurar que tenemos pruebas suficientes para condenarla. El problema es más complicado. ¿Por qué? Vamos a verlo.



Consideremos los dos siguientes casos hipotéticos [Redmayne2008]:
  • Caso 1-I. Un autobús ha atropellado a un peatón que cruzaba por un paso de peatones, en una calle por donde no pasa ninguna línea, y se ha dado a la fuga. Sabemos que es un autobús porque en el lugar del accidente ha quedado un trozo de la placa que acredita al vehículo como un autobús de línea. Sólo hay dos compañías de autobuses en la ciudad con esa acreditación, la compañía azul y la compañía roja. Las dos tienen aproximadamente el mismo número de autobuses y las dos afirman que no ha sido ninguno de sus conductores. Un hacker ha borrado los registros de movimiento de los autobuses en los ordenadores de ambas compañías. Afortunadamente, hay un testigo. Sólo uno. Se trata de un joven de 18 años que volvía de tomar unas cervezas con sus amigos. Este testigo afirma con seguridad que el autobús del atropello era de la compañía azul. Un perito hace un estudio psicológico del testigo, recaba datos de estudios anteriores, los compara con las circunstancias concretas de visibilidad que había en ese momento  y (supongamos que hace muy bien su trabajo) concluye que uno se puede fiar de este tipo de testigos en un 99%. Es decir, un 99% de las veces que confiemos en un testigo así en esas circunstancias, acertaremos. La juez considera que hay suficiente evidencia de que el autobús del atropello era azul y condena a la compañía azul. ¿Crees que la justicia ha obrado correctamente?
  • Caso 1-E. Ocurre exactamente lo mismo que en el caso anterior, pero ahora cambian dos cosas. Por un lado no hay ningún testigo. Por otro, la compañía azul es mucho más grande que la roja, de tal forma que el 99,5% de los autobuses que circulan por la ciudad son azules. Hay un 99,5% de probabilidad de que el autobús del atropello sea azul. En base a esa consideración la juez condena a la compañía azul. ¿Crees que la justicia ha obrado correctamente?
Es más probable que hayamos condenado a un inocente en el caso 1-I que en el caso 1-E. Sin embargo, a poco que tengamos cierto respeto a los derechos humanos, es el caso 1-E el que nos deja mal sabor de boca. Hay algo sospechoso en la decisión de la juez del caso 1-E. ¿Por qué no nos quedamos tranquilos? ¿Somos "magufos" anti-ciencia que ponemos nuestros sentimientos irracionales por delante de los datos y "la evidencia científica"?

A lo mejor los dos siguientes ejemplos nos hacen salir de dudas:
  • Caso 2-I. Hay un sistema de acceso a un estadio de fútbol que consiste en que cada persona, al llegar a los tornos, mete un billete de 20 euros y el torno entonces la deja pasar. Sin embargo, se produce una avalancha y se cuelan miles de personas en el estadio. La mitad de las 100000 personas que han entrado en el estadio sí han pagado para entrar, pero estas personas no puede acreditarlo porque no hay tickets. En el interior del estadio la policía identifica a Alicia y le pone una multa por haberse colado en el estadio. Alicia reclama esta multa a la juez, pero en el juicio el club de fútbol presenta como prueba una imagen grabada en vídeo en la que se ve a una persona muy parecida a Alicia colarse por los tornos de la entrada. Alicia alega que la imagen es un poco borrosa. Un perito (supongamos que hace muy bien su trabajo) informa a la juez de que podemos asegurar que la persona de la imagen es Alicia con un 99% de probabilidad. La juez ratifica que la multa que le pusieron a Alicia estaba bien puesta.
  • Caso 2-E. Ocurre exactamente lo mismo que en el caso anterior, pero cambian dos cosas. Por un lado no hay vídeo y, por otro, se sabe que 500 personas sí entraron correctamente al estadio pagando los 20 euros al pasar por el torno. Como Alicia fue abordada al azar por la policía en el interior del estadio, la probabilidad de que Alicia sea una de las personas que sí pagaron la entrada es de 100*500/100000=0,5%. Como hay un 99,5% de probabilidad de que Alicia se haya colado en el estadio, la juez ratifica que la multa que le pusieron a Alicia estaba bien puesta.
En este segundo ejemplo se ve claramente que la juez en el caso 2-I lo está haciendo bien, pero que en el caso 2-E lo está haciendo mal. La policía no tiene ninguna prueba de que Alicia se haya colado en el estadio. La única "prueba" que tiene es estadística. Alicia pertenece a un colectivo, los que estaban dentro del estadio, en el que el 99,5% de las personas cometió una infracción. Eso no es suficiente para poder multarla. Aunque en los casos E expuestos aquí la probabilidad de condenar a un inocente es más baja que en los casos I, las pruebas de los casos E son pruebas estadísticas, y tienen menos validez que las de los casos I, que son pruebas individuales.

Por supuesto, la gama de posibles casos que se nos pueden presentar es infinita y, además, están también los parámetros del porcentaje de acierto, como la sensibilidad y la especificidad del test que se haga, que pueden tomar cualquier valor entre 0 y 100%. De hecho, en las últimas décadas ha habido bastante controversia en el mundo del derecho sobre la conveniencia de aceptar las pruebas estadísticas y de si debemos considerarlas suficientes. Un repaso de la literatura existente nos muestra que los tribunales, por lo menos en EEUU, tienen una marcada preferencia por las pruebas individuales sobre las estadísticas, las cuales no se suelen admitir ni como pruebas suficientes ni como pruebas adicionales. No obstante, en unos pocos casos sí se han admitido, dando como resultado una doctrina legal con ciertas incoherencias [Enoch2013]. ¿Qué argumentos se dan para rechazar las pruebas estadísticas más allá de que nos resultan "sospechosas" o incómodas de aplicar?

El asunto se complica todavía más si notamos que, en rigor, las pruebas individuales tienen siempre algo de estadísticas. Por ejemplo, en el caso 1-I, el porcentaje de 99% nos dice que, de cada 100 testigos con características similares al nuestro y en situaciones de la misma visibilidad que la del accidente, 99 identifican correctamente el color del autobús. ¿Qué diferencia hay entre decir que nuestro testigo es miembro del grupo de testigos de los cuales el 99% acierta en su identificación del color del autobús, y decir que el autobús del atropello es miembro del conjunto de autobuses que hay en la ciudad, de los cuales el 99% son azules? Los que rechazan que las pruebas estadísticas tengan la misma validez que las individuales son unos magufos irracionales que ponen sus sentimientos de "buenismo" por encima del riguroso conocimiento científico, ¿verdad?

Pues en realidad, ocurre que hay una diferencia epistemológica importante entre las pruebas estadísticas y las pruebas individuales. Pero, para ello, hay que plantearse una pregunta filosófica muy profunda y abstracta. La pregunta es ¿qué es conocer?

En un artículo anterior ya explicamos que, desde la época de Platón hasta mediados del siglo XX, ha habido un consenso implícito general en el pensamiento occidental en aceptar como definición clásica de "conocimiento" que las siguientes 3 condiciones no sólo son necesarias, sino también suficientes para poder afirmar que "sabemos" algo [Platón368ac]:
  • 1- Que estemos convencidos de que ese algo es verdad.
  • 2- Que, en efecto, ese algo sea verdad.
  • 3- Que nuestro convencimiento de que ese algo es verdad tenga una justificación racional.
Suena razonable pensar que, una vez estamos convencidos de algo a lo que hemos llegado mediante un método racional, y resulta que ese algo es cierto, podemos decir que conocemos ese algo. Sin embargo, en 1963 el filósofo estadounidense Edmund Gettier [Gettier1963] demostró que estas tres condiciones, aunque necesarias, no son suficientes para tener conocimiento. A los contraejemplos que dio Gettier les siguieron otros más sofisticados por otros filósofos, en una larga historia, que acaba (más bien, no acaba) con todas estas condiciones adicionales [Goldman1976, Hare2013]:
  • 4- Que no hayamos llegado a esa conclusión partiendo de una creencia falsa.
  • 5- Que el hecho de que estamos seguros de eso sea sensible a la verdad en el sentido de que, si no se hubiera dado el caso de que ese algo fuera verdad, no pensaríamos que es verdad.
  • 6- Que nuestras predicciones sobre ese asunto sean, en su mayor parte, acertadas.
  • 7- Que el método utilizado con el que hemos llegado a esa conclusión sea fiable.
Y aquí es donde podemos ver una diferencia clara entre las pruebas estadísticas y las pruebas individuales: la pruebas estadísticas no son sensibles a la verdad, mientras que las individuales sí lo son. Que una empresa de autobuses sea mucho más grande que la otra no depende de que haya sido o no esa empresa la que ha cometido el atropello. El hecho de que una persona esté dentro de un estadio no es sensible a que esa persona no haya pagado al entrar. 

Veamos otro ejemplo. Pensemos en una clase de Física y Química de Secundaria. Los profesores abusamos del lenguaje y, a los átomos de hidrógeno que han perdido su electrón para convertirse en iones positivos H+, los llamamos "protones". En rigor, esto sólo es cierto para los átomos de hidrógeno-1, ya que éstos poseen un protón en su núcleo y ningún neutrón, de manera que, cuando el electrón se va, el ion H+ sólo consiste en un protón solitario. Pero si lo que se ioniza es un átomo de deuterio, hidrógeno-2, lo que queda es un núcleo solitario que está formado por la unión de un protón y un neutrón, de tal forma que no es correcto llamar a H+ "protón". El motivo por el que los profesores y los libros de texto se refieren genéricamente a H+ como "protón" es porque en un vaso de agua cualquiera el 99,985% de los átomos de hidrógeno son de hidrógeno-1, lo que constituye una prueba estadística sólida de que, si cogemos un átomo de H al azar, éste con gran seguridad será de hidrógeno-1. Los buenos estudiantes conocen el concepto de isótopo y saben que, cuando los profesores llamamos protones a los H+, estamos abusando del lenguaje y que este abuso no implica que se cometa un error apreciable. Sin embargo, un mal estudiante que no se ha estudiado todavía que existen los isótopos está convencido que eso que el profesor llama "protón" es un protón. Supongamos que ese ion en concreto del que estamos hablando es, en efecto, un protón. ¿Sabe el estudiante que es un protón? No lo sabe, porque su creencia en que es un protón no es sensible a la verdad. Si hubiéramos tenido la mala suerte de coger uno de esos 0,015% átomos que no son hidrógeno-1, el estudiante habría seguido pensando que es un protón. Las pruebas estadísticas no cumplen la condición 5, con lo que nos aportan un conocimiento de inferior calidad que las pruebas individuales (una prueba individual podría ser un espectrógrafo de masas que distinga los isótopos hidrógeno-1 e hidrógeno 2 con cierto porcentaje de error).

Vale. Entonces las pruebas estadísticas no tienen tanta calidad epistemológica como las pruebas individuales, aunque en la práctica se haya medido para ellas la misma sensibilidad y especificidad. Pero esto es un matiz que sólo interesa a los filósofos de salón, ¿verdad?

Pues tampoco. El uso de pruebas que no cumplen la condición 5 tiene grandes implicaciones éticas, jurídicas y políticas. ¿Por qué? Porque el hecho de que la prueba estadística no sea sensible a la verdad implica, necesariamente, que su uso en los tribunales y en las políticas públicas crea malos incentivos. Si la compañía minoritaria sabe que, por ser minoritaria, va a ser descartada como la culpable en un juicio, ¿va a invertir dinero en que no se produzcan atropellos como el del ejemplo? Si una persona sabe que puede ser multada independientemente de que haya pagado al entrar o no, ¿va a pagar o se va a colar como los demás? Este es el principal motivo por que las pruebas estadísticas en general valen menos en los tribunales. No son sensibles a la verdad y eso crea malos incentivos [Enoch2013].

De especial delicadeza son todos los casos en los que quieren usarse pruebas estadísticas para perjudicar o estigmatizar a colectivos oprimidos. Ahí es especialmente grave ignorar la diferencia epistemológica entre pruebas estadísticas e individuales. Por eso sorprende que en 2015 Iñaki Ucar haya publicado un artículo en Naukas titulado "Sobre números, pragmatismo y ética", en el que ignora la diferencia epistemológica entre pruebas estadísticas y pruebas individuales en una cuestión que afecta a un colectivo tan oprimido como el de los homosexuales, y nadie desde entonces del entorno de esa plataforma haya señalado, que yo sepa, lo inadecuado del tono del artículo. Úcar analiza en ese artículo brevemente un fallo del Tribunal de Justicia de la Unión Europea (TJUE) acerca de una Orden Ministerial francesa que establecía una exclusión permanente de la donación de sangre a hombres que tienen relaciones sexuales con otros hombres. El TJUE avaló que los países puedan excluir a este colectivo si se pone como motivo la situación sanitaria. Úcar concluye el artículo afirmando que él no ve homofobia por ningún lado. ¿De verdad podemos asegurar que no la hay? ¿Ha llegado a esa conclusión con los mismos ojos con los que tampoco ve la diferencia epistemológica entre pruebas individuales y estadísticas? Aunque no sea explícitamente intencionado, ¿no es también homofobia ignorar esta diferencia para discriminar y estigmatizar a un colectivo tan atacado como el de los homosexuales? ¿No es esta forma de proceder habitualmente selectiva con los colectivos oprimidos? Cuando los afectados son los privilegiados, entonces sí solemos tener la empatía de revisar nuestro modelo para darnos cuenta de que éste no termina de captar todos los aspectos importantes de la situación. Sólo hay que ver cómo se ha tratado históricamente el papel, en la propagación del SIDA, de los homosexuales o de los drogadictos frente al de la prostitución.

Resulta que las personas no son átomos de hidrógeno. Son seres humanos. ¿Hemos tenido que ir a las raíces filosóficas de la ciencia para descubrirlo? ¿Os imagináis a alguien escribiendo un artículo en Naukas defendiendo que es racional y científico que discriminemos a todos los que somos hombres heterosexuales blancos, haciéndonos, por ejemplo, pagar un impuesto especial para luchar contra las redes mafiosas de esclavas sexuales y para reforzar el sistema sanitario, debido el hecho objetivo de que un importante porcentaje de este colectivo es cliente de estas redes? ¿Os imagináis justificarlo porque "así es de puto el teorema de Bayes" y que "suena duro, suena crudo, suena estigmatizante. Pero es así"? ¿Os imagináis la reacción que habría a un artículo así en las redes sociales? A lo lejor entonces nos damos cuenta de que, si trabajamos con rigor científico, no podemos asegurar que "es así", porque los cálculos matemáticos que hacemos no son la realidad, sino una útil modelización simplificada de algunos aspectos de la realidad. Llevar los resultados de esos cálculos hasta las últimas consecuencias, ignorando la epistemología, el resto de aspectos y las implicaciones que tienen nuestras acciones, es también una forma de fanatismo religioso.

Conclusión


La deficiente calidad epistemológica de las pruebas estadísticas no es un problema sólo de filósofos de salón. Es también la causa de los malos incentivos que genera su uso en el ámbito legal y en las políticas públicas. Ignorar esto te puede llevar a asegurar que tenemos pruebas sólidas para condenar a una persona o para apartarla de algo en casos que, en realidad, son más complicados y donde no se puede ser tan tajante.

Cuando hacemos divulgación, típicamente nos centramos en aquellos ejemplos en los que no se hicieron bien los cálculos, o no se aplicó correctamente un teorema, con lo que corremos el peligro de acabar transmitiendo el mensaje de que trabajar bien con las matemáticas es garantía de que estamos haciendo las cosas bien. Pero la diferencia epistemológica entre las pruebas estadísticas y las individuales es un ejemplo de que esto no es así.

En mi opinión, es importante no olvidarse de estos "detalles" para evitar acabar en un futuro distópico, que con el big data y la inteligencia artificial no parece ya tan lejano, en el que las personas sean masivamente condenadas o discriminadas de manera automatizada mediante pruebas que no son sensibles a lo que han hecho. 

Viene a cuento terminar este artículo reproduciendo estas palabras de Andrea Jones-Rooy, del NYU Center for Data Science:

Después de milenios de depender de anécdotas, instintos y leyendas urbanas como prueba de nuestras opiniones, la mayoría de nosotros hoy exigimos que las personas usen datos para respaldar sus argumentos e ideas. Ya sea para curar el cáncer, resolver la desigualdad en el lugar de trabajo o ganar elecciones, los datos ahora se perciben como la piedra de Rosetta para descifrar el código de casi toda la existencia humana. Pero, en este frenesí, hemos confundido los datos con la verdad. Y esto tiene implicaciones peligrosas para nuestra capacidad de comprender, explicar y mejorar las cosas que nos importan.
[...] Yo que me gano la vida con los datos siempre acabo obligada, ya sea al hablar con estudiantes o con clientes, a recordarles que los datos no son una representación perfecta de la realidad, sino una construcción fundamentalmente humana y, por lo tanto, sujeta a sesgos y limitaciones, con las consecuentes imperfecciones significativas que esto implica.
La expresión más clara de este malentendido es la pregunta que se escucha tanto en las reuniones de trabajo como en las aulas cuando personas bien intencionadas intentan llegar al fondo de cuestiones difíciles: "¿Qué dicen los datos?"
Los datos no dicen nada. Son los humanos los que dicen cosas, los que dicen qué aprecian o qué buscan en los datos, Los datos solo existen porque los humanos decidieron recolectarlos, y los recolectaron utilizando herramientas hechas por humanos. Los datos no pueden decir nada sobre un problema más de lo que un martillo puede construir una casa o el trigo puede hacer un macarrón. Los datos son un ingrediente necesario para el descubrimiento, pero se necesita un humano para seleccionarlos, darles forma y luego convertirlos en ideas. Los datos son, por tanto, tan útiles como la calidad que tienen y las habilidades de las personas que los manejan. [Jones-Rooy2019]

Las pruebas estadísticas son útiles, y proporcionan muchas veces probabilidades a priori que nos permiten poder realizar los análisis bayesianos pertinentes, pero no poseen la misma calidad epistemológica que las individuales. Si, cuando hacemos divulgación científica, no remarcamos esta diferencia, podemos acabar abriendo las puertas del gran público a otros "divulgadores" que, con la excusa de hacer una feroz campaña a favor del "pensamiento crítico", la "racionalidad" y la "evidencia científica" en la toma política de decisiones, nos acaban metiendo, sin darnos cuenta, en la senda de la intolerancia y del fascismo. Afortunadamente, la ciencia se fundamenta en una forma de pensar en el que los conceptos y principios filosóficos más abstractos y profundos van de la mano de las cuestiones prácticas. Divulgar la ciencia así, tal y como es, es la mejor de las vacunas frente a aquellos que nos dicen que en ciertos temas, como las políticas migratorias, de género, la diversidad afectivo-sexual, la energía nuclear, el uso masivo del herbicida glifosato o la políticas económicas, por poner algunos ejemplos, no hay ningún tipo de debate científico, porque los datos a favor de la postura que ellos defienden "son claros". Llegan incluso a defender que todo lo que no sean datos es ideología. Sin embargo, esos activistas ocultan deliberadamente que en ciencia los datos adquieren su significado en el contexto en el que se toman, y que el verdadero significado de esos datos en muchas ocasiones no tiene nada que ver con lo que ellos claman. Los profesores y los divulgadores tenemos el deber de poner nuestro grano de arena para frenar esta sinrazón.


Bibliografía

  • Enoch, D. and T. Fisher (2013). “Statistical evidence: The case for sensitivity.” Stanford Law Review.
  • Gettier, Edmund (1963). "Is Justified True Belief Knowledge?" Analysis. 23: 121–123.
  • Goldman, Alvin I. (1976), "Discrimination and Perceptual Knowledge," The Journal of Philosophy.
  • Hare C. (2013), "What is knowledge", in 24.00x Introduction to Philosophy: God, Knowledge, and Consciousness, MITx.
  • Jones-Rooy, Andrea (2019). "I’m a data scientist who is skeptical about data"Quartz
  • Platón (368 a.c.). Teeteto 201c-210b (Traducción de A. Vallejo Campos para la edición de la editorial Gredos, 1988).
  • Redmayne, Mike (2008). "Exploring the Proof Paradoxes", 14 LEGAL THEORY 281, 282.

No hay comentarios:

Publicar un comentario