11 ago 2022

Las probabilidades bayesianas y la mecánica cuántica

Bayes' Theorem MMB 01.jpg


A Ciencia Cierta es un podcast dirigido y presentado por Antonio Rivera que tiene varias virtudes frente al otro gran podcast de éxito que tenemos en España sobre ciencia, Coffee Break: Señal y Ruido. Además de la calidad de las aportaciones de los contertulios que participan en cada episodio, y que son diferentes en función del tema a tratar, la elección del tema no parece que esté asociada a ninguna noticia reciente ni polémica de moda en medios o redes sociales, lo que da más tiempo para elegir y preparar mejor los temas. Por contra, en A Ciencia Cierta no tienen ni a Francis Villatoro, ni a Gastón Giribet ni a Héctor Socas, y los temas de los que se habla no son tan avanzados como los de Coffee Break.

Uno de los episodios recientes de A Ciencia Cierta que me gustaría recomendar es el de Thomas Bayes, con Pablo Beltrán, Víctor Marco y Anabel Forte. Dejo aquí el enlace:

https://go.ivoox.com/rf/90488602

En este podcast no se habla específicamente sobre física, sino sobre la historia de cómo surgió el teorema de Bayes y por qué es tan importante hoy en día en todas las ramas de la ciencia. Pero entre los minutos 59 y 63, a raíz de un comentario de Anabel Forte, Víctor Marco explica que en mecánica cuántica las probabilidades son intrínsecas a la misma naturaleza, ya que no hay variables ocultas. El mundo es no determinista y por eso la probabilidad es la herramienta que explica la realidad. En mecánica cuántica hay probabilidades que no se deben al desconocimiento que tenemos sobre una realidad subyacente, sino que se deben a que en la misma naturaleza los observables en general no toman valores bien definidos antes de ser medidos. Pero ha sido un comentario demasiado breve, en mi opinión, ya que en seguida los contertulios han pasado a otro tema ajeno a la mecánica cuántica.

Como me ha parecido que dos horas de podcast son poco, voy a intentar en este post aclarar de forma más amplia cuál es la relación entre las probabilidades bayesianas y las mecánica cuántica. Sobre el uso de la fórmula de Bayes para la realización de inferencias y su importancia en filosofía de la ciencia el lector puede consultar este otro post


En Física clásica, aunque las magnitudes físicas tienen siempre valores bien definidos, normalmente esos valores bien definidos están ocultos, y eso nos obliga a trabajar también con probabilidades que tienen que ser actualizadas cada vez que obtenemos nueva información. Esto lo hacemos usando la ley de Bayes.

La probabilidad de que ocurran, simultáneamente, un hecho A y otro hecho B se puede escribir de dos maneras distintas. Por un lado, como la probabilidad de que ocurra B multiplicada por la probabilidad de que, sabiendo que ocurre B, ocurra A. Por otro lado, esta misma probabilidad se puede escribir como la probabilidad de que ocurra A, multiplicada por la probabilidad de que, sabiendo que ha ocurrido A, ocurra B. Como ambas expresiones representan la misma cantidad, igualando se obtiene lo que se denomina el teorema de Bayes. Despejando, se obtiene la fórmula correspondiente a la ley de Bayes, que nos dice cómo actualizar la probabilidad de que A ocurra una vez hemos aprendido que B sí ha ocurrido.

$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$

En particular, si se da el caso de que A implica no B, entonces P(B|A)=0, con lo que, aunque hayamos asignado una probabilidad previa P(A) no nula, al actualizar con la  nueva información de que ocurre B, la nueva probabilidad de A, sabiendo B, P(A|B) colapsa a cero.

Bien, pero ¿qué pasa en mecánica cuántica? En mecánica cuántica, debido al principio de indeterminación, en general los observables no toman valores bien definidos, con lo que no podemos usar ni la tabla ni el formalismo anterior si A y B representan resultados de la medición de observables que son incompatibles. El formalismo adecuado para tratar con las probabilidades en mecánica cuántica es el de las amplitudes de probabilidad, y los estados cuánticos, vectores en un espacio de Hilbert, que se construyen con ellas. 

Pero la cuántica no es tan rara como algunos haters nos quieren hacer creer. Una superposición cuántica de dos estados excluyentes no significa que los hechos descritos por cada uno de los dos estados se den a la vez. Una vez realizada la medición sólo uno de ellos tiene lugar. El otro no forma parte de la realidad. Es decir, implica una forma de pensar que no es exclusiva de la mecánica cuántica, sino de cualquier esquema conceptual que incluya el concepto de probabilidad. Incluso en la física clásica, las probabilidades también son números que cuantifican qué posibilidades concretas se pueden convertir en hechos una vez se ha realizado una observación y se ha obtenido esa información. Sólo una de, lo que son posibilidades antes de la observación, se convierte en hecho tras la observación. Y una vez se ha consumado ese hecho, las  probabilidades subjetivas deben ser actualizadas.

Por este motivo, en el formalismo de la mecánica cuántica se puede seguir utilizando la idea antigua de actualización bayesiana, en este caso actualizando las amplitudes de probabilidad, para hacer los cálculos de las probabilidades a posteriori. A esta actualización bayesiana es a lo que se llama "colapso de la función de onda". Por eso este colapso puede ocurrir sin interacción y de forma instantánea (o propagándose más rápido que la luz) en todos los puntos del experimento, aunque estén a años luz de distancia. No es un proceso físico que ocurre en la naturaleza, sino un proceso que ocurre en la mente del observador. Todo el contenido de este post lo explico, con un ejemplo concreto, en uno de los vídeos que he hecho para el Curso de Mecánica Cuántica para Estudiantes de Bachillerato:

 


De la misma manera que las probabilidades bayesianas no cambian hasta que alguien subjetivamente obtenga información nueva sobre un nuevo suceso, las amplitudes de probabilidad en mecánica cuántica, en la imagen de Heisenberg, no cambian sin que haya un observador que aprenda cuál ha sido el resultado de una medición.

Recordemos el motivo por el que el término "observador" tuvo que ser introducido en mecánica cuántica: los fundadores de la mecánica cuántica se dieron cuenta de que no tenían más remedio que adoptar cierta actitud positivista que consiste en que sólo podemos estar seguros de que un enunciado tiene significado físico si ese enunciado nos dice algo acerca de las observaciones que realizan observadores de verdad, observadores que existen. La física lo que tiene que explicar y predecir son las observaciones, no el comportamiento de los entes que tú tengas en la cabeza por puro prejuicio y que, a lo mejor, ni siquiera existen, como por ejemplo las trayectorias de las partículas.

No obstante, recordemos que el espíritu positivista que posibilitó el surgimiento de la mecánica cuántica es un positivismo suave: no implica que aquello que no tenga conexión directa con la experiencia no exista, sino que no estamos obligados a suponer que existe en la formulación de nuestras teorías. Si no podemos encontrar un procedimiento mediante el cual se pueda medir algo, como el valor de in observable tras una observación, entonces está permitido formular teorías en las que esa cantidad no tenga ningún significado físico.

Fue gracias a que Bohr, Heisenberg, Born y compañía se dieron cuenta de lo importante que es esta enseñanza acerca de la naturaleza de la ciencia, que se pudo construir la mecánica cuántica. Este mismo espíritu positivista va en la línea del establecido por Ernst Mach, espíritu que que posibilitó también el surgimiento de la teoría de la relatividad, donde, por ejemplo, la simultaneidad no existe como hecho universal, sino como hecho relativo a un sistema de referencia, a un conjunto de observadores que están en reposo entre ellos.

Pues bien, en mecánica cuántica las amplitudes de probabilidad, y el vector estado cuántico, que se construye con ellas, son relativas a un observador que observa los resultados de los aparatos de medida que ha colocado. Así es cómo hemos construido estos conceptos en este curso. Por este motivo, en mecánica cuántica la utilización de un ente que haga de observador es indispensable para poder aplicar la leyes de la física, leyes que son predicciones probabilísticas acerca de las observaciones futuras calculadas a partir de la información obtenida en las observaciones previas, información que se ha usado para construir el vector estado cuántico del sistema. Necesitamos a un observador para que los vectores que caracterizan los estados cuánticos estén bien definidos.

Por este motivo, en mecánica cuántica no hay un estado objetivo de la naturaleza. En su lugar, el estado de la naturaleza siempre se expresa en relación a un observador. ¿Significa esto que la mecánica cuántica es una teoría que afirma que no existe un mundo objetivo y que todo es subjetivo porque depende de si hay o no un observador para observar el resultado del experimento? No.

En primer lugar, como hemos visto en este curso, el observador no tiene por qué ser un ser humano consciente ni nada parecido. Basta con un aparato, o conjunto de aparatos de medida que registren el resultado de la medición de forma que este registro no pueda borrarse de forma efectiva mediante una interferencia de caminos, es decir, aparatos de medida que, en buena aproximación, se consideren clásicos. Más adelante en el Curso de Mecánica Cuántica veremos que el instante en el que se produce el corte de Heisenberg, el instante en el que el colapso de la función de onda tiene lugar y se puede hacer la aproximación de que el aparato de medida es completamente clásico, no tiene ningún significado físico, siempre que situemos temporalmente ese colapso después de que se produzca un proceso físico denominado "decoherencia". Simplificando mucho, la decoherencia consiste en que esa información se entrelaza cuánticamente con sistemas que ya no nos son accesibles y se pierde de forma efectiva la posibilidad de hacer interferir las amplitudes que corresponden a resultados distintos para borrar el registro de la medición.

Además, en mecánica cuántica, en lo que respecta al cálculo de las predicciones, el cálculo de las amplitudes de probabilidad, el papel del proceso de medida es completamente trivial y queda totalmente al margen de los cálculos que se hacen en mecánica cuántica. Al igual que pasaba en mecánica clásica, en cuántica el proceso concreto de medida no afecta a qué predicciones hacen las leyes de la física. Los observables en mecánica cuántica tienen sentido y sus valores pueden ser predichos de forma probabilística independientemente de que se vaya a hacer o no una medición de los mismos y de cómo se vaya a hacer esa medición. Es decir, los observables con los que trabaja la mecánica cuántica para describir el sistema cuántico, aunque son propiedades del conjunto sistema cuántico más aparato de medida, no dependen de ninguna propiedad complicada que caracterice técnicamente y en detalle cómo se hace la medida. Por ejemplo, como hemos visto en el curso, que un fotón se haya reflejado o refractado en el primer espejo semirreflector no depende de que haya un observador consciente o no mirando al detector $\sigma_z$, ni depende de cómo internamente funciona el detector. Eso sí, que este observable tome un valor bien definido sí depende de que haya o no un detector ahí.

La revelación de en qué estado concreto está el sistema cuántico es subjetiva, relativa a cada observador, pero las leyes de la física cuántica que gobiernan las relaciones entre las experiencias de cualquier observador son objetivas y universales. Estas leyes son independientes de las propiedades de los observadores (si son humanos conscientes, aparatos que registran información o lo que sea) que hacen uso de estas leyes. La introducción de un observador es necesaria para analizar una observación particular, pero este observador no afecta a las leyes de la física. Las propiedades del mundo físico se pueden calcular independientemente de cualquier observador concreto. Para calcular las amplitudes de transición de un proceso físico sólo necesitamos especificar los estados inicial y final, y cualquier observador puede encontrar al sistema en ese estado inicial y hacer uso de las leyes de la física universales y objetivas para hacer predicciones de lo que va a ocurrir y con qué probabilidad. Las leyes que nos dicen qué cosas pueden existir en la naturaleza y qué va a ocurrir con cierta probabilidad dadas ciertas condiciones iniciales, ciertos hechos previos, son objetivas. Pero las descripciones individuales dadas por los estados cuánticos y los resultados obtenidos por cada observador son subjetivos. Profundizaremos más en este asunto cuando hablemos en el curso de la amiga de Wigner.

Si nos fijamos bien, el problema que tienen muchos estudiantes para entender el colapso de la función de onda viene de que no tienen clara cuál es la naturaleza de la función de onda. Para aclarar este punto vamos a construir la siguiente tabla:


A los objetos que existen objetivamente como entes físicos se les llama ónticos, mientras que a los objetos que describen lo que sabemos sobre algo se les llama epistémicos. Dicho así, está claro que la función de onda no es óntica, ya que no existe ningún campo cuyo valor objetivo en cada punto del espacio sea igual a la amplitud de probabilidad de que la partícula esté en ese punto. El significado de la función de onda no es un campo clásico que toma valores en cada punto del espacio. La función de onda no es un objeto con existencia física real, sólo describe la máxima información que puede tener un observador de un sistema cuántico, la máxima información que se puede obtener acerca de las probabilidades al medir observables cuyos valores no tienen en general existencia objetiva antes de la medición. La función de onda describe lo que sabemos del sistema antes de medir, antes de que ese observable tome un valor bien definido. Es el conocimiento que tenemos para hacer predicciones en términos de probabilidades.

La descripción que hace la función de onda del sistema es completa, pero hay una diferencia fundamental entre la completitud de la descripción que hace un campo clásico, como por ejemplo, campo magnético, y la que hace una función de onda. Si nos preguntamos si el campo magnético en una determinada región toma o no los valores determinados por cierta función, sólo hay dos respuestas posibles. O sí o no. Pero si un sistema cuántico está en un estado $|\psi\rangle $ y nos preguntamos por si ese sistema está en otro estado $|\psi^\prime\rangle $, la probabilidad es el módulo al cuadrado del producto escalar de ambos vectores, cantidad que no es cero si ambos estados no son excluyentes. Los estados que no son ortogonales no son mutuamente excluyentes, sino incompatibles. Dos campos magnéticos descritos por funciones que se parecen son claramente campos magnéticos distinto, cosa que podemos determinar fácilmente simplemente midiendo con la precisión suficiente. Pero en el caso de dos estados cuánticos diferentes cuyos vectores asociados están cerca uno de otro en el espacio de Hilbert, no podemos hacer esta distinción, ya que lo más probable es que, al hacer la medición, con ambos estados vamos a obtener exactamente el mismo resultado, ya que ambos estados tienen asociados probabilidades casi iguales. No podemos distinguir dos estados que se parecen mucho mediante una medición. De hecho, la probabilidad de que ambos estados sean el mismo es módulo al cuadrado del producto escalar de ambos o, lo que es lo mismo, el coseno del ángulo que forman al cuadrado. Al formar un ángulo muy pequeño, el coseno es prácticamente uno. Aunque matemáticamente sean estados diferentes, físicamente son prácticamente el mismo estado. Sólo podríamos distinguirlos si tuvieramos muchas copias exactas del sistema, ya que eso nos permitiría hacer muchas mediciones.

Por este motivo, el vector estado cuántico del sistema, o, equivalentemente, la función de onda, es una descripción de una realidad física con mucha más información de la que realmente tiene esa realidad física. La función de onda contiene muchos más grados de libertad matemáticos que los grados de libertad físicos que hay en realidad. En el ejemplo del interferómetro que llevamos trabajando desde que comenzó el curso de cuántica, la función de onda consiste en dos amplitudes de probabilidad, dos números complejos cuya suma de módulos al cuadrado es uno. Eso es mucha más información matemática que la que se obtiene cuando hacemos una medición de ese bit cuántico.

Que los grados de libertad matemáticos de la función de onda no son los grados de libertad físicos del sistema cuántico es otra forma de ver que la función de onda no es un ente físico con existencia real. La función de onda es una generalización de las distribuciones de probabilidad bayesianas subjetivas, algo muy diferente a un campo clásico. No es óntica.

Pero la segunda opción, epistémica, también es incorrecta, porque epistémica significa que es un objeto que describe la información parcial que tenemos acerca de un sistema en el que todos los observables toman simultáneamente valores bien definidos pero que no los conocemos todos, porque no tenemos la máxima información posible, y por eso refleja un conocimiento subjetivo. Sin embargo, la función de onda en mecánica cuántica no es una distribución de probabilidad clásica. El vector estado cuántico sí le da a ese observador la máxima información posible sobre el sistema cuántico, sí le da un conocimiento objetivo completo desde su perspectiva, sólo que este conocimiento objetivo no es lo que esperábamos, porque la naturaleza no es cómo esperábamos que era. Nos guste o no, lo máximo que podemos, y que se puede hacer, es formular predicciones probabilísticas sobre el sistema. Esto es así porque este conocimiento completo no incluye un valor concreto de todos los observables, porque éstos no toman valores bien definidos simultáneamente, pero sí incluye las amplitudes de probabilidad de que un observador concreto obtenga un resultado u otro al medir, sea cual sea el observable que ese observador decida medir. Recordemos que el estado cuántico del sistema es un vector que nos da información acerca de todas las amplitudes de probabilidad, asociadas a un observador concreto, sea cual sea la elección de Heisenberg que haga ese observador. Es lo máximo que ese observador puede saber sobre un sistema físico porque no existen las variables ocultas que determinan simultáneamente el valor de todos los observables.

Es decir, de la misma manera que las partículas cuánticas no son ni ondas ni corpúsculos, sino otra cosa, la función de onda no es ni óntica ni epistémica, sino otra cosa. No es ni un objeto con existencia física real ni una forma de agrupar matemáticamente el conocimiento subjetivo incompleto que tenemos del sistema físico.

El vector estado cuántico constituye una descripción completa del sistema en el sentido de que no es emergente y de que no puede haber ninguna descripción más precisa del sistema. El principio de indeterminación implica que, incluso en esta descripción completa del sistema la mayoría de los observables tienen una indeterminación en sus valores, incertidumbre que no puede ser eliminada ni siquiera en principio. Las leyes de la mecánica cuántica no se pueden expresar sin utilizar el concepto de probabilidad, en concreto, amplitudes de probabilidad asociadas a un determinado observador que está en disposición de hacer una observación particular. Estas amplitudes de probabilidad describen la naturaleza de forma muy diferente a como lo hacen los valores que toma el campo magnético en cada punto del espacio, y por eso hemos visto que la función de onda contiene muchos más grados de libertad matemáticos que los grados de libertad físicos del sistema. Si la función de onda fuera epistémica, sería al revés, contendría menos porque habría grados de libertad ocultos.

Si fuera óntica, la función de onda tendría tantos grados de libertad matemáticos como grados de libertad fisicos hay en el sistema. Si fuera epistémica, la función de onda sólo capturaría un porcentaje de los grados de libertad que hay en realidad. Pero lo que ocurre en mecánica cuántica es justo la tercera posibilidad: contiene muchos más grados de libertad de los que hay en el sistema físico. Y este hecho es precisamente el responsable de que la mecánica cuántica haya podido predecir con éxito el comportamiento termodinámico de los distintos sistemas materiales. Es justo el motivo por el que Planck tuvo éxito cuando cambió los grados de libertad continuos de la radiación de cuerpo negro por los cuantos. Ninguna función de onda óntica ni epistémica sirve en estos casos. Sólo la función de onda de la mecánica cuántica es capaz de explicar el comportamiento que tiene la naturaleza en los experimentos.

Por eso hay que tener cuidado cuando alguien habla acerca de si la función de onda es óntica o epistémica, ya que normalmente ambas opciones no se refieren al mundo real, que es cuántico, sino a un mundo clásico en el que todos los observables toman siempre valores bien definidos. Es decir, cuando un autor se refiere a la función de onda como óntica o epistémica, seguramente ese autor no está trabajando  con la mecánica cuántica, sino con alguna prototeoría de variables ocultas que intenta imitar los resultados de la mecánica cuántica. Esta teoría clásica de variables ocultas se puede describir de forma óntica, trabajando directamente con esas variables ocultas, o epistémica, trabajando con distribuciones de probabilidad que cuantifiquen nuestro desconocimiento del valor de esas variables ocultas. Pero eso no es mecánica cuántica. Esa no es la física de los últimos 95 años. Empeñarnos en dar a la función de onda un significado que no tiene nos hace trabajar fuera de la mecánica cuántica, y nos lleva a trabajar con prototeorías no locales que nada tienen que ver con el mundo en que vivimos.

El cambio que tuvo lugar en los años veinte del pasado siglo de la física clásica a la física cuántica no fue un avance técnico que consistió en añadir nuevas interacciones físicas o modificaciones a las fórmulas de la física anterior. Fue una revolución que cambió de forma radical y para siempre nuestra forma de hacer física, la forma en la que hacemos las predicciones de los sucesos futuros y que alteró completamente la relación entre los conceptos matemáticos de las teorías y las observaciones.

La función de onda es subjetiva en un sentido parecido por el que es subjetiva la simultaneidad entre dos sucesos: es relativa a un observador. No obstante, de la misma manera que la simultaneidad entre dos sucesos es objetiva en el sentido de que dos observadores situados en el mismo sistema de referencia inercial van a estar de acuerdo, aunque uno sea de derechas y otro de izquierdas, en si esos dos sucesos son o no simultáneos, la función de onda es objetiva porque no dependa de quién en concreto es ese observador situado ahí.

Por último, hay que aclarar que, aunque hemos indicado que la fórmula de Bayes no se puede usar tal cuál, porque no existen las variables ocultas, pero que el formalismo de la función de onda sigue el espíritu de las inferencias bayesianas, sí que hay casos en los que la fórmula de Bayes se puede usar literalmente en mecánica cuántica: el caso en que el observador no conoce la función de onda, sino que tiene una distribución de probabilidad a priori acerca de cuales pueden ser las funciones de onda en las que se encuentra el sistema. Es lo que los físicos llamamos un "estado no puro". En estos casos, que son los más generales, el sistema cuántico se encuentra en un estado cuántico concreto relativo a un observador, pero ese observador desconoce cuál es ese estado. El observador describe entonces el estado del sistema, no mediante un vector en el espacio de Hilbert, sino mediante un colectivo de estados, caracterizado por un operador hermítico denominado operador densidad:

$\hat{\rho}=\sum p_i |\phi_i\rangle \langle \phi_i|$

es decir, sabemos que el sistema está en el estado $|\phi_i\rangle$ con probabilidad $p_i$. Si entonces medimos el observable $A$ y obtenemos el valor $a_j$, el estado final es, llamando $\hat{\Pi_j}$ al proyector hacia el subespacio de estados con $A=a_j$,

$\frac{\hat{\Pi}_j |\phi_i\rangle}{\sqrt{\langle \phi_i | \hat{\Pi}_j |\phi_i\rangle}}$

con probabilidad $P(i|j)$. Y esta probabilidad sí la podemos calcular usando el teorema de Bayes:

$P(i|j)=\frac{P(j|i)p_i}{p(j)}=\frac{\langle \phi_i | \hat{\Pi}_j |\phi_i\rangle p_i}{Tr (\hat{\Pi}_j\hat{\rho})}$

Lo que nos permite calcular el operador densidad después de la medición:

$\hat{\rho^\prime}=\sum P(i|j) \frac{\hat{\Pi}_j |\phi_i\rangle \langle \phi_i |\hat{\Pi}_j}{\langle \phi_i | \hat{\Pi}_j |\phi_i\rangle}= \frac{\hat{\Pi}_j \hat{\rho}\hat{\Pi}_j}{Tr (\hat{\Pi}_j\hat{\rho})}$



Conclusiones

En conclusión, la función de onda en mecánica cuántica no es una representación de ninguna realidad física, sino un objeto matemático que contiene lo máximo que al observador asociado a esa función de onda puede saber acerca de esa realidad física. La función de onda está hecha de amplitudes de probabilidad que dan cuenta, no de lo que hay, sino de lo que el observador puede saber acerca de lo que hay.

Por eso, cuando el observador adquiere nueva medición, la función de onda colapsa haciendo nulas las amplitudes de probabilidad de las posibilidades que no se han convertido en hechos. Este colapso no es un proceso físico dinámico, sino un proceso de actualización bayesiana de información en la mente del observador o en el registro del aparato que haga de observador. Este proceso de actualización sigue la fórmula de Bayes sólo en el caso de que las incertidumbres tengan un origen estadístico (estado no puro, el observador desconoce el estado cuántico del sistema), pero los incertidumbres que tienen como origen el principio de indeterminación tienen que ser tratadas con un formalismo más amplio, el de las funciones de onda de la mecánica cuántica, ya que en este caso su origen no es el desconocimiento del observador que toman unas variables ocultas, sino que en la misma naturaleza esos observables no toman valores bien definidos. El formalismo del operador densidad engloba a ambos formalismos, y por eso es el más general que tenemos para tratar las incertidumbres en mecánica cuántica.



Sobre el autor: Sergio Montañez Naz es doctor en física y profesor de secundaria de la enseñanza pública en la Comunidad de Madrid.

No hay comentarios:

Publicar un comentario