La medición es un proceso inherente tanto a la práctica como a la investigación clínica. Mientras que algunas variables son relativamente sencillas de medir (como el peso o la tensión arterial) otras comportan cierto grado de subjetividad que hace especialmente difícil su medición, como la intensidad de dolor o el concepto de calidad de vida. En cualquier caso, el proceso de medición conlleva siempre algún grado de error. Existen factores asociados a los individuos, al observador o al instrumento de medida que pueden influir en la variación de las mediciones. En la medida de la temperatura corporal, por ejemplo, pueden aparecer errores en el registro debidos tanto al estado del paciente, como a defectos en el termómetro utilizado o a la objetividad del observador.La medición es un proceso inherente tanto a la práctica como a la investigación clínica. Mientras que algunas variables son relativamente sencillas de medir (como el peso o la tensión arterial) otras comportan cierto grado de subjetividad que hace especialmente difícil su medición, como la intensidad de dolor o el concepto de calidad de vida. En cualquier caso, el proceso de medición conlleva siempre algún grado de error. Existen factores asociados a los individuos, al observador o al instrumento de medida que pueden influir en la variación de las mediciones. En la medida de la temperatura corporal, por ejemplo, pueden aparecer errores en el registro debidos tanto al estado del paciente, como a defectos en el termómetro utilizado o a la objetividad del observador.
Cualquier estudio epidemiológico debe garantizar la calidad de sus mediciones, no sólo porque condicionará en gran medida la validez de sus conclusiones, sino por la importancia de las decisiones clínicas que se apoyen en esa investigación. La calidad de una medida depende tanto de su validez como de su fiabilidad. Mientras que la validez expresa el grado en el que realmente se mide el fenómeno de interés, la fiabilidad indica hasta qué punto se obtienen los mismos valores al efectuar la medición en más de una ocasión, bajo condiciones similares. El que una medida sea muy precisa no implica, sin embargo, que sea necesariamente válida. Así, si se realizan dos mediciones consecutivas de la presión arterial de un paciente con un esfigmomanómetro mal calibrado los valores obtenidos seguramente serán parecidos, aunque totalmente inexactos.
En los estudios que tratan de evaluar la validez de una medida se comparan sus resultados con los obtenidos mediante una prueba de referencia (gold standard) que se sabe válida y fiable para la medición del fenómeno de interés. Cuando el objetivo se centra en la fiabilidad de una medición, se repite el proceso de medida para evaluar la concordancia entre las distintas mediciones. En un estudio de la fiabilidad pueden valorarse los siguientes aspectos:
Para el caso de variables cuantitativas, es frecuente que el análisis de la concordancia se aborde mediante técnicas estadísticas inapropiadas. Con frecuencia ha sido utilizado el cálculo del coeficiente de correlación de lineal (r) de Pearson como índice de concordancia. Sin embargo, ésta no resulta una medida adecuada del grado de acuerdo entre dos mediciones, ya que si dos instrumentos miden sistemáticamente cantidades diferentes uno del otro, la correlación puede ser perfecta (r=1), a pesar de que la concordancia sea nula. Consideremos como ejemplo los datos de la Tabla 1, en la que se comparan las mediciones de tensión arterial con dos instrumentos diferentes. El instrumento B mide sistemáticamente 1mm Hg más que el instrumento A. Al representar gráficamente la correlación entre ambas mediciones, se objetiva que la correlación es la máxima posible (r=1), a pesar de que ninguna de las mediciones ha concordado (Figura 1). No se debe olvidar que el coeficiente de correlación de Pearson no proporciona información sobre el acuerdo observado, y solamente mide la asociación lineal entre dos variables. Así mismo, al calcularse a partir de los pares ordenados de mediciones, si varía el orden también cambia el valor del coeficiente, mientras que un cambio en las escalas de medida no afecta a la correlación pero sí afecta a la concordancia. A su vez, debemos mencionar que la idea de que si el coeficiente de correlación entre dos medidas es significativamente diferente de cero la fiabilidad es buena, es incorrecto. El coeficiente de correlación lineal puede ser muy pequeño y resultar significativo si el tamaño muestral es suficientemente grande. Por último, tampoco la comparación de medias mediante un test t de Student con datos apareados es una técnica adecuada para este tipo de análisis.
Desde el punto de vista matemático, el índice más apropiado para cuantificar la concordancia entre diferentes mediciones de una variable numérica es el llamado coeficiente de correlación intraclase (CCI). Dicho coeficiente estima el promedio de las correlaciones entre todas las posibles ordenaciones de los pares de observaciones disponibles y, por lo tanto, evita el problema de la dependencia del orden del coeficiente de correlación. Así mismo, extiende su uso al caso en el que se disponga de más de dos observaciones por sujeto.
Sin embargo, una de las principales limitaciones del CCI es la dificultad de su cálculo, ya que debe ser estimado de distintas formas dependiendo del diseño del estudio. La forma de cálculo más habitual se basa en un modelo de análisis de la varianza (ANOVA) con medidas repetidas (Tabla 2). La idea es que la variabilidad total de las mediciones se puede descomponer en dos componentes: la variabilidad debida a las diferencias entre los distintos sujetos y la debida a las diferencias entre las medidas para cada sujeto. Esta última, a su vez, depende de la variabilidad entre observaciones y una variabilidad residual o aleatoria asociada al error que conlleva toda medición. El CCI se define entonces como la proporción de la variabilidad total que se debe a la variabilidad de los sujetos.
En la actualidad el valor del CCI puede obtenerse de modo directo con algunos programas informáticos como el SPSS. Otra forma sencilla de obtener el valor del CCI es a partir de una tabla ANOVA para medidas repetidas. Como ejemplo, en la Tabla 3 se representan los datos de un estudio hipotético en el que se tomó la tensión arterial sistólica en 30 pacientes utilizando dos métodos diferentes. Si se representan gráficamente estos datos, indicando el coeficiente de correlación r=0,997 una asociación prácticamente lineal (Figura 2). A partir de la tabla ANOVA correspondiente (Tabla 4), el CCI se puede calcular como:
donde k es el número de observaciones que se toman en cada sujeto. En el ejemplo:
Como toda proporción, los valores del CCI pueden oscilar entre 0 y 1, de modo que la máxima concordancia posible corresponde a un valor de CCI=1. En este caso, toda la variabilidad observada se explicaría por las diferencias entre sujetos y no por las diferencias entre los métodos de medición o los diferentes observadores. Por otro lado, el valor CCI=0 se obtiene cuando la concordancia observada es igual a la que se esperaría que ocurriera sólo por azar. A la hora de interpretar los valores del CCI, toda clasificación es subjetiva, si bien resulta útil disponer de una clasificación como la que proponen otros autores (Tabla 5).
Hasta ahora, se ha presentado la forma más habitual de cálculo del CCI. Para su cálculo en otras situaciones, así como para la obtención de intervalos de confianza, puede recurrirse a referencias más especializadas.
A pesar de ser la medida de concordancia más adecuada par el caso de variables numéricas, el CCI presenta ciertas limitaciones. Junto a la dificultad inherente a su cálculo, el hecho de que se trate de una prueba paramétrica limita su uso al caso en el que se verifiquen las hipótesis necesarias. A saber: variables distribuidas según una normal, igualdad de varianzas e independencia entre los errores de cada observador. Así mismo, el valor del CCI depende en gran medida de la variabilidad de los valores observados: cuanto más homogénea sea la muestra estudiada, más bajo tenderá a ser el valor del CCI. Pero quizás lo que más ha limitado la difusión del uso del CCI en la literatura médica es la carencia de interpretación clínica, que ha propiciado la aparición de otros métodos de análisis, mucho más intuitivo y fácilmente interpretables, que se exponen a continuación.
Un sencillo procedimiento gráfico para evaluar la concordancia entre dos sistemas de medida es el propuesto por Bland y Altman. Dicho procedimiento consiste en representar gráficamente las diferencias entre dos mediciones frente a su media. Utilizaremos para ilustrar dicha metodología las mediciones de tensión arterial sistólica obtenidas por medio de un esfigmomanómetro de mercurio en el brazo y la obtenida por medio de un monitor autoinflable electrónico en el dedo índice. Dichas mediciones fueron realizadas a 159 alumnos de las escuelas universitarias de enfermería de A Coruña y Ferrol.
La correlación existente entre ambas mediciones (r=0,202; p<0.05) se presenta en la Figura 3, donde se objetiva una correlación positiva y estadísticamente diferente de cero. Si se representan en un diagrama de dispersión en el eje de ordenadas las diferencias entre ambos procedimientos, y en el eje de abscisas el promedio de ambas mediciones, se obtiene la Figura 4. En dicha figura objetivamos que muy pocas mediciones han concordado (diferencia igual a cero). Por el contrario, la mayoría de las veces el aparato electrónico digital ha proporcionado valores superiores al esfigmomanómetro de mercurio, de hecho la media de dichas diferencias (electrónico – mercurio) es positiva (22,5). Además, dicha gráfica permite objetivar que la discordancia se incrementa a medida que se obtienen valores más elevados de TAS. Por lo tanto, las diferencias no son homogéneas a lo largo del eje horizontal. La distribución de las diferencias se puede a su vez valorar realizando un histograma de las mismas (Figura 5), donde se objetiva claramente el predominio de diferencias positivas mostrando por lo tanto cómo el aparato electrónico claramente proporciona valores más elevados que el esfigmomanómetro de mercurio. Es evidente por lo tanto que la falta de homogeneidad de las diferencias, así como la magnitud de la misma, invalida la utilización del monitor digital del dedo índice como método en este estudio para tomar la tensión arterial.
Un aspecto muy importante de la metodología de Bland y Altman es que proporciona además unos límites de concordancia a partir del cálculo del intervalo de confianza para la diferencia de dos mediciones. Como es bien sabido, el intervalo de dos desviaciones estándar alrededor de la media de las diferencias incluye el 95% de las diferencias observadas. Estos valores deben compararse con los límites de concordancia que se hayan establecido previamente al inicio del estudio para concluir si las diferencias observadas son o no clínicamente relevantes.
Distintos autores han propuesto algunas técnicas alternativas para el análisis de la concordancia para mediciones numéricas, principalmente desde un punto de vista gráfico, que vienen a complementar el método de Bland y Altman. Una propuesta sencilla y muy reciente se basa en construir una gráfica, similar a las de Kaplan-Meier que se utilizan en el análisis de supervivencia, donde en el eje horizontal se representa la diferencia absoluta entre dos mediciones para cada sujeto y en el eje vertical la proporción de casos en los que las discrepancias igualan al menos cada una de las diferencias observadas. La gráfica se construye así igual que en un análisis de supervivencia, donde ningún caso es censurado, y el papel de la variable “tiempo” lo juega aquí la diferencia absoluta entre las mediciones.
Si retomamos el ejemplo anterior (Tabla 3), en la Figura 6 se muestra el análisis de las diferencias individuales según la metodología de Bland y Altman. Del gráfico se deduce claramente que el método B proporciona con frecuencia valores más bajos de tensión arterial, con una diferencia media de -3,23. De modo complementario, en la Tabla 6 se muestra la magnitud, en términos absolutos, de las dos mediciones de tensión arterial en cada paciente, así como el porcentaje acumulado de casos en los que se supera cada una de estas diferencias. A partir de estos datos puede construirse fácilmente la Figura 7, en la que se muestra el desacuerdo existente entre ambos métodos. Dicho gráfico permite evaluar si la diferencia tiene o no alguna relevancia desde un punto de vista clínico. Así, por ejemplo, si establecemos como aceptable un margen de error entre las mediciones de 2 mmHg se obtiene un porcentaje de acuerdo de un 20%, mientras que la concordancia alcanza el 90% si se admiten diferencias de hasta 8 mmHg, lo cual resulta aceptable desde un punto de vista clínico.
Al igual que el método propuesto por Bland y Altman, el principal atractivo de esta alternativa es que permite expresar sus resultados gráficamente, relacionándolos con unos límites de concordancia preestablecidos según criterios clínicos antes del estudio, lo que los hace especialmente atractivos para los profesionales sanitarios. Así mismo, permite contrastar si el grado de acuerdo depende de alguna otra covariable, construyendo gráficos independientes, uno para cada nivel de la variable. Incluso es posible utilizar el test del log-rank para testar la existencia de diferencias significativas entre esas curvas. No obstante, al trabajar con las diferencias absolutas, este método, al contrario que el de Bland y Altman, no permite observar si existe una diferencia sistemática a favor de alguna de las dos técnicas u observadores, y tampoco comprobar si la magnitud de dicha diferencia se modifica en relación a la magnitud de la medida.
En definitiva, el problema del análisis de la concordancia en el caso de variables numéricas puede abordarse según diferentes metodologías. Lejos de recomendar el uso estándar de alguna de estas técnicas, más bien deben considerarse como métodos de análisis que ofrecen información complementaria. En cualquier caso, es conveniente insistir una vez más en la conveniencia de garantizar la validez y fiabilidad de los instrumentos de medida utilizados habitualmente en la práctica e investigación clínica. No debemos olvidar que un estudio bien diseñado, ejecutado y analizado fracasará si la información que se obtiene es inexacta o poco fiable.