Análisis de supervivencia

Índice de contenidos

Introducción
Conceptos básicos
Limitaciones e imprecisiones de los datos. Tipos de observaciones
Metodología estadística
Método de Kaplan-Meier
Método actuarial
Comparación de dos curvas de supervivencia
Anexo
Bibliografía
Autores

Introducción

Los datos proporcionados por los estudios clínicos se expresan en múltiples ocasiones en términos de supervivencia. Esta medida no queda limitada a los términos de vida o muerte, sino a situaciones en la que se mide el tiempo que transcurre hasta que sucede un evento de interés, como puede ser tiempo de recurrencia, tiempo que dura la eficacia de una intervención, tiempo de un aprendizaje determinado, etc. Por tanto, la supervivencia es una medida de tiempo a una respuesta, fallo, muerte, recaída o desarrollo de una determinada enfermedad o evento. El término supervivencia se debe a que en las primeras aplicaciones de este método de análisis se utilizaba como evento la muerte de un paciente.

En las enfermedades crónicas, tales como el cáncer, la supervivencia se mide como una probabilidad de permanecer vivo durante una determinada cantidad de tiempo. La supervivencia al año o a los 5 años son a menudo expresadas como indicadores de la severidad de una enfermedad y como pronóstico. Típicamente, el pronóstico del cáncer se valora determinando el porcentaje de pacientes que sobrevive al menos cinco años después del diagnóstico.

Son muchos los textos que se pueden consultar acerca de la metodología estadística a emplear en estudios de supervivencia. Los objetivos de este trabajo son: familiarizarse con los conceptos y terminología básica del análisis de supervivencia, conocer cómo estimar la proporción acumulada de supervivencia, así como los tests estadísticos a emplear para comparar dos curvas de supervivencia.

Conceptos básicos

La observación de cada paciente se inicia al diagnóstico (tiempo = 0) y continua hasta la muerte o hasta que el tiempo de seguimiento se interrumpe. Cuando el tiempo de seguimiento termina antes de producirse la muerte o antes de completar el período de observación se habla de paciente “censurado” (Figuras 1 y 2).

El periodo de seguimiento puede terminar por las siguientes razones:

El paciente decide no participar más en el estudio y lo abandona.
El paciente se pierde y no tenemos información.
El estudio termina antes de aparecer el evento.

Cuando los tiempos de supervivencia no se conocen con exactitud, los datos se consideran censurados. No se conoce el tiempo hasta el suceso de interés (muerte, recaída) porque los individuos en el estudio pueden haberse perdido o retirado, o el suceso puede no haber ocurrido durante el período de estudio.

El seguimiento viene definido por una fecha de inicio y una fecha de cierre que determinan el tiempo de seguimiento. Las fechas de inicio y cierre son diferentes para cada individuo, pues los pacientes o personas incluidas en el estudio se incorporan en momentos diferentes.

En las observaciones incompletas (censuradas) el evento de interés no se ha producido, ya sea porque el estudio se finalizó antes de la aparición del evento, el paciente decide abandonar y no participar en el estudio, perdemos al paciente por cambio en el lugar de residencia, muerte no relacionada con la investigación, etc.

El tiempo de supervivencia se define como el tiempo transcurrido desde el acontecimiento o estado inicial hasta el estado final.

El estado inicial debe ser definido de manera que la fecha en que se produjo el evento pueda ser conocida exactamente (fecha de diagnóstico, fecha de la intervención quirúrgica, fecha de inicio de la radioterapia o quimioterapia, etc.). Como previamente se señaló las fechas correspondientes al estado inicial son diferentes para cada sujeto.

El acontecimiento o suceso estudiado también debe estar perfectamente definido para poder determinar exactamente la fecha del mismo. Este evento está casi siempre asociado a la muerte del paciente pero no tiene por que ser así, ya que puede hacer referencia también a la fecha de alta, la fecha de remisión de la enfermedad, la fecha de recidiva, la fecha de recaída o fallo, etc.

En caso de estudiar la supervivencia, el evento considerado no es que se produzca o no la muerte, sino la muerte relacionada con la enfermedad. Si consideramos una muerte no relacionada con la enfermedad introduciremos un sesgo de información. El paciente fallecido por una causa que no está vinculada al evento de interés debe ser considerado como censurado y computar su tiempo de seguimiento como incompleto o perdido.

En la última observación se deben registrar dos variables fundamentales, la primera es el estado del sujeto y la segunda es la fecha de la información de dicho estado. El período de tiempo transcurrido entre la fecha de entrada y la fecha de la última observación o contacto se conoce como tiempo de participación en el estudio. Si el paciente ha fallecido podremos con la fecha de defunción calcular el tiempo de supervivencia. Si el paciente está vivo a la fecha de la última observación se podrá calcular el tiempo incompleto o censurado aportado por dicho paciente.

Los factores que modifican la supervivencia de un paciente pueden ser variables fijas en el tiempo como el sexo, factores genéticos... o variables que se modifican en el tiempo como la intensidad de exposición a una dieta, los cigarrillos/día, las intervenciones o tratamientos, la recurrencia, etc.

Los requisitos necesarios para disponer de datos adecuados para un análisis de supervivencia son:

Definir apropiadamente el origen o inicio del seguimiento.
Definir apropiadamente la escala del tiempo.
Definir apropiadamente el evento.

Limitaciones e imprecisiones de los datos. Tipos de observaciones

Los datos de nuestro estudio pueden estar sesgados por las censuras o los truncamientos.

Génesis de censuras: Pérdidas de seguimiento o fin del estudio.
Génesis de truncamientos: Entrada en el estudio después del hecho que define el origen.

Censuras:

No se observan los eventos en todos los individuos (abandonos, pérdidas).
No se espera lo suficiente... a que aparezca el evento.

Truncamientos: No se observa la ocurrencia de origen en todos los individuos. Se tendría que haber empezado con anterioridad ya que la enfermedad habría empezado antes.

Tipos de observaciones:

La combinación de las observaciones previamente indicadas nos llevaría a poder tener en nuestros datos observaciones de diferentes tipos:

No truncada, no censurada:

El proceso se inicia en I pero el evento ocurre en t

No truncada, censurada:

El proceso se inicia en I pero el evento no se presenta durante el seguimiento realizado.

Truncada, no censurada:

Ya se tenía el proceso antes de entrar en el estudio (el diagnóstico o fecha de inicio está atrasada) y el evento se produce en t.

Truncada, censurada:

Ya se tenía el proceso antes de entrar en el estudio, como en la situación anterior pero el evento no se presenta durante el seguimiento realizado.

En el análisis de la supervivencia asumimos un supuesto básico: los mecanismos del evento y censura son estadísticamente independientes, o el sujeto censurado en C es representativo de los que sobreviven en C. Es decir, los no censurados representan bien a los censurados.

Metodología estadística

El análisis de datos para estudios de supervivencia requiere métodos de análisis específicos por dos razones fundamentales:

Los investigadores muy frecuentemente analizan los datos antes de que todos los pacientes hayan muerto, ya que si no habría que esperar muchos años para realizar dichos estudios. Los datos aportados por los pacientes vivos, como se señaló previamente, son observaciones “censuradas” y deben considerarse como tales a la hora de analizarlas.
La segunda razón por la que se necesitan métodos especiales de análisis es porque típicamente los pacientes no inician el tratamiento o entran al estudio al mismo tiempo.

En la metodología estadística básica se señalaba la existencia de pruebas paramétricas y no paramétricas. En el análisis de supervivencia, el análisis de los datos puede ser realizado utilizando técnicas paramétricas y no paramétricas.

Paramétricas: (las más frecuentes)
- Distribución Exponencial.
- Distribución de Weibull.
- Distribución Lognormal.
No paramétricas:
- Kaplan-Meier.
- Logrank.
- Regresión de Cox.

Los métodos estadísticos más utilizados son los no paramétricos. Así, las curvas de supervivencia por lo general se producen usando uno de dos métodos: el análisis actuarial o el método del límite de producto de Kaplan-Meier.

El método Kaplan-Meier calcula la supervivencia cada vez que un paciente muere. El análisis actuarial divide el tiempo en intervalos y calcula la supervivencia en cada intervalo. El procedimiento Kaplan-Meier da proporciones exactas de supervivencia debido a que utiliza tiempos de supervivencia precisos; el análisis actuarial da aproximaciones, debido a que agrupa los tiempos de supervivencia en intervalos. Antes de que se extendiera el uso de ordenadores, el método actuarial era más fácil de usar para un número muy grande de observaciones.

El método actuarial implica dos premisas en los datos: la primera es que todos los abandonos durante un intervalo dado ocurren aleatoriamente durante dicho intervalo. Esta premisa es de escasa importancia cuando se analizan intervalos de tiempo cortos, sin embargo, puede haber un sesgo importante cuando los intervalos son grandes, si hay numerosos abandonos o si los abandonos no ocurren a mitad del intervalo. El método Kaplan-Meier supera estos problemas. La segunda premisa es que aunque la supervivencia en un tiempo dado depende de la supervivencia en todos los períodos previos, la probabilidad de la misma en un período de tiempo es independiente de la probabilidad de supervivencia en los demás períodos.

El método de Kaplan-Meier se utiliza cuando la muestra es menor de 30 y también para muestras mayores de 30 y se conocen los tiempos individuales de los censurados y no censurados.

Método de Kaplan-Meier

Conocido también como del “limite del producto”. La característica distintiva del análisis con este método es que la proporción acumulada que sobrevive se calcula para el tiempo de supervivencia individual de cada paciente y no se agrupan los tiempos de supervivencia en intervalos. Por esta razón es especialmente útil para estudios que utilizan un número pequeño de pacientes. El método de Kaplan-Meier incorpora la idea del tiempo al que ocurren los eventos.

La validez de este método descansa en dos suposiciones:

Las personas que se retiran del estudio tienen un destino parecido a las que quedan.
El período de tiempo durante el cual una persona entra en el estudio no tiene efecto independiente en la respuesta.

Ejemplo 1

El ejemplo se basa en datos publicados por Pratt, et al. Se recogieron los intervalos libres de enfermedad (tiempos de remisión) de 20 pacientes con osteosarcoma, a los que se trataba con 3 meses de quimioterapia después de amputación.

11 pacientes recayeron a los 6, 8, 10, 11, 12, 13, 13, 22, 32, 34, 36 meses.
8 pacientes se retiraron vivos al final del estudio contribuyendo 3, 7, 7, 11, 14, 16, 20, 20 meses de observación, sin haber sufrido recaídas.
Un paciente rehusó continuar la terapia a los 11 meses y se retiró del estudio libre de enfermedad.

Con estos datos se construye la Tabla 1 para calcular la proporción acumulativa que sobreviven hasta el tiempo t, o tasa de supervivencia acumulativa, de la siguiente forma:

Columna 1: Se hace una lista con todos los tiempos de supervivencia, censurada o no censurada, en orden de menor a mayor.

Se coloca un signo positivo al lado de cada observación censurada. Para observaciones censuradas y no censuradas que tienen el mismo tiempo de supervivencia, se debe colocar la observación no censurada primero.

Columna 2: Una vez ordenados de menor a mayor los datos, en esta columna se numeran las observaciones.

Columna 3: Colocar el número de orden (rango) de las observaciones no censuradas (eventos, en este ejemplo recaídas).

Columna 4: Calcular la proporción de pacientes que sobrevive a cada intervalo.

donde n es el tamaño de la muestra y r el rango no censurado.

Esta columna calcula la probabilidad de supervivencia para cada tiempo.

Columna 5: Calcular el estimador de la proporción acumulativa que sobrevive. Se realiza multiplicando los valores de la columna anterior (0,95 · 0,94 = 0,89).

De este modo, la probabilidad de vivir un cierto período de tiempo (hasta el instante t) desde el principio del estudio, es el producto de la probabilidad acumulada de sobrevivir hasta el período del tiempo anterior a t, (t-1), multiplicado por la probabilidad de sobrevivir durante el intervalo (t-1; t).

La probabilidad de supervivencia puede representarse gráficamente como se muestra en la Figura 3.

Ejemplo 2

Supongamos ahora que disponemos de los datos de supervivencia de 10 pacientes que han sido aleatoriamente asignados a los tratamientos A y B (datos hipotéticos).

Tratamiento:

3, 5, 7, 9+, 18
12, 19, 20, 20+, 33+

“9+” indica dato censurado y, por tanto, no ha presentado el evento (en este caso morir de cáncer), como tampoco lo han presentado las observaciones 20+ y 33+. Con estos datos se construye la Tabla 2 para calcular la proporción acumulativa que sobreviven hasta el tiempo t, o tasa de supervivencia acumulativa, de la misma forma que se indicó en el ejemplo previo.

Una vez calculada la probabilidad de supervivencia, ésta puede representarse gráficamente (Figura 4). Si la última observación es censurada, el estimador no llega a cero, como se ve en la Figura 4 en el caso del tratamiento B. Los peldaños de la escalera que desciende se deben a los tiempos no censurados.

Método actuarial

Con el método actuarial, los tiempos de supervivencia se agrupan en intervalos. La longitud del intervalo depende de la frecuencia con que ocurre el suceso de interés.

Los intervalos no necesitan ser de la misma longitud. El método de la tabla vital o análisis actuarial se conoce en la bibliografía médica como el método de Cutler-Ederer.

Este método asume:

Las retiradas y las pérdidas se distribuyen homogéneamente en el intervalo. Por tanto, el número de personas a riesgo en un intervalo es igual al número de personas que entra menos la mitad del número que se pierde o retira del intervalo.
Las personas que se retiran del estudio tienen un destino parecido a las que se quedan.
El período de tiempo durante el cual una persona entra en el estudio no tiene efecto independiente en la respuesta.

Ejemplo 3

Se utilizan para este ejemplo los datos de la Tabla 3. Para ello, los cálculos se realizan como sigue:

Columna 1: Intervalos de tiempo desde el inicio del estudio. La amplitud de los intervalos puede ser variable.

Columna 2: Número de individuos en cada intervalo. Es el número que entra en cada intervalo. El número que entra en el primer intervalo es el número total que entra en el estudio. El número que entra en otros intervalos es el número que estaba presente al principio del intervalo previo menos aquéllos que se perdieron, retiraron o murieron (recayeron) en el intervalo anterior.

Columna 3: Número de muertos o eventos en cada intervalo.

Columna 4: Número de pacientes perdidos en el seguimiento o abandonos vivos.

Columna 5: Proporción condicional de recaer durante el intervalo.

Este estimador de la probabilidad condicional de recaída durante cualquier intervalo dada la exposición al riesgo de recaer se calcula como:

donde

d = muertes o eventos durante el intervalo.
n = vivos al inicio del intervalo.
w = abandono vivo o pérdida de seguimiento.

Columna 6: Proporción condicional que sobrevive libre de enfermedad: la proporción condicional que sobrevive durante el intervalo es igual a 1-proporción condicional de recaer durante el intervalo (1-columna 5).

Columna 7: Proporción acumulativa que sobrevive libre de enfermedad. Esta proporción es un estimador de la tasa de supervivencia acumulativa. Es igual a la proporción condicional que sobrevive libre de enfermedad durante los intervalos previos. El valor del primer intervalo es siempre de 1.

Comparación de dos curvas de supervivencia

Para comparar si las diferencias observadas en dos curvas de supervivencia pueden ser explicadas o no por el azar, debemos realizar un test estadístico. Si no hubiese observaciones censuradas la prueba no paramétrica de suma de rangos de Wilcoxon podría ser apropiada para comparar dos muestras independientes. Como la mayoría de las veces hay datos censurados debemos utilizar otras técnicas.

La prueba de la t de Student para datos independientes comparando la supervivencia en uno y otro grupo tampoco es apropiada, pues los tiempos de supervivencia no presentan una distribución normal.

Hay diversas pruebas para comparar distribuciones de supervivencia. Aquí señalaremos la prueba de logaritmo del rango (“logrank”). Para realizar esta prueba, existen a su vez diversos métodos.

Esta prueba compara en esencia el número de eventos (muertes, fracasos) en cada grupo con el número de fracasos que podría esperarse de las pérdidas en los grupos combinados. Se emplea la prueba del chi-cuadrado para analizar las pérdidas observadas y esperadas.

Para el cálculo se disponen los datos de tal forma que se objetive en cada grupo y en cada mes (años, etc.) los pacientes en riesgo y los eventos presentados.

Si utilizamos los datos del Ejemplo 2 para la estimación de Kaplan-Meier previamente señalado, podremos construir la Tabla 4.

El número esperado de pérdidas para un grupo se calcula multiplicando el número total de pérdidas en un período dado por la proporción de pacientes en ese grupo. Así por ejemplo, en el mes 7 hay una pérdida; de modo que es el número de pérdidas que se espera ocurran en el grupo A y es el número de pérdidas que se espera para el grupo B.

En la primera columna se ponen los meses en los que se objetivaron eventos (muertes). Se trata por lo tanto de tiempos no censurados.

En la 2ª y 3ª columna debe colocarse el nº de pacientes en cada grupo que estuvieron a riesgo hasta la presencia del evento.

En la columna 4ª se pone el número total de pacientes.

En las columnas 5 a 7 se ponen los pacientes que tuvieron el evento en ese tiempo y el total.

Se calculan los totales para pérdidas observadas y esperadas y el test siguiente puede utilizarse para probar la hipótesis nula de que las distribuciones de supervivencia son iguales en los dos grupos.

donde:

es el número total pérdidas observadas en el grupo 1.
es el número total de pérdidas esperadas en el grupo 1.
es el número total de pérdidas observadas en el grupo 2.
es el número total de pérdidas observadas en el grupo 2.

El test sigue una distribución chi cuadrado con un grado de libertad.

Consultando las tablas de una distribución con un grado de libertad se concluye que la diferencia es significativa. Por lo tanto, se concluye que hay diferencia entre ambas curvas de supervivencia.

Los datos generados permiten a su vez realizar una estimación del riesgo (OR).

Así, los pacientes con el tratamiento B sobreviven 4,21 veces más que los del tratamiento A.

Anexo

Figura 1. Esquema general de un estudio de supervivencia.
Figura 1

Figura 2. Seguimiento de pacientes con distinta fecha de entrada.
Figura 2

Tabla 1. Método para calcular la curva de supervivencia de Kaplan-Meier.
Columna 1	Columna 2	Columna 3	Columna 4	Columna 5
Tiempo de supervivencia en meses	Nº de orden	Orden de las observaciones no censuradas (r)
3+	1	--	--	--
6	2	2	18/19 = 0,95	0,95
7+	3	--	--	--
7+	4	--	--	--
8	5	5	15/16 = 0,94	0,89
10	6	6	14/15 = 0,93	0,83
11	7	7	13/14 = 0,93	0,77
11+	8	--	--	--
11+	9	--	--	--
12	10	10	10/11 = 0,91	0,70
13	11	11	9/10 = 0,90	0,63
13	12	12	8/9 = 0,89	0,56*
14+	13	--	--	--
16+	14	--	--	--
20+	15	--	--	--
20+	16	--	--	--
22	17	17	3 / 4 = 0,75	0,42
32	18	18	2/3 = 0,67	0,28
34	19	19	1 / 2 = 0,50	0,14
36	20	20	0	0,0
^*Cuando hay un tiempo de supervivencia (13 meses) con valores de supervivencia diferentes se utilizará como estimador el valor más bajo (0,56).

Figura 3. Curvas de Kaplan-Meier. Ejemplo 1.
Figura 3

Tabla 2. Método para calcular la curva de supervivencia de Kaplan-Meier.
Columna 1	Columna 2	Columna 3	Columna 4	Columna 5
Tiempo de supervivencia en meses	Nº de orden	Orden de las observaciones no censuradas (r)
Tratamiento A
3	1	1	4/5=0,80	0,8
5	2	3	3/4=0,75	0,6
7	3	3	2/3=0,67	0,4
9+	4	--	--	--
18	5	5	0	0,0
Tratamiento B
12	1	1	4/5=0,80	0,80
19	2	2	3/4=0,75	0,60
20	3	3	2/3=0,67	0,40
20+	4	--	--	--
30+	5	--	--	--

Figura 4. Curvas de Kaplan-Meier. Ejemplo 2.
Figura 4

Tabla 3. Método actuarial para calcular la función de supervivencia.
Columna 1	Columna 2	Columna 3	Columna 4
Intervalos de tiempo	Vivos al inicio del intervalo	Muertes o eventos durante el intervalo (d)	Abandono vivo o pérdida de seguimiento (w)
0-5	949	731	18
5-10	200	52	16
10-15	132	14	75
15-20	43	10	33
	Columna 5	Columna 6	Columna 6
	Probabilidad de muerte o del evento	Probabilidad de estar libre del evento	Probabilidad acumulada de supervivencia
	q = d / (n-[w/2])	p_i = 1 - q	s = p_i · p_i-1
0-5	731 / (949-[18/2]) = 0,77	0,23	0,23
5-10	52 / (200-[16/2]) = 0,27	0,73	0,17 = 0,23 · 0,73
10-15	14 / (132-[75/2]) ) = 0,15	0,85	0,14 = 0,17 · 0,85
15-20	10 / (43-[33/2]) = 0,38	0,62	0,09 = 0,14 · 0,62

Tabla 4. Test de log-rank para comparar la probabilidad de supervivencia entre grupos. Ejemplo 2.
Mes del evento	Pacientes en riesgo			Pérdidas observadas			Pérdidas esperadas
	Tratamiento			Tratamiento			Tratamiento
	A	B	Total	A	B	Total	A	B	Total
3	5	5	10	1	0	1	0,50	0,50	1
5	4	5	9	1	0	1	0,44	0,56	1
7	3	5	8	1	0	1	0,38	0,62	1
12	1	5	6	0	1	1	0,16	0,83	1
18	1	4	5	1	0	1	0,20	0,8	1
19	0	4	4	0	1	1	0,0	1,0	1
20	0	3	3	0	1	1	0,0	1,0	1
				4	3	7	1,68	5,31	7

Bibliografía

Dawson-Saunders B, Trapp RG. Bioestadística Médica. Mexico: Editorial El Manual Moderno; 1993.
Breslow NE, Day NE. Statistical methods in cancer research. Vol. II. The design and analysis of cohort studies. Lyon: IARC Scientific Publications; 1987.
Collet D. Modelling survival data in medical research. London: Chapman & Hall; 1994. [Contenido]
Lee ET, Wang JW. Satistical Methods for suvirval data analysis. 3rd. ed. Belmont, CA: Lifetime learning Publications; 2003. [Contenido]
Kaplan EL, Meier P. Nonparametric estimation from incomplete observations. J Am Stat Assoc 1958; 53: 457-481.
Pratt C, Shanks E, Hustu O, Rivera G, Smith J, Kumar AP. Adjuvant multiple drug chemotherapy for osteosarcoma of the extremity. Cancer 1977;39(1):51-57. [Medline]
Cutler SJ, Ederer F. Maximum utilization of the life table method in analyzing survival. J Chronic Dis 1958; 8: 699-712.

Autores

Pita Fernández, S.

Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Universitario de A Coruña (España)

CAD ATEN PRIMARIA 1995; 2: 130-135.

Fecha de revisión: 24/09/2001

Figura 1

Figura 2

Figura 3

Figura 4