Fisterra

    Técnicas de regresión: Regresión Lineal Múltiple

    Introducción

    La mayoría de los estudios clínicos conllevan la obtención de datos en un número más o menos extenso de variables. En algunos casos el análisis de dicha información se lleva a cabo centrando la atención en pequeños subconjuntos de las variables recogidas utilizando para ello análisis sencillos que involucran únicamente técnicas bivariadas. Un análisis apropiado, sin embargo, debe tener en consideración toda la información recogida o de interés para el clínico y requiere de técnicas estadísticas multivariantes más complejas. En particular, hemos visto como el modelo de regresión lineal simple es un método sencillo para analizar la relación lineal entre dos variables cuantitativas. Sin embargo, en la mayoría de los casos lo que se pretende es predecir una respuesta en función de un conjunto más amplio de variables, siendo necesario considerar el modelo de regresión lineal múltiple como una extensión de la recta de regresión que permite la inclusión de un número mayor de variables.

    Estimación de parámetros y bondad de ajuste

    Generalizando la notación usada para el modelo de regresión lineal simple, disponemos en n individuos de los datos de una variable respuesta Y y de p variables explicativas X1,X2,...,Xp. La situación más sencilla que extiende el caso de una única variable regresora es aquella en la que se dispone de información en dos variables adicionales. Como ejemplo, tomemos la medida de la tensión arterial diastólica en setenta individuos de los que se conoce además su edad, colesterol e índice de masa corporal (Tabla 1). Es bien conocido que el valor de la tensión arterial diastólica varía en función del colesterol e índice de masa corporal de cada sujeto. Al igual que ocurría en el caso bidimensional, se puede visualizar la relación entre las tres variables en un gráfico de dispersión, de modo que la técnica de regresión lineal múltiple proporcionaría el plano que mejor ajusta a la nube de puntos resultante (Figura 1).

    Figura 1. Plano de regresión para la Tensión Arterial Diastólica ajuntando por Colesterol e Índice de Masa Corporal
    Figura 1

    Del gráfico se deduce fácilmente que los pacientes con tensión arterial diastólica más alta son aquellos con valores mayores de colesterol e índice de masa corporal. Si el número de variables explicativas aumenta (p>2) la representación gráfica ya no es factible, pero el resultado de la regresión se generaliza al caso del mejor hiperplano que ajusta a los datos en el espacio (p+1) dimensional correspondiente.

    Tabla 1. Edad, Colesterol, Índice de Masa Corporal y Tensión Arterial Diastólica de 70 pacientes.

    EDAD

    COLESTEROL

    IMC

    TAD

    EDAD

    COLESTEROL

    IMC

    TAD

    1

    42

    292

    31,64

    97

    36

    53

    187

    23,31

    80

    2

    64

    235

    30,80

    90

    37

    43

    208

    27,15

    65

    3

    47

    200

    25,61

    80

    38

    57

    246

    21,09

    80

    4

    56

    200

    26,17

    75

    39

    64

    275

    22,53

    95

    5

    54

    300

    31,96

    100

    40

    43

    218

    19,83

    75

    6

    48

    215

    23,18

    67

    41

    47

    231

    26,17

    75

    7

    57

    216

    21,19

    ,

    42

    58

    200

    25,95

    90

    8

    52

    254

    26,95

    70

    43

    58

    214

    26,30

    75

    9

    67

    310

    24,26

    105

    44

    48

    230

    24,89

    70

    10

    46

    237

    21,87

    70

    45

    62

    280

    26,89

    100

    11

    58

    220

    25,61

    70

    46

    54

    198

    21,09

    65

    12

    62

    233

    27,92

    75

    47

    67

    285

    31,11

    95

    13

    49

    240

    27,73

    90

    48

    68

    201

    21,60

    80

    14

    56

    295

    22,49

    95

    49

    55

    206

    19,78

    65

    15

    63

    310

    ,

    95

    50

    50

    223

    22,99

    75

    16

    64

    268

    30,04

    90

    51

    53

    290

    32,32

    95

    17

    67

    243

    23,88

    85

    52

    63

    315

    31,14

    100

    18

    49

    239

    21,99

    75

    53

    60

    220

    28,89

    80

    19

    53

    198

    26,93

    75

    54

    46

    230

    20,55

    75

    20

    59

    218

    ,

    85

    55

    45

    175

    22,49

    70

    21

    65

    215

    24,09

    70

    56

    53

    213

    22,53

    70

    22

    67

    254

    28,65

    105

    57

    59

    220

    20,82

    65

    23

    49

    218

    25,71

    85

    58

    62

    287

    32,32

    95

    24

    53

    221

    25,33

    80

    59

    60

    290

    33,91

    90

    25

    57

    237

    25,42

    90

    60

    62

    209

    20,76

    75

    26

    47

    244

    23,99

    85

    61

    58

    290

    31,35

    80

    27

    58

    223

    25,20

    70

    62

    57

    260

    31,14

    95

    28

    48

    198

    25,81

    85

    63

    49

    202

    20,76

    80

    29

    51

    234

    26,93

    80

    64

    61

    214

    19,59

    90

    30

    49

    175

    27,77

    80

    65

    52

    231

    20,08

    75

    31

    68

    230

    30,85

    70

    66

    59

    280

    31,60

    100

    32

    58

    248

    21,61

    75

    67

    50

    220

    25,34

    70

    33

    54

    218

    26,30

    95

    68

    46

    233

    22,86

    75

    34

    59

    285

    31,44

    100

    69

    44

    215

    19,53

    70

    35

    45

    253

    25,00

    75

    70

    60

    202

    19,10

    65


    En el caso general, el modelo de regresión lineal múltiple con p variables responde a la ecuación:

    (1)

    de modo que los coeficientes se estiman siguiendo el criterio de mínimos cuadrados:

    La obtención aquí de las expresiones de los estimadores mínimo cuadráticos de dichos coeficientes exigen reescribir la expresión (1) utilizando notación matricial. Así, (1) quedaría:

    donde:

    De donde los estimadores mínimo cuadráticos se obtienen a partir de la ecuación:

    y mantienen una interpretación análoga al caso de la regresión lineal simple (i.e. representa el incremento por término medio en la variable respuesta por cada unidad adicional en la variable ). Como se puede observar, la obtención de estimadores, intervalos de confianza y contrastes de hipótesis para los coeficientes de regresión involucran expresiones matriciales y distribuciones multivariantes que complican notablemente las operaciones, por lo que en la práctica dichos cálculos se obtienen de un modo inmediato mediante el manejo de diferentes paquetes estadísticos. Son muchos los textos en los que se pueden encontrar desarrollos teóricos de dichas expresiones(1-2). Sin detenerse en ello, basta decir que manteniendo las hipótesis habituales de independencia, homocedasticidad, normalidad y linealidad se calculan expresiones para el error estándar de cada coeficiente estimado e intervalos de confianza de modo análogo al caso de la regresión simple. La significación estadística de cada variable se obtiene simplemente calculando el cociente entre el coeficiente estimado y su error típico, y comparándolo con el cuantil correspondiente de una distribución t de Student con n-p-1 grados de libertad. La bondad de ajuste del modelo se puede valorar mediante la varianza residual y el estadístico R2 (coeficiente de determinación), definidos de la forma habitual. También aquí puede utilizarse el contraste F global de la regresión, calculado a partir de las sumas de cuadrados explicada y no explicada para valorar la utilidad del modelo. Como ejemplo, tras ajustar un modelo de regresión múltiple a los datos que se muestran en la Tabla 1 usando como variables predictoras de la tensión diastólica el colesterol e índice de masa corporal de un individuo, los coeficientes de regresión para ambas variables fueron 0.18 (E.T. 0.03) y 0.73 (E.T. 0.30) respectivamente, siendo ambos significativamente distintos de cero (Tabla 2). Esto indica que por término medio la tensión arterial diastólica de un paciente se incrementa en 1.8 y 7.3 respectivamente por cada 10 unidades a mayores en su colesterol o índice de masa corporal. El valor del coeficiente de determinación R2=52% y la significación del contraste F global de la regresión (p<0.001) sugieren que gran parte de la variabilidad de la respuesta viene explicada por el modelo ajustado.

    Tabla 2. Modelo de regresión lineal múltiple para la tensión arterial diastólica ajustando por colesterol e índice de masa corporal.

    Variable

    Coeficiente (B)

    E.T.(B)

    IC 95% (B) t p
    Constante

    19.42

    7.54

    (4.37;34.48)

    2.58

    0.012

    Colesterol 0.18 0.03 (0.11;0.25) 5.26 <0.001
    IMC 0.73 0.30 (0.14;1.33) 2.45 0.017
    Suma de Cuadrados g.l. Media cuadrática F p
    Regresión 4,449.72 2 2,224.86 34.93 <0.001
    Residual 4,076.40 64 63.69
    Total 8,526.12 66

    El hecho de contar con un número más extenso de variables exige que además del contraste F global se puedan realizar pruebas parciales para constatar si un grupo de variables añadidas a un modelo lo mejoran. Supongamos que al modelo (1) se suma una nueva variable explicativa . La proporción de variabilidad residual que es explicada al introducir esta nueva variable viene dada por la diferencia en las sumas de cuadrados de cada modelo:

    Para valorar si la introducción de la nueva variable queda compensada por una mejora significativa en la predicción de la respuesta se utiliza el estadístico:

    que se compara con el cuantil correspondiente de una distribución F de Snedecor con 1 y n-p-2 grados de libertad. Dicho contraste se denominacontraste F parcial. Para comprobar el uso de dicho estadístico consideremos en el ejemplo anterior el modelo de regresión simple que resulta de tomar como única variable regresora el colesterol de un individuo (Tabla 3). El valor del estadístico R2 en este caso es del 69.1% frente al 72.2% del modelo que se consigue introduciendo el índice de masa corporal como nueva variable explicativa. El cambio en el estadístico R2 es de 0.045 que coincide con el cuadrado del coeficiente de correlación parcial entre la tensión arterial y el índice de masa corporal ajustando por el colesterol. La significación del contraste F parcial para la introducción del índice de masa corporal es de 0.017, indicando que el modelo con dos variables mejora al modelo más simple.

    Tabla 3. Modelo de regresión lineal simple para la tensión arterial diastólica ajustando por colesterol.

    Variable

    Coeficiente (B)

    E.T.(B)

    IC 95% (B) t p
    Constante

    26.91

    7.15

    (12.63;41.19)

    3.76

    <0.001

    Colesterol 0.23 0.03 (0.17;0.29) 7.70 <0.001
    Suma de Cuadrados g.l. Media cuadrática F p
    Regresión 4,067.11 1 4,067.11 59.29 <0.001
    Residual 4,459.01 65 68.60
    Total 8,526.12 66

    Es importante recalcar la necesidad de uso de métodos estadísticos multivariantes para estudiar correctamente la relación entre más de dos variables. La aplicación de las técnicas de regresión ha sido tratada en diversos textos desde un punto de vista eminentemente práctico. Aunque el modelo de regresión se ha planteado inicialmente para analizar la relación entre variables cuantitativas, su generalización al caso de variables regresoras cualitativas es inmediata. Este tipo de análisis recibe el nombre de análisis de covarianza o análisis de varianza según contenga o no además variables numéricas. La limitación de este modelo por considerar que la relación de cada variable con la respuesta es de tipo lineal queda solventada mediante la transformación (logarítmica, cuadrática,...) de cada variable regresora.

    Selección de variables

    Una de las principales dificultades a la hora de ajustar un modelo de regresión múltiple surge cuando es necesario identificar entre el conjunto de variables disponibles aquellas que están relacionadas con la respuesta y que la predicen de la mejor forma posible. Cuando el número de variables es reducido, como en el ejemplo manejado, la selección no resulta complicada. Una primera alternativa es construir un modelo por inclusión o hacia delante ("forward"), considerando en primer lugar la relación de cada variable con la respuesta e ignorando todas las demás variables, valorándola por medio del coeficiente de correlación lineal de Pearson (Figura 2). Aquella que muestra una correlación más alta con la variable dependiente (en este caso el colesterol) se introduce en un modelo inicial (Tabla 3).

    El segundo paso consiste en seleccionar entre las variables restantes aquella que al introducirla en el modelo permite explicar una mayor parte de la variabilidad residual. La comparación entre distintos modelos debe hacerse en términos del valor relativo de los coeficientes de determinación y el contraste F parcial. Ya vimos como la inclusión del índice de masa corporal reportaba una mejora en el modelo de regresión simple. La introducción de la variable edad, en cambio, proporciona un cambio en el coeficiente de determinación de 0.028 que no resulta en una mejora significativa (p=0.059). Este esquema se repetiría hasta que ninguna otra variable entrase a formar parte del modelo. En el ejemplo el último paso sería comprobar si la introducción de la variable edad produce una mejora del ajuste del modelo mostrado en la Tabla 2. El modelo ajustando por las tres variables se muestra en la Tabla 4. El coeficiente correspondiente a esta última variable no es significativo (nótese que esta significación ha de coincidir con la del contraste F parcial correspondiente).

    Tabla 4. Modelo de regresión lineal múltiple para la tensión arterial diastólica ajustando por colesterol, índice de masa corporal y edad.

    Variable

    Coeficiente (B)

    E.T.(B)

    IC 95% (B) t p
    Constante

    10.55

    9.13

    (-7.70;28.81)

    1.15

    0.252

    Colesterol 0.17 0.03 (0.1;0.24) 4.84 <0.001
    IMC 0.68 0.30 (0.09;1.28) 2.31 0.024
    Edad 0.24 0.14 (-0.05;0.53) 1.67 0.100
    Suma de Cuadrados g.l. Media cuadrática F p
    Regresión 4,622.52 3 1,540.84 24.87 <0.001
    Residual 3,903.60 63 61.96
    Total 8,526.12 66

    En la mayoría de los casos se dispone de información en un conjunto mucho más amplio de variables de las que se desconoce cuáles están relacionadas o pueden utilizarse para predecir la respuesta de interés. La identificación del conjunto de variables que proporcionan el mejor modelo de regresión dependerá en gran medida del objetivo del estudio y de experiencias previas. Así, aunque la práctica habitual es eliminar del modelo aquellas variables que no resultan significativas, puede ser recomendable mantenerlas en caso de que en experiencias previas se haya constatado una relación con la variable dependiente. La mayoría de paquetes estadísticos proporcionan una variedad de técnicas para identificar el mejor conjunto de variables regresoras que introducen o eliminan sucesivamente variables atendiendo a su significación en el modelo (hacia delante, hacia atrás, pasos sucesivos). Existen otras alternativas basadas en la comparación de todos los modelos posibles que se pueden formar con un conjunto inicial de variables. Todas estas técnicas deben considerarse meramente orientativas. Así, identificado el mejor conjunto de variables y ajustado el modelo es conveniente realizar un análisis de residuos exhaustivo para valorar la posibilidad de elegir un modelo distinto a pesar de que tenga un valor menor de R2.

    Interacción, Confusión y Colinealidad

    Cuando se introduce más de una variable en el modelo de regresión es necesario contrastar además la independencia de los efectos de todas ellas. Es decir, se supone que la asociación de cada variable con la respuesta no depende del valor que tomen el resto en la ecuación de regresión. En otro caso se dirá que existe interacción. Antes de aprobar el modelo definitivo, por lo tanto, se debe explorar la necesidad de incluir términos de interacción calculados a partir del producto de pares de variables, comprobando si mejora la predicción, siendo aconsejable investigar solamente aquellas interacciones que puedan tener una explicación clínica.

    En ocasiones el fenómeno de la interacción se hace coincidir erróneamente con los de confusión y correlación. Existe confusión cuando el efecto de una variable difiere significativamente según se considere o no en el modelo alguna otra. Ésta se asociará tanto con la variable inicial como con la respuesta, de modo que en casos extremos puede invertir el primer efecto observado. En ese caso las estimaciones adecuadas son aquellas que proporciona el modelo completo, y se dirán que están controladas o ajustadas por variables de confusión. Por otro lado, el fenómeno que se produce cuando dos variables explicativas muestran una correlación alta recibe el nombre de cuasi-colinealidad y puede producir estimaciones inestables de los coeficientes que se traducen en valores desorbitados de sus errores típicos y resultados poco creíbles. La mayoría de paquetes estadísticos muestran en sus salidas diagnósticos de colinealidad (tolerancia, factor de inflacción de la varianza, índice de condición) que pueden ayudarnos a solventar estos problemas. Por lo tanto, se ha de tener un cuidado especial en la etapa de construcción del modelo: un cambio significativo en las estimaciones tras la inclusión de una nueva variable puede evidenciar cualquiera de estos fenómenos. Nos corresponde a nosotros evaluar la conveniencia de incluirla o no en el modelo.

    Figura 2. Correlación lineal de la edad, colesterol e índice de masa corporal con la tensión arterial diastólica.
    Figura 2

    Bibliografía

    • Snedecor G.W., Cochran W.G. Statistical Methods. 8th ed. Iowa State University Press; 1989.
    • Seber GAF. Linear Regression Analysis. New York: John Wiley & Sons; 1977.
    • Etxebarría Murgiondo, J. Regresión Múltiple. Madrid: La Muralla; 1999.
    • Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman & Hall; 1997.
    • Carrasco J.L., Hernán M.A. Estadística Multivariante en las Ciencias de la Salud. Madrid: Ed. Ciencia 3; 1993.
    • Kleinbaum D.G., Kupper L.L. Applied Regression Analysis and other Multivariable Methods. 3rd. ed. Massachusetts: Duxbury Press; 1997.

    Autores

    Pértega Díaz, S., Pita Fernández, S. ,
    Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Universitario de A Coruña (España)
    CAD ATEN PRIMARIA 2000; 7: 173-176.

    Técnicas de regresión: Regresión Lineal Múltiple

    Fecha de revisión: 20/08/2001
    • Documento
    • Imágenes 2
    Índice de contenidos

    Introducción

    La mayoría de los estudios clínicos conllevan la obtención de datos en un número más o menos extenso de variables. En algunos casos el análisis de dicha información se lleva a cabo centrando la atención en pequeños subconjuntos de las variables recogidas utilizando para ello análisis sencillos que involucran únicamente técnicas bivariadas. Un análisis apropiado, sin embargo, debe tener en consideración toda la información recogida o de interés para el clínico y requiere de técnicas estadísticas multivariantes más complejas. En particular, hemos visto como el modelo de regresión lineal simple es un método sencillo para analizar la relación lineal entre dos variables cuantitativas. Sin embargo, en la mayoría de los casos lo que se pretende es predecir una respuesta en función de un conjunto más amplio de variables, siendo necesario considerar el modelo de regresión lineal múltiple como una extensión de la recta de regresión que permite la inclusión de un número mayor de variables.

    Estimación de parámetros y bondad de ajuste

    Generalizando la notación usada para el modelo de regresión lineal simple, disponemos en n individuos de los datos de una variable respuesta Y y de p variables explicativas X1,X2,...,Xp. La situación más sencilla que extiende el caso de una única variable regresora es aquella en la que se dispone de información en dos variables adicionales. Como ejemplo, tomemos la medida de la tensión arterial diastólica en setenta individuos de los que se conoce además su edad, colesterol e índice de masa corporal (Tabla 1). Es bien conocido que el valor de la tensión arterial diastólica varía en función del colesterol e índice de masa corporal de cada sujeto. Al igual que ocurría en el caso bidimensional, se puede visualizar la relación entre las tres variables en un gráfico de dispersión, de modo que la técnica de regresión lineal múltiple proporcionaría el plano que mejor ajusta a la nube de puntos resultante (Figura 1).

    Figura 1. Plano de regresión para la Tensión Arterial Diastólica ajuntando por Colesterol e Índice de Masa Corporal
    Figura 1

    Del gráfico se deduce fácilmente que los pacientes con tensión arterial diastólica más alta son aquellos con valores mayores de colesterol e índice de masa corporal. Si el número de variables explicativas aumenta (p>2) la representación gráfica ya no es factible, pero el resultado de la regresión se generaliza al caso del mejor hiperplano que ajusta a los datos en el espacio (p+1) dimensional correspondiente.

    Tabla 1. Edad, Colesterol, Índice de Masa Corporal y Tensión Arterial Diastólica de 70 pacientes.

    EDAD

    COLESTEROL

    IMC

    TAD

    EDAD

    COLESTEROL

    IMC

    TAD

    1

    42

    292

    31,64

    97

    36

    53

    187

    23,31

    80

    2

    64

    235

    30,80

    90

    37

    43

    208

    27,15

    65

    3

    47

    200

    25,61

    80

    38

    57

    246

    21,09

    80

    4

    56

    200

    26,17

    75

    39

    64

    275

    22,53

    95

    5

    54

    300

    31,96

    100

    40

    43

    218

    19,83

    75

    6

    48

    215

    23,18

    67

    41

    47

    231

    26,17

    75

    7

    57

    216

    21,19

    ,

    42

    58

    200

    25,95

    90

    8

    52

    254

    26,95

    70

    43

    58

    214

    26,30

    75

    9

    67

    310

    24,26

    105

    44

    48

    230

    24,89

    70

    10

    46

    237

    21,87

    70

    45

    62

    280

    26,89

    100

    11

    58

    220

    25,61

    70

    46

    54

    198

    21,09

    65

    12

    62

    233

    27,92

    75

    47

    67

    285

    31,11

    95

    13

    49

    240

    27,73

    90

    48

    68

    201

    21,60

    80

    14

    56

    295

    22,49

    95

    49

    55

    206

    19,78

    65

    15

    63

    310

    ,

    95

    50

    50

    223

    22,99

    75

    16

    64

    268

    30,04

    90

    51

    53

    290

    32,32

    95

    17

    67

    243

    23,88

    85

    52

    63

    315

    31,14

    100

    18

    49

    239

    21,99

    75

    53

    60

    220

    28,89

    80

    19

    53

    198

    26,93

    75

    54

    46

    230

    20,55

    75

    20

    59

    218

    ,

    85

    55

    45

    175

    22,49

    70

    21

    65

    215

    24,09

    70

    56

    53

    213

    22,53

    70

    22

    67

    254

    28,65

    105

    57

    59

    220

    20,82

    65

    23

    49

    218

    25,71

    85

    58

    62

    287

    32,32

    95

    24

    53

    221

    25,33

    80

    59

    60

    290

    33,91

    90

    25

    57

    237

    25,42

    90

    60

    62

    209

    20,76

    75

    26

    47

    244

    23,99

    85

    61

    58

    290

    31,35

    80

    27

    58

    223

    25,20

    70

    62

    57

    260

    31,14

    95

    28

    48

    198

    25,81

    85

    63

    49

    202

    20,76

    80

    29

    51

    234

    26,93

    80

    64

    61

    214

    19,59

    90

    30

    49

    175

    27,77

    80

    65

    52

    231

    20,08

    75

    31

    68

    230

    30,85

    70

    66

    59

    280

    31,60

    100

    32

    58

    248

    21,61

    75

    67

    50

    220

    25,34

    70

    33

    54

    218

    26,30

    95

    68

    46

    233

    22,86

    75

    34

    59

    285

    31,44

    100

    69

    44

    215

    19,53

    70

    35

    45

    253

    25,00

    75

    70

    60

    202

    19,10

    65


    En el caso general, el modelo de regresión lineal múltiple con p variables responde a la ecuación:

    (1)

    de modo que los coeficientes se estiman siguiendo el criterio de mínimos cuadrados:

    La obtención aquí de las expresiones de los estimadores mínimo cuadráticos de dichos coeficientes exigen reescribir la expresión (1) utilizando notación matricial. Así, (1) quedaría:

    donde:

    De donde los estimadores mínimo cuadráticos se obtienen a partir de la ecuación:

    y mantienen una interpretación análoga al caso de la regresión lineal simple (i.e. representa el incremento por término medio en la variable respuesta por cada unidad adicional en la variable ). Como se puede observar, la obtención de estimadores, intervalos de confianza y contrastes de hipótesis para los coeficientes de regresión involucran expresiones matriciales y distribuciones multivariantes que complican notablemente las operaciones, por lo que en la práctica dichos cálculos se obtienen de un modo inmediato mediante el manejo de diferentes paquetes estadísticos. Son muchos los textos en los que se pueden encontrar desarrollos teóricos de dichas expresiones(1-2). Sin detenerse en ello, basta decir que manteniendo las hipótesis habituales de independencia, homocedasticidad, normalidad y linealidad se calculan expresiones para el error estándar de cada coeficiente estimado e intervalos de confianza de modo análogo al caso de la regresión simple. La significación estadística de cada variable se obtiene simplemente calculando el cociente entre el coeficiente estimado y su error típico, y comparándolo con el cuantil correspondiente de una distribución t de Student con n-p-1 grados de libertad. La bondad de ajuste del modelo se puede valorar mediante la varianza residual y el estadístico R2 (coeficiente de determinación), definidos de la forma habitual. También aquí puede utilizarse el contraste F global de la regresión, calculado a partir de las sumas de cuadrados explicada y no explicada para valorar la utilidad del modelo. Como ejemplo, tras ajustar un modelo de regresión múltiple a los datos que se muestran en la Tabla 1 usando como variables predictoras de la tensión diastólica el colesterol e índice de masa corporal de un individuo, los coeficientes de regresión para ambas variables fueron 0.18 (E.T. 0.03) y 0.73 (E.T. 0.30) respectivamente, siendo ambos significativamente distintos de cero (Tabla 2). Esto indica que por término medio la tensión arterial diastólica de un paciente se incrementa en 1.8 y 7.3 respectivamente por cada 10 unidades a mayores en su colesterol o índice de masa corporal. El valor del coeficiente de determinación R2=52% y la significación del contraste F global de la regresión (p<0.001) sugieren que gran parte de la variabilidad de la respuesta viene explicada por el modelo ajustado.

    Tabla 2. Modelo de regresión lineal múltiple para la tensión arterial diastólica ajustando por colesterol e índice de masa corporal.

    Variable

    Coeficiente (B)

    E.T.(B)

    IC 95% (B) t p
    Constante

    19.42

    7.54

    (4.37;34.48)

    2.58

    0.012

    Colesterol 0.18 0.03 (0.11;0.25) 5.26 <0.001
    IMC 0.73 0.30 (0.14;1.33) 2.45 0.017
    Suma de Cuadrados g.l. Media cuadrática F p
    Regresión 4,449.72 2 2,224.86 34.93 <0.001
    Residual 4,076.40 64 63.69
    Total 8,526.12 66

    El hecho de contar con un número más extenso de variables exige que además del contraste F global se puedan realizar pruebas parciales para constatar si un grupo de variables añadidas a un modelo lo mejoran. Supongamos que al modelo (1) se suma una nueva variable explicativa . La proporción de variabilidad residual que es explicada al introducir esta nueva variable viene dada por la diferencia en las sumas de cuadrados de cada modelo:

    Para valorar si la introducción de la nueva variable queda compensada por una mejora significativa en la predicción de la respuesta se utiliza el estadístico:

    que se compara con el cuantil correspondiente de una distribución F de Snedecor con 1 y n-p-2 grados de libertad. Dicho contraste se denominacontraste F parcial. Para comprobar el uso de dicho estadístico consideremos en el ejemplo anterior el modelo de regresión simple que resulta de tomar como única variable regresora el colesterol de un individuo (Tabla 3). El valor del estadístico R2 en este caso es del 69.1% frente al 72.2% del modelo que se consigue introduciendo el índice de masa corporal como nueva variable explicativa. El cambio en el estadístico R2 es de 0.045 que coincide con el cuadrado del coeficiente de correlación parcial entre la tensión arterial y el índice de masa corporal ajustando por el colesterol. La significación del contraste F parcial para la introducción del índice de masa corporal es de 0.017, indicando que el modelo con dos variables mejora al modelo más simple.

    Tabla 3. Modelo de regresión lineal simple para la tensión arterial diastólica ajustando por colesterol.

    Variable

    Coeficiente (B)

    E.T.(B)

    IC 95% (B) t p
    Constante

    26.91

    7.15

    (12.63;41.19)

    3.76

    <0.001

    Colesterol 0.23 0.03 (0.17;0.29) 7.70 <0.001
    Suma de Cuadrados g.l. Media cuadrática F p
    Regresión 4,067.11 1 4,067.11 59.29 <0.001
    Residual 4,459.01 65 68.60
    Total 8,526.12 66

    Es importante recalcar la necesidad de uso de métodos estadísticos multivariantes para estudiar correctamente la relación entre más de dos variables. La aplicación de las técnicas de regresión ha sido tratada en diversos textos desde un punto de vista eminentemente práctico. Aunque el modelo de regresión se ha planteado inicialmente para analizar la relación entre variables cuantitativas, su generalización al caso de variables regresoras cualitativas es inmediata. Este tipo de análisis recibe el nombre de análisis de covarianza o análisis de varianza según contenga o no además variables numéricas. La limitación de este modelo por considerar que la relación de cada variable con la respuesta es de tipo lineal queda solventada mediante la transformación (logarítmica, cuadrática,...) de cada variable regresora.

    Selección de variables

    Una de las principales dificultades a la hora de ajustar un modelo de regresión múltiple surge cuando es necesario identificar entre el conjunto de variables disponibles aquellas que están relacionadas con la respuesta y que la predicen de la mejor forma posible. Cuando el número de variables es reducido, como en el ejemplo manejado, la selección no resulta complicada. Una primera alternativa es construir un modelo por inclusión o hacia delante ("forward"), considerando en primer lugar la relación de cada variable con la respuesta e ignorando todas las demás variables, valorándola por medio del coeficiente de correlación lineal de Pearson (Figura 2). Aquella que muestra una correlación más alta con la variable dependiente (en este caso el colesterol) se introduce en un modelo inicial (Tabla 3).

    El segundo paso consiste en seleccionar entre las variables restantes aquella que al introducirla en el modelo permite explicar una mayor parte de la variabilidad residual. La comparación entre distintos modelos debe hacerse en términos del valor relativo de los coeficientes de determinación y el contraste F parcial. Ya vimos como la inclusión del índice de masa corporal reportaba una mejora en el modelo de regresión simple. La introducción de la variable edad, en cambio, proporciona un cambio en el coeficiente de determinación de 0.028 que no resulta en una mejora significativa (p=0.059). Este esquema se repetiría hasta que ninguna otra variable entrase a formar parte del modelo. En el ejemplo el último paso sería comprobar si la introducción de la variable edad produce una mejora del ajuste del modelo mostrado en la Tabla 2. El modelo ajustando por las tres variables se muestra en la Tabla 4. El coeficiente correspondiente a esta última variable no es significativo (nótese que esta significación ha de coincidir con la del contraste F parcial correspondiente).

    Tabla 4. Modelo de regresión lineal múltiple para la tensión arterial diastólica ajustando por colesterol, índice de masa corporal y edad.

    Variable

    Coeficiente (B)

    E.T.(B)

    IC 95% (B) t p
    Constante

    10.55

    9.13

    (-7.70;28.81)

    1.15

    0.252

    Colesterol 0.17 0.03 (0.1;0.24) 4.84 <0.001
    IMC 0.68 0.30 (0.09;1.28) 2.31 0.024
    Edad 0.24 0.14 (-0.05;0.53) 1.67 0.100
    Suma de Cuadrados g.l. Media cuadrática F p
    Regresión 4,622.52 3 1,540.84 24.87 <0.001
    Residual 3,903.60 63 61.96
    Total 8,526.12 66

    En la mayoría de los casos se dispone de información en un conjunto mucho más amplio de variables de las que se desconoce cuáles están relacionadas o pueden utilizarse para predecir la respuesta de interés. La identificación del conjunto de variables que proporcionan el mejor modelo de regresión dependerá en gran medida del objetivo del estudio y de experiencias previas. Así, aunque la práctica habitual es eliminar del modelo aquellas variables que no resultan significativas, puede ser recomendable mantenerlas en caso de que en experiencias previas se haya constatado una relación con la variable dependiente. La mayoría de paquetes estadísticos proporcionan una variedad de técnicas para identificar el mejor conjunto de variables regresoras que introducen o eliminan sucesivamente variables atendiendo a su significación en el modelo (hacia delante, hacia atrás, pasos sucesivos). Existen otras alternativas basadas en la comparación de todos los modelos posibles que se pueden formar con un conjunto inicial de variables. Todas estas técnicas deben considerarse meramente orientativas. Así, identificado el mejor conjunto de variables y ajustado el modelo es conveniente realizar un análisis de residuos exhaustivo para valorar la posibilidad de elegir un modelo distinto a pesar de que tenga un valor menor de R2.

    Interacción, Confusión y Colinealidad

    Cuando se introduce más de una variable en el modelo de regresión es necesario contrastar además la independencia de los efectos de todas ellas. Es decir, se supone que la asociación de cada variable con la respuesta no depende del valor que tomen el resto en la ecuación de regresión. En otro caso se dirá que existe interacción. Antes de aprobar el modelo definitivo, por lo tanto, se debe explorar la necesidad de incluir términos de interacción calculados a partir del producto de pares de variables, comprobando si mejora la predicción, siendo aconsejable investigar solamente aquellas interacciones que puedan tener una explicación clínica.

    En ocasiones el fenómeno de la interacción se hace coincidir erróneamente con los de confusión y correlación. Existe confusión cuando el efecto de una variable difiere significativamente según se considere o no en el modelo alguna otra. Ésta se asociará tanto con la variable inicial como con la respuesta, de modo que en casos extremos puede invertir el primer efecto observado. En ese caso las estimaciones adecuadas son aquellas que proporciona el modelo completo, y se dirán que están controladas o ajustadas por variables de confusión. Por otro lado, el fenómeno que se produce cuando dos variables explicativas muestran una correlación alta recibe el nombre de cuasi-colinealidad y puede producir estimaciones inestables de los coeficientes que se traducen en valores desorbitados de sus errores típicos y resultados poco creíbles. La mayoría de paquetes estadísticos muestran en sus salidas diagnósticos de colinealidad (tolerancia, factor de inflacción de la varianza, índice de condición) que pueden ayudarnos a solventar estos problemas. Por lo tanto, se ha de tener un cuidado especial en la etapa de construcción del modelo: un cambio significativo en las estimaciones tras la inclusión de una nueva variable puede evidenciar cualquiera de estos fenómenos. Nos corresponde a nosotros evaluar la conveniencia de incluirla o no en el modelo.

    Figura 2. Correlación lineal de la edad, colesterol e índice de masa corporal con la tensión arterial diastólica.
    Figura 2

    Bibliografía

    • Snedecor G.W., Cochran W.G. Statistical Methods. 8th ed. Iowa State University Press; 1989.
    • Seber GAF. Linear Regression Analysis. New York: John Wiley & Sons; 1977.
    • Etxebarría Murgiondo, J. Regresión Múltiple. Madrid: La Muralla; 1999.
    • Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman & Hall; 1997.
    • Carrasco J.L., Hernán M.A. Estadística Multivariante en las Ciencias de la Salud. Madrid: Ed. Ciencia 3; 1993.
    • Kleinbaum D.G., Kupper L.L. Applied Regression Analysis and other Multivariable Methods. 3rd. ed. Massachusetts: Duxbury Press; 1997.

    Autores

    Pértega Díaz, S., Pita Fernández, S. ,
    Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Universitario de A Coruña (España)
    CAD ATEN PRIMARIA 2000; 7: 173-176.
    Figura 1
    Figura 2

    Técnicas de regresión: Regresión Lineal Múltiple

    Fecha de revisión: 20/08/2001

    Introducción

    La mayoría de los estudios clínicos conllevan la obtención de datos en un número más o menos extenso de variables. En algunos casos el análisis de dicha información se lleva a cabo centrando la atención en pequeños subconjuntos de las variables recogidas utilizando para ello análisis sencillos que involucran únicamente técnicas bivariadas. Un análisis apropiado, sin embargo, debe tener en consideración toda la información recogida o de interés para el clínico y requiere de técnicas estadísticas multivariantes más complejas. En particular, hemos visto como el modelo de regresión lineal simple es un método sencillo para analizar la relación lineal entre dos variables cuantitativas. Sin embargo, en la mayoría de los casos lo que se pretende es predecir una respuesta en función de un conjunto más amplio de variables, siendo necesario considerar el modelo de regresión lineal múltiple como una extensión de la recta de regresión que permite la inclusión de un número mayor de variables.

    Estimación de parámetros y bondad de ajuste

    Generalizando la notación usada para el modelo de regresión lineal simple, disponemos en n individuos de los datos de una variable respuesta Y y de p variables explicativas X1,X2,...,Xp. La situación más sencilla que extiende el caso de una única variable regresora es aquella en la que se dispone de información en dos variables adicionales. Como ejemplo, tomemos la medida de la tensión arterial diastólica en setenta individuos de los que se conoce además su edad, colesterol e índice de masa corporal (Tabla 1). Es bien conocido que el valor de la tensión arterial diastólica varía en función del colesterol e índice de masa corporal de cada sujeto. Al igual que ocurría en el caso bidimensional, se puede visualizar la relación entre las tres variables en un gráfico de dispersión, de modo que la técnica de regresión lineal múltiple proporcionaría el plano que mejor ajusta a la nube de puntos resultante (Figura 1).

    Figura 1. Plano de regresión para la Tensión Arterial Diastólica ajuntando por Colesterol e Índice de Masa Corporal
    Figura 1

    Del gráfico se deduce fácilmente que los pacientes con tensión arterial diastólica más alta son aquellos con valores mayores de colesterol e índice de masa corporal. Si el número de variables explicativas aumenta (p>2) la representación gráfica ya no es factible, pero el resultado de la regresión se generaliza al caso del mejor hiperplano que ajusta a los datos en el espacio (p+1) dimensional correspondiente.

    Tabla 1. Edad, Colesterol, Índice de Masa Corporal y Tensión Arterial Diastólica de 70 pacientes.

    EDAD

    COLESTEROL

    IMC

    TAD

    EDAD

    COLESTEROL

    IMC

    TAD

    1

    42

    292

    31,64

    97

    36

    53

    187

    23,31

    80

    2

    64

    235

    30,80

    90

    37

    43

    208

    27,15

    65

    3

    47

    200

    25,61

    80

    38

    57

    246

    21,09

    80

    4

    56

    200

    26,17

    75

    39

    64

    275

    22,53

    95

    5

    54

    300

    31,96

    100

    40

    43

    218

    19,83

    75

    6

    48

    215

    23,18

    67

    41

    47

    231

    26,17

    75

    7

    57

    216

    21,19

    ,

    42

    58

    200

    25,95

    90

    8

    52

    254

    26,95

    70

    43

    58

    214

    26,30

    75

    9

    67

    310

    24,26

    105

    44

    48

    230

    24,89

    70

    10

    46

    237

    21,87

    70

    45

    62

    280

    26,89

    100

    11

    58

    220

    25,61

    70

    46

    54

    198

    21,09

    65

    12

    62

    233

    27,92

    75

    47

    67

    285

    31,11

    95

    13

    49

    240

    27,73

    90

    48

    68

    201

    21,60

    80

    14

    56

    295

    22,49

    95

    49

    55

    206

    19,78

    65

    15

    63

    310

    ,

    95

    50

    50

    223

    22,99

    75

    16

    64

    268

    30,04

    90

    51

    53

    290

    32,32

    95

    17

    67

    243

    23,88

    85

    52

    63

    315

    31,14

    100

    18

    49

    239

    21,99

    75

    53

    60

    220

    28,89

    80

    19

    53

    198

    26,93

    75

    54

    46

    230

    20,55

    75

    20

    59

    218

    ,

    85

    55

    45

    175

    22,49

    70

    21

    65

    215

    24,09

    70

    56

    53

    213

    22,53

    70

    22

    67

    254

    28,65

    105

    57

    59

    220

    20,82

    65

    23

    49

    218

    25,71

    85

    58

    62

    287

    32,32

    95

    24

    53

    221

    25,33

    80

    59

    60

    290

    33,91

    90

    25

    57

    237

    25,42

    90

    60

    62

    209

    20,76

    75

    26

    47

    244

    23,99

    85

    61

    58

    290

    31,35

    80

    27

    58

    223

    25,20

    70

    62

    57

    260

    31,14

    95

    28

    48

    198

    25,81

    85

    63

    49

    202

    20,76

    80

    29

    51

    234

    26,93

    80

    64

    61

    214

    19,59

    90

    30

    49

    175

    27,77

    80

    65

    52

    231

    20,08

    75

    31

    68

    230

    30,85

    70

    66

    59

    280

    31,60

    100

    32

    58

    248

    21,61

    75

    67

    50

    220

    25,34

    70

    33

    54

    218

    26,30

    95

    68

    46

    233

    22,86

    75

    34

    59

    285

    31,44

    100

    69

    44

    215

    19,53

    70

    35

    45

    253

    25,00

    75

    70

    60

    202

    19,10

    65


    En el caso general, el modelo de regresión lineal múltiple con p variables responde a la ecuación:

    (1)

    de modo que los coeficientes se estiman siguiendo el criterio de mínimos cuadrados:

    La obtención aquí de las expresiones de los estimadores mínimo cuadráticos de dichos coeficientes exigen reescribir la expresión (1) utilizando notación matricial. Así, (1) quedaría:

    donde:

    De donde los estimadores mínimo cuadráticos se obtienen a partir de la ecuación:

    y mantienen una interpretación análoga al caso de la regresión lineal simple (i.e. representa el incremento por término medio en la variable respuesta por cada unidad adicional en la variable ). Como se puede observar, la obtención de estimadores, intervalos de confianza y contrastes de hipótesis para los coeficientes de regresión involucran expresiones matriciales y distribuciones multivariantes que complican notablemente las operaciones, por lo que en la práctica dichos cálculos se obtienen de un modo inmediato mediante el manejo de diferentes paquetes estadísticos. Son muchos los textos en los que se pueden encontrar desarrollos teóricos de dichas expresiones(1-2). Sin detenerse en ello, basta decir que manteniendo las hipótesis habituales de independencia, homocedasticidad, normalidad y linealidad se calculan expresiones para el error estándar de cada coeficiente estimado e intervalos de confianza de modo análogo al caso de la regresión simple. La significación estadística de cada variable se obtiene simplemente calculando el cociente entre el coeficiente estimado y su error típico, y comparándolo con el cuantil correspondiente de una distribución t de Student con n-p-1 grados de libertad. La bondad de ajuste del modelo se puede valorar mediante la varianza residual y el estadístico R2 (coeficiente de determinación), definidos de la forma habitual. También aquí puede utilizarse el contraste F global de la regresión, calculado a partir de las sumas de cuadrados explicada y no explicada para valorar la utilidad del modelo. Como ejemplo, tras ajustar un modelo de regresión múltiple a los datos que se muestran en la Tabla 1 usando como variables predictoras de la tensión diastólica el colesterol e índice de masa corporal de un individuo, los coeficientes de regresión para ambas variables fueron 0.18 (E.T. 0.03) y 0.73 (E.T. 0.30) respectivamente, siendo ambos significativamente distintos de cero (Tabla 2). Esto indica que por término medio la tensión arterial diastólica de un paciente se incrementa en 1.8 y 7.3 respectivamente por cada 10 unidades a mayores en su colesterol o índice de masa corporal. El valor del coeficiente de determinación R2=52% y la significación del contraste F global de la regresión (p<0.001) sugieren que gran parte de la variabilidad de la respuesta viene explicada por el modelo ajustado.

    Tabla 2. Modelo de regresión lineal múltiple para la tensión arterial diastólica ajustando por colesterol e índice de masa corporal.

    Variable

    Coeficiente (B)

    E.T.(B)

    IC 95% (B) t p
    Constante

    19.42

    7.54

    (4.37;34.48)

    2.58

    0.012

    Colesterol 0.18 0.03 (0.11;0.25) 5.26 <0.001
    IMC 0.73 0.30 (0.14;1.33) 2.45 0.017
    Suma de Cuadrados g.l. Media cuadrática F p
    Regresión 4,449.72 2 2,224.86 34.93 <0.001
    Residual 4,076.40 64 63.69
    Total 8,526.12 66

    El hecho de contar con un número más extenso de variables exige que además del contraste F global se puedan realizar pruebas parciales para constatar si un grupo de variables añadidas a un modelo lo mejoran. Supongamos que al modelo (1) se suma una nueva variable explicativa . La proporción de variabilidad residual que es explicada al introducir esta nueva variable viene dada por la diferencia en las sumas de cuadrados de cada modelo:

    Para valorar si la introducción de la nueva variable queda compensada por una mejora significativa en la predicción de la respuesta se utiliza el estadístico:

    que se compara con el cuantil correspondiente de una distribución F de Snedecor con 1 y n-p-2 grados de libertad. Dicho contraste se denominacontraste F parcial. Para comprobar el uso de dicho estadístico consideremos en el ejemplo anterior el modelo de regresión simple que resulta de tomar como única variable regresora el colesterol de un individuo (Tabla 3). El valor del estadístico R2 en este caso es del 69.1% frente al 72.2% del modelo que se consigue introduciendo el índice de masa corporal como nueva variable explicativa. El cambio en el estadístico R2 es de 0.045 que coincide con el cuadrado del coeficiente de correlación parcial entre la tensión arterial y el índice de masa corporal ajustando por el colesterol. La significación del contraste F parcial para la introducción del índice de masa corporal es de 0.017, indicando que el modelo con dos variables mejora al modelo más simple.

    Tabla 3. Modelo de regresión lineal simple para la tensión arterial diastólica ajustando por colesterol.

    Variable

    Coeficiente (B)

    E.T.(B)

    IC 95% (B) t p
    Constante

    26.91

    7.15

    (12.63;41.19)

    3.76

    <0.001

    Colesterol 0.23 0.03 (0.17;0.29) 7.70 <0.001
    Suma de Cuadrados g.l. Media cuadrática F p
    Regresión 4,067.11 1 4,067.11 59.29 <0.001
    Residual 4,459.01 65 68.60
    Total 8,526.12 66

    Es importante recalcar la necesidad de uso de métodos estadísticos multivariantes para estudiar correctamente la relación entre más de dos variables. La aplicación de las técnicas de regresión ha sido tratada en diversos textos desde un punto de vista eminentemente práctico. Aunque el modelo de regresión se ha planteado inicialmente para analizar la relación entre variables cuantitativas, su generalización al caso de variables regresoras cualitativas es inmediata. Este tipo de análisis recibe el nombre de análisis de covarianza o análisis de varianza según contenga o no además variables numéricas. La limitación de este modelo por considerar que la relación de cada variable con la respuesta es de tipo lineal queda solventada mediante la transformación (logarítmica, cuadrática,...) de cada variable regresora.

    Selección de variables

    Una de las principales dificultades a la hora de ajustar un modelo de regresión múltiple surge cuando es necesario identificar entre el conjunto de variables disponibles aquellas que están relacionadas con la respuesta y que la predicen de la mejor forma posible. Cuando el número de variables es reducido, como en el ejemplo manejado, la selección no resulta complicada. Una primera alternativa es construir un modelo por inclusión o hacia delante ("forward"), considerando en primer lugar la relación de cada variable con la respuesta e ignorando todas las demás variables, valorándola por medio del coeficiente de correlación lineal de Pearson (Figura 2). Aquella que muestra una correlación más alta con la variable dependiente (en este caso el colesterol) se introduce en un modelo inicial (Tabla 3).

    El segundo paso consiste en seleccionar entre las variables restantes aquella que al introducirla en el modelo permite explicar una mayor parte de la variabilidad residual. La comparación entre distintos modelos debe hacerse en términos del valor relativo de los coeficientes de determinación y el contraste F parcial. Ya vimos como la inclusión del índice de masa corporal reportaba una mejora en el modelo de regresión simple. La introducción de la variable edad, en cambio, proporciona un cambio en el coeficiente de determinación de 0.028 que no resulta en una mejora significativa (p=0.059). Este esquema se repetiría hasta que ninguna otra variable entrase a formar parte del modelo. En el ejemplo el último paso sería comprobar si la introducción de la variable edad produce una mejora del ajuste del modelo mostrado en la Tabla 2. El modelo ajustando por las tres variables se muestra en la Tabla 4. El coeficiente correspondiente a esta última variable no es significativo (nótese que esta significación ha de coincidir con la del contraste F parcial correspondiente).

    Tabla 4. Modelo de regresión lineal múltiple para la tensión arterial diastólica ajustando por colesterol, índice de masa corporal y edad.

    Variable

    Coeficiente (B)

    E.T.(B)

    IC 95% (B) t p
    Constante

    10.55

    9.13

    (-7.70;28.81)

    1.15

    0.252

    Colesterol 0.17 0.03 (0.1;0.24) 4.84 <0.001
    IMC 0.68 0.30 (0.09;1.28) 2.31 0.024
    Edad 0.24 0.14 (-0.05;0.53) 1.67 0.100
    Suma de Cuadrados g.l. Media cuadrática F p
    Regresión 4,622.52 3 1,540.84 24.87 <0.001
    Residual 3,903.60 63 61.96
    Total 8,526.12 66

    En la mayoría de los casos se dispone de información en un conjunto mucho más amplio de variables de las que se desconoce cuáles están relacionadas o pueden utilizarse para predecir la respuesta de interés. La identificación del conjunto de variables que proporcionan el mejor modelo de regresión dependerá en gran medida del objetivo del estudio y de experiencias previas. Así, aunque la práctica habitual es eliminar del modelo aquellas variables que no resultan significativas, puede ser recomendable mantenerlas en caso de que en experiencias previas se haya constatado una relación con la variable dependiente. La mayoría de paquetes estadísticos proporcionan una variedad de técnicas para identificar el mejor conjunto de variables regresoras que introducen o eliminan sucesivamente variables atendiendo a su significación en el modelo (hacia delante, hacia atrás, pasos sucesivos). Existen otras alternativas basadas en la comparación de todos los modelos posibles que se pueden formar con un conjunto inicial de variables. Todas estas técnicas deben considerarse meramente orientativas. Así, identificado el mejor conjunto de variables y ajustado el modelo es conveniente realizar un análisis de residuos exhaustivo para valorar la posibilidad de elegir un modelo distinto a pesar de que tenga un valor menor de R2.

    Interacción, Confusión y Colinealidad

    Cuando se introduce más de una variable en el modelo de regresión es necesario contrastar además la independencia de los efectos de todas ellas. Es decir, se supone que la asociación de cada variable con la respuesta no depende del valor que tomen el resto en la ecuación de regresión. En otro caso se dirá que existe interacción. Antes de aprobar el modelo definitivo, por lo tanto, se debe explorar la necesidad de incluir términos de interacción calculados a partir del producto de pares de variables, comprobando si mejora la predicción, siendo aconsejable investigar solamente aquellas interacciones que puedan tener una explicación clínica.

    En ocasiones el fenómeno de la interacción se hace coincidir erróneamente con los de confusión y correlación. Existe confusión cuando el efecto de una variable difiere significativamente según se considere o no en el modelo alguna otra. Ésta se asociará tanto con la variable inicial como con la respuesta, de modo que en casos extremos puede invertir el primer efecto observado. En ese caso las estimaciones adecuadas son aquellas que proporciona el modelo completo, y se dirán que están controladas o ajustadas por variables de confusión. Por otro lado, el fenómeno que se produce cuando dos variables explicativas muestran una correlación alta recibe el nombre de cuasi-colinealidad y puede producir estimaciones inestables de los coeficientes que se traducen en valores desorbitados de sus errores típicos y resultados poco creíbles. La mayoría de paquetes estadísticos muestran en sus salidas diagnósticos de colinealidad (tolerancia, factor de inflacción de la varianza, índice de condición) que pueden ayudarnos a solventar estos problemas. Por lo tanto, se ha de tener un cuidado especial en la etapa de construcción del modelo: un cambio significativo en las estimaciones tras la inclusión de una nueva variable puede evidenciar cualquiera de estos fenómenos. Nos corresponde a nosotros evaluar la conveniencia de incluirla o no en el modelo.

    Figura 2. Correlación lineal de la edad, colesterol e índice de masa corporal con la tensión arterial diastólica.
    Figura 2

    Bibliografía

    • Snedecor G.W., Cochran W.G. Statistical Methods. 8th ed. Iowa State University Press; 1989.
    • Seber GAF. Linear Regression Analysis. New York: John Wiley & Sons; 1977.
    • Etxebarría Murgiondo, J. Regresión Múltiple. Madrid: La Muralla; 1999.
    • Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman & Hall; 1997.
    • Carrasco J.L., Hernán M.A. Estadística Multivariante en las Ciencias de la Salud. Madrid: Ed. Ciencia 3; 1993.
    • Kleinbaum D.G., Kupper L.L. Applied Regression Analysis and other Multivariable Methods. 3rd. ed. Massachusetts: Duxbury Press; 1997.

    Autores

    Pértega Díaz, S., Pita Fernández, S. ,
    Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Universitario de A Coruña (España)
    CAD ATEN PRIMARIA 2000; 7: 173-176.
    © Descargado el 14/12/2024 14:59:30 Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright © . Elsevier Inc. Todos los derechos reservados.