La evaluación de la calidad de la evidencia y la graduación de la fuerza de las recomendaciones: el sistema GRADE

Índice de contenidos

Características del sistema GRADE
Evaluación de la evidencia
Presentación de los resultados de la evaluación de la evidencia
Formulación de las recomendaciones
Tecnologías para aplicación de GRADE
Bibliografía
Autores

Características del sistema GRADE

Las guías de práctica clínica (GPC) han experimentado una enorme transformación durante las últimas décadas. El sistema para clasificar la calidad de la evidencia y graduar la fuerza de la recomendación es uno de los aspectos que más se ha modificado.

La actualización del manual de elaboración de GPC en el Sistema Nacional de Salud de 2016 (Grupo de trabajo sobre GPC, 2016) ya presenta únicamente la metodología desarrollada por el grupo GRADE (Grading the Quality of Evidence and the Assessment of Recomendations) (Alonso-Coello P, 2013; Schünemann H, 2013) para evaluar la calidad de la evidencia y formular las recomendaciones. Actualmente, las guías del Programa de Guías de Práctica Clínica en el Sistema Nacional de Salud (SNS) que se elaboran o actualizan ya utilizan este sistema.

Las diferencias más relevantes entre GRADE (http://www.gradeworkinggroup.org) y otros sistemas previos son las siguientes (Grupo de trabajo sobre GPC, 2016):

La evaluación de la calidad de la evidencia se centra en el análisis por separado para cada desenlace de interés, que el grupo de trabajo habrá priorizado previamente en la fase de formulación de preguntas clínicas.
Se amplía la habitual evaluación del riesgo de sesgo a otros factores como, por ejemplo, la consistencia de los resultados o su precisión.
Se separa de forma explícita la definición de la calidad de la evidencia y de la fuerza de las recomendaciones.

El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la formulación de la pregunta y la selección de los desenlaces de interés hasta la formulación de las recomendaciones y su redacción (Grupo de trabajo sobre GPC, 2016). En este capítulo desarrollamos con detalle tanto la fase de evaluación de la evidencia como la de formulación de recomendaciones. Es importante señalar que, por tanto, GRADE se utiliza también para la evaluación de la calidad de la evidencia en las revisiones sistemáticas (por ejemplo, la Colaboración Cochrane ha adoptado este sistema hace ya tiempo) como pieza fundamental de la formulación de las recomendaciones, ya sea para documentos propios como dentro de la elaboración de una guía.

Respecto a la formulación de las preguntas clínicas, GRADE propone la clasificación de la importancia de los desenlaces de interés, normalmente desde el punto de vista del paciente o de aquellos afectados por las recomendaciones (por ejemplo, la sociead). Esto es relevante, pues los desenlaces más importantes serán los que deberán tener un mayor peso a la hora de evaluar la calidad de la evidencia, así como a la hora de formular las recomendaciones.

El sistema GRADE, tal y como se describe en capítulos previos, clasifica la importancia de los desenlaces en tres categorías, utilizando una escala de 1 a 9.

7-9: desenlace clave (o crítico) para la toma de decisiones.
4-6: desenlace importante pero no clave para la toma de decisiones.
1-3: desenlace no importante; estos desenlaces no juegan un papel relevante en la formulación de las recomendaciones y no se incluyen en la tabla de evaluación de la calidad o de los resultados.

Por ejemplo, a la hora de clasificar los desenlaces para la evaluación de la eficacia de los bisfosfonatos en mujeres con un riesgo alto de fractura, podríamos clasificar como claves la fractura de cadera, la fractura vertebral clínica y la calidad de vida, como importantes pero no claves la fractura vertebral radiológica, y como no importantes la densidad mineral ósea y los marcadores óseos.

GRADE establece también que las preguntas clínicas deben estar claramente definidas, no solo en los componentes en formato PICO (Paciente, Intervención, Comparación y Desenlace o Outcome), sino también en lo que se refiere al entorno y la perspectiva desde los que se abordan (Alonso-Coello P, 2016; Alonso-Coello P, 2016b). La perspectiva de las guías de práctica clínica del Programa de Guías de Práctica Clínica en el Sistema Nacional de Salud (SNS) es, por ejemplo, poblacional. Otras guías, como por ejemplo muchas de las realizadas por sociedades científicas, pueden preferir no tener esta perspectiva y centrarse únicamente en aspectos relacionados con una perspectiva del paciente individual.

En el Instrumento AGREE II (Instrumento AGREE II, 2009), los criterios más relevantes relacionados con la formulación de recomendaciones se recogen en el dominio “rigor en la elaboración”:

Los métodos para formular las recomendaciones, ¿están claramente descritos?
Al formular las recomendaciones, ¿han sido considerados los beneficios de salud, efectos secundarios y los riesgos?
¿Hay una relación clara entre cada una de las recomendaciones y las evidencias en las que se basan?

El sistema GRADE propone las siguientes definiciones (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):

Calidad de la evidencia: indica hasta qué punto nuestra confianza en la estimación de un efecto es adecuada para apoyar una recomendación.
Fuerza de la recomendación: indica hasta qué punto podemos confiar si poner en práctica la recomendación conllevará más consecuencias deseables que indeseables.

El sistema GRADE puede utilizarse para dar respuesta a distintos tipos de preguntas: sobre tratamiento, diagnóstico, pronóstico, etc. En este curso describiremos fundamentalmente el sistema GRADE referido a preguntas sobre tratamiento, ya que es la parte más utilizada y la más desarrollada por el momento. En cualquier caso, la mayoría de los conceptos que se abordan pueden ser aplicados a otro tipo de preguntas, con sus matizaciones. Para profundizar sobre GRADE y su utilización para dar respuesta a otro tipo de preguntas, puede consultarse el manual de elaboración de GPC en el sistema Nacional de Salud o el manual de GRADE (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013).

Puntos clave

El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la formulación de la pregunta y la selección de los desenlaces de interés hasta la formulación de las recomendaciones y su redacción.
La calidad de la evidencia refleja la confianza que se puede depositar en los resultados de la literatura científica para apoyar una recomendación en particular.
La evaluación de la calidad de la evidencia se realiza para cada desenlace de interés importante para los pacientes. Asimismo, se realiza una evaluación global para todos los desenlaces, con el fin de informar el proceso de decisión entre la evidencia y la recomendación.
La fuerza de la recomendación indica hasta qué punto podemos confiar si poner en práctica la recomendación conllevará más consecuencias deseables que indeseables.
Para estructurar la información y favorecer la transparencia en el paso de la evidencia a las recomendaciones, el grupo GRADE ha elaborado los marcos de la Evidencia a la Decision (Evidence to Decision (EtD) frameworks).

Evaluación de la evidencia

La certeza de la evidencia, también denominada calidad o confianza, en las GPC refleja el grado de confianza que tenemos en que la estimación de un efecto es adecuada para apoyar una recomendación y se evalúa para cada uno de los desenlaces de interés (idealmente los claves y, en ausencia de éstos, los importantes).

Aunque la calidad de la evidencia es un espectro continuo, GRADE propone una clasificación en cuatro categorías (Balshem H, 2011):

Tabla 1. Clasificación de la calidad de la evidencia.
Alta	Confianza alta en que el estimador del efecto disponible en la literatura científica se encuentra muy cercano al efecto real.
Moderada	Es probable que el estimador del efecto se encuentre cercano al efecto real, aunque podrían existir diferencias sustanciales.
Baja	El estimador del efecto puede ser sustancialmente diferente al efecto real.
Muy baja	Es muy probable que el estimador del efecto sea sustancialmente diferente al efecto real.

En el sistema GRADE, la calidad de la evidencia para un determinado desenlace arranca con el diseño de los estudios: inicialmente considera a los ensayos clínicos aleatorizados (ECA) como fuente de calidad alta, y a los estudios observacionales sin limitaciones importantes como fuente de calidad baja. En las revisiones sistemáticas, la evaluación de los factores que afectan a la calidad de la evidencia debe realizarse sobre el diseño y las características de los estudios que incluye la revisión (ya sea un conjunto de estudios o de un único estudio). Las series de casos son estudios observacionales no controlados en los que la calidad de la evidencia debería bajarse automáticamente de baja a muy baja. La opinión de experto no se considera un tipo de evidencia científica al que aplicar los factores modificadores de la calidad de la evidencia, sino que refleja la interpretación de los resultados de la evidencia, o de la ausencia de ésta, en función de su conocimiento y experiencia.

A partir de este punto inicial (calidad alta para ensayos clínicos y baja para estudios observacionales), se aplican los siguientes factores para bajar o, en algunos casos aumentar, la calidad de la evidencia (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013; Alonso-Coello P, 2013) (tabla 2):

Tabla 2. Factores que modifican la calidad de la evidencia.
Factores que pueden disminuir la calidad de la evidencia
Limitaciones en el diseño o ejecución de los estudios	↓ 1 o 2 grados
Inconsistencia entre los resultados de diferentes estudios	↓ 1 o 2 grados
Ausencia de evidencia directa	↓ 1 o 2 grados
Imprecisión de los estimadores del efecto	↓ 1 o 2 grados
Sesgo de publicación	↓ 1 grado
Factores que permiten aumentar la calidad de la evidencia
Magnitud del efecto importante	↑ 1 o 2 grados
Gradiente dosis-respuesta relevante	↑ 1 grado
Impacto de las variables de confusión plausibles	↑ 1 grado

Factores que pueden bajar la calidad de la evidencia (Balshem H, 2011; Grupo de trabajo sobre GPC, 2016):

Al valorar la calidad de la evidencia para un desenlace, tanto para los ECA, que de antemano se consideran como calidad alta para evaluar el efecto de diferentes intervenciones, como para los estudios observacionales, que de antemano se consideran como calidad baja, existen factores que pueden disminuir la misma:

a) Limitaciones en el diseño o la ejecución de los estudios (riesgo de sesgo).

En los ECA se consideran: las limitaciones en la secuencia de aleatorización, limitaciones en el enmascaramiento de investigadores, personal implicado en el estudio o participantes en el estudio, pérdidas de seguimiento importantes y la ausencia de análisis por intención de tratar, descripción selectiva de los resultados u otros sesgos (ensayos interrumpidos prematuramente por beneficio, uso de medidas de resultado no validadas, etc.). En los estudios observacionales se consideran: limitaciones en los criterios de inclusión de los pacientes, limitaciones en la medida de los resultados (como el sesgo de memoria), el control inadecuado de los factores de confusión o el seguimiento incompleto. A la hora de valorar globalmente el riesgo de sesgo de un conjunto de estudios con diferentes limitaciones se debe realizar un juicio global, teniendo en cuenta la contribución de los estudios a la estimación del efecto; los estudios de mayor tamaño contribuirán más y los que tengan un menor riesgo de sesgo tendrán un mayor peso.

b) Inconsistencia entre los resultados provenientes de diferentes estudios.

La inconsistencia se refiere a la variabilidad o heterogeneidad de los resultados entre los estudios disponibles para un determinado desenlace. Se deben explorar las posibles causas de la variabilidad, principalmente las diferencias en la población, la intervención, los desenlaces o el riesgo de sesgo de los estudios. En los metanálisis, se aconseja revisar de visu la variabilidad, prestando atención a diferencias entre los estimadores de los efectos, así como al grado de solapamiento de los intervalos de confianza. La existencia de heterogeneidad también se puede medir mediante una prueba de contraste de hipótesis (una p <0,10 nos sugiere que los resultados difieren entre sí más de lo que cabría esperar por el mero azar) o mediante el estadístico I² (adquiere valores entre 0 y 100, mide la magnitud de la heterogeneidad, cuanto mayor sea su valor mayor heterogeneidad). En ocasiones, la diferencia en la variabilidad de los resultados puede explicarse por diferencias entre distintos subgrupos; en estos casos puede ser más adecuado realizar recomendaciones diferenciadas para los subgrupos en lugar de bajar la calidad de la evidencia por inconsistencia.

c) Ausencia de evidencia directa.

La confianza en un estimador se reduce si se detecta que existen diferencias importantes entre la población donde se aplicará la GPC y la incluida en los estudios (por ejemplo, medio hospitalario vs. atención primaria, o pacientes de alto riesgo vs. bajo riesgo), entre la intervención que se pretende evaluar y la que se practicó en los estudios disponibles (por ejemplo, un programa de deshabituación tabáquica realizada por un equipo multidisciplinar vs. intervención de deshabituación en la consulta). También se debe considerar disminuir la calidad de la evidencia ante la ausencia de comparaciones directas entre las intervenciones de interés o cuando no existen desenlaces claves y la recomendación se base sólo en desenlaces que no son clave.

d) Imprecisión.

Para evaluar la precisión al estimar el efecto de una intervención para un desenlace, se debe considerar su intervalo de confianza y el umbral que determina la diferencia clínicamente relevante para los pacientes. Si una decisión clínica o recomendación pudiera ser diferente dependiendo de si se tiene en cuenta un extremo u otro del intervalo de confianza como el efecto "real" de una intervención, la confianza (y, por tanto, la calidad) en la estimación del efecto deberían disminuir. Asimismo, incluso con un intervalo de confianza preciso según estos criterios, si el número de sucesos o el número de sujetos evaluados en los diferentes estudios son escasos, se debe considerar la necesidad de disminuir la calidad.

En las GPC se valora un conjunto de desenlaces de interés y la decisión de bajar la calidad de la evidencia por imprecisión depende del umbral que determina la diferencia mínima relevante para los pacientes y del balance entre efectos deseables e indeseables de la intervención.

Por ejemplo, si un fármaco anticoagulante para la prevención de episodios vasculares (ictus isquémicos) reduce el riesgo en un 5% (intervalo de confianza del 95% [IC: 95%] del 9 al 1%) en términos absolutos, las repercusiones de esta imprecisión deberían valorarse teniendo en cuenta también los efectos indeseables. Si el fármaco se asociara a un incremento absoluto de las hemorragias graves extracraneales del 4%, podríamos no realizar la misma recomendación en los dos extremos del intervalo de confianza para la reducción de ictus: en el supuesto de una reducción del riesgo de ictus del 1%, los riesgos podrían considerarse superiores a los beneficios, mientras que en el supuesto del 9%, los beneficios podrían compensar los riesgos. En este caso, dada la imprecisión, deberíamos bajar la calidad de la evidencia por imprecisión para el desenlace de ictus.

e) Sesgo de publicación.

La calidad puede disminuir si se tiene la duda razonable de que no se hayan incluido todos los estudios realizados. La situación más frecuente se produce cuando, en el contexto de una revisión sistemática, se incluyen selectivamente los estudios que han mostrado resultados “positivos” (favorables a la intervención) y se omiten algunos estudios con resultados “negativos”, sobrestimando en su conjunto el efecto de la intervención. Existen pruebas estadísticas y gráficas que pueden orientar a la existencia de un sesgo de publicación, como la revisión de los gráficos de embudo (funnel plots). Esta situación puede llegar a ser más frecuente y difícil de detectar en los estudios observacionales.

Factores que pueden aumentar la calidad de la evidencia:

Las situaciones que pueden llevar a incrementar la confianza con los resultados de los estudios son poco comunes y se suelen aplicar sobre todo a estudios observacionales que evalúan el impacto de una intervención. Estos aspectos se deberían evaluar después de constatar que no se encuentra presente ninguna razón adicional que disminuya la calidad de la evidencia debido a un potencial riesgo de sesgo u otros de los factores que se han citado previamente (por ejemplo, imprecisión).

a) Fuerza de la asociación.

Cuando el efecto observado muestra una asociación fuerte (riesgo relativo u odds ratio >2 ó <0,5) o muy fuerte (riesgo relativo u odds ratio >5 ó <0,2), es más improbable que este efecto sea debido a una sobrestimación debido a los factores de confusión y más probable que el efecto observado sea más cercano al efecto real. En estos casos la calidad puede subir en 1 ó 2 grados. Por ejemplo, una revisión sistemática de estudios observacionales sobre la posición de los lactantes en la cuna a la hora de dormir para evitar el síndrome de muerte súbita mostró una reducción importante del riesgo para la posición boca arriba con un OR de 4,1 (IC: 95% 3,1 a 5,5).

b) Gradiente dosis-respuesta.

La existencia de un gradiente dosis-respuesta es un factor reconocido para establecer con mayor certidumbre una relación causa-efecto. En estas circunstancias este gradiente puede aumentar nuestra confianza en los resultados.

c) Impacto de las variables de confusión plausibles.

En los estudios observacionales rigurosos se controlan los factores pronósticos conocidos asociados con el desenlace de interés. No siempre es posible controlar todas las variables de confusión, que pueden reducir o reforzar el impacto de la intervención. Por ejemplo, varios estudios observacionales, en los que el análisis no se ha ajustado por el número de parejas sexuales, han mostrado que el uso del preservativo por parte de varones que tienen sexo con varones reduce el riesgo de infección por VIH comparado con no usarlo. Otros estudios han mostrado que los usuarios de preservativos tienen un mayor número de parejas sexuales que los varones que no los usan. De haberse ajustado por este factor, es posible que la asociación entre uso de preservativo y prevención de infección por VIH fuera mayor (Grupo de trabajo sobre GPC, 2016).

Estos factores que pueden aumentar o disminuir la calidad de la evidencia no deben tomarse como elementos individuales que puedan sumarse o restarse para obtener una clasificación de la calidad, sino que deben ser considerados en su conjunto. Por ejemplo, a la hora de valorar cuáles son las cifras de control glucémico más adecuadas en pacientes con diabetes tipo 2 (control intensivo vs. habitual), nos encontramos con que, para el desenlace de mortalidad cardiovascular, la calidad de la evidencia se basa en 18 ensayos clínicos sin limitaciones importantes, pero con un intervalo de confianza impreciso (ver tabla 3) y cierta heterogeneidad en los resultados (I²= 37% p= 0,09). Teniendo en cuenta ambos factores, bajamos la calidad de alta a moderada, pero no a baja.

Una vez evaluada la calidad de la evidencia científica para cada desenlace, se debe realizar una clasificación global de la calidad de la evidencia, lo que implica realizar un juicio general de la calidad entre los desenlaces clave para una determinada pregunta clínica. En este proceso, se deberían considerar priorizar los desenlaces clave. En el caso de los fármacos para la osteoporosis, se consideraría, por ejemplo, la calidad de la evidencia para las fracturas, pero no la de la densidad mineral ósea.

Presentación de los resultados de la evaluación de la evidencia

Los perfiles de evidencia son un método para presentar la evidencia disponible y los juicios sobre su calidad para una revisión sistemática. Puede presentarse en forma de perfiles de (Evidence profile) o en forma más resumida (Summary of Findings table). La tabla 3 muestra el perfil de la evidencia para la pregunta respecto a las cifras objetivo de HbA1c en la diabetes tipo 2 (control estricto vs. convencional de la glucemia).

Tabla 3. Ejemplo de perfil de evidencia. (Hemmingsen B, 2011)
Evaluación de la calidad							Resumen de los resultados		Calidad	Importancia
Evaluación de la calidad							Nº de pacientes	Magnitud del efecto
Nº de estudios	Diseño	Riesgo de sesgo	Inconsistencia	Evidencia indirecta	Imprecisión	Sesgo publicación		Relativa (95% CI)
Desenlace 1: Mortalidad por todas las causas.
18	ECA	Sin limitaciones importantes	No importante I²= 40% p= 0,08	No	(-1)^a	Poco probable	29.731	RR 1,01 (0,9-1,13)	Moderada	Clave
Desenlace 2: Mortalidad cardiovascular.
18	ECA	Sin limitaciones importantes	No importante I²= 37% p= 0,09	No	(-1)^a	Poco probable	29.731	RR 1,06 (0,9-1,26)	Moderada	Clave
Desenlace 3: IAM no fatal.
12	ECA	Sin limitaciones importantes	No importante	No	(-1)^a	Poco probable	29.174	RR 0,87 (0,76-1,0)	Moderada	Clave
Desenlace 4: ACV no fatal.
11	ECA	Sin limitaciones importantes	No importante I²= 20% p= 0,26	No	Pocos eventos (-1)^a	Poco probable	28.760	RR 0,96 (0,8-1,16)	Moderada	Clave
Desenlace 5: Insuficiencia renal terminal.
7	ECA	Sin limitaciones importantes	No importante	Sí ^b	No	Poco probable	28.075	RR 0,87 (0,71-1,06)	Moderada	Clave
Desenlace 6: Retinopatía.
8	ECA	Sin limitaciones importantes	Sí I²= 53% p= 0,04	Sí ^b	No	Poco probable	10.953	RR 0,79 (0,68-0,92)	Moderada	Importante
Desenlace 7: Hipoglucemia severa.
12	ECA	Sin limitaciones	Sí I²= 79% p >0,00001	No	No	Poco probable	28.127	RR 2,05 (1,39-3,02)	Alta	Clave
Desenlace 8: Amputaciones (extremidades inferiores).
6	ECA	Sin limitaciones importantes	No importante	No	(-2)^c	Poco probable	6.960	RR 0,64 (0,43 a 0,95)	Baja	Clave
^a Desenlace 1, 2 y 3: el análisis secuencial de los ensayos informó que se necesitan más datos. Desenlace 7: la heterogeneidad fue considerable, pero explicable por cómo se define la hipoglucemia. Es improbable que esta cambie el resultado. ^b Variables subrogadas. ^c Pocas amputaciones.

En este ejemplo, considerando todos los desenlaces, la calidad global de la evidencia sería moderada. Cada pregunta clínica deber acompañarse además de un resumen redactado de forma narrativa, en el que se describen brevemente los resultados de la búsqueda, la selección de estudios, sus características y resultados de los estudios para los distintos desenlaces.

Formulación de las recomendaciones

La fuerza de una recomendación refleja el grado de certeza de que los efectos deseables de una intervención recomendada superan sus efectos no deseables, o viceversa, en la población de interés. El sistema GRADE considera dos categorías en relación a la fuerza de las recomendaciones (Grupo de trabajo sobre GPC, 2016):

Recomendación fuerte: se refiere a una recomendación con confianza en que las consecuencias deseables de la intervención superan a las indeseables (recomendación fuerte a favor), o en que las consecuencias indeseables de la intervención superan las deseables (recomendación fuerte en contra).
Recomendación débil: se refiere a una recomendación según la cual las consecuencias deseables probablemente superan las consecuencias no deseables (recomendación débil a favor de una intervención) o las consecuencias no deseables probablemente son mayores que las deseables (recomendación débil en contra de una intervención), pero con una incertidumbre apreciable.

En la tabla 4 se resumen las implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas (pacientes, clínicos y gestores).

Tabla 4. Implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas (pacientes, clínicos y gestores).
	Recomendación fuerte	Recomendación débil
Para pacientes	La mayoría de las personas estarían de acuerdo con la acción recomendada y sólo una pequeña proporción no lo estaría. Las herramientas formales para la toma de decisiones probablemente no serán necesarias para ayudar a las personas a tomar decisiones coherentes con sus valores y preferencias.	La mayoría de las personas en esta situación estarían de acuerdo con la acción sugerida, pero muchos no lo estarían. Las herramientas para la toma de decisiones pueden ser útiles como ayuda para la toma de decisiones coherentes con los valores y preferencias de cada persona.
Para profesionales sanitarios	La mayoría de las personas debería recibir la intervención recomendada.	Reconoce que diferentes opciones serán apropiadas para cada paciente individual y que se deberá alentar a que cada paciente alcance una decisión de manejo coherente con sus valores y preferencias. Las herramientas para la toma de decisiones pueden ser útiles como ayuda para la toma de decisiones coherentes con los valores y preferencias de cada persona.
Para decisores/gestores	La recomendación puede ser adaptada a la política sanitaria en la mayoría de las situaciones. La adherencia a esta recomendación incluida en la guía, puede ser utilizado como un criterio de calidad o indicador de rendimiento.	El desarrollo de políticas sanitarias requerirá considerables debates y la participación de los diversos grupos de interés. La documentación adecuada del proceso de toma de decisiones para una recomendación débil podría utilizarse como una medida de calidad, en particular, si está basada en evidencia de alta calidad.

De la evidencia a la recomendación: factores a tener en cuenta en la graduación de las recomendaciones (Alonso-Coello P, 2016; Alonso-Coello P, 2018; Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):

El paso de la evidencia a la recomendación requiere tener en cuenta otros aspectos, además de la calidad de la evidencia sobre el efecto de las intervenciones. Estos aspectos o “juicios” deben reflejarse de forma explícita y transparente. Para estructurar la información y favorecer la transparencia en el paso de la evidencia a las recomendaciones o decisiones, el grupo GRADE ha elaborado una serie de marcos para la formulación de las recomendaciones y otras decisiones denominado Evidence to Decision (EtD) frameworks (Alonso-Coello P, 2018 [1]; Alonso-Coello P, 2018 [2]). Para cada una de las preguntas, se debe presentar claramente la pregunta, los subgrupos de población a los que va dirigido, el entorno (ámbito al cual va dirigida la recomendación) y la perspectiva (por ejemplo, poblacional o paciente individual), y los siguientes criterios y consideraciones:

Prioridad del problema: ¿el problema constituye una prioridad? Cuanto más severo es un problema, más probable es que sea una prioridad y que deba formularse una recomendación fuerte.
Efectos deseables e indeseables: ¿cuál es la magnitud de los efectos deseables (beneficios)?¿Cuál es la magnitud de los efectos indeseables (riesgos y carga de tratamiento)? Cuanto más sustanciales sean los efectos deseables y menos los indeseables, es más probable que deba recomendarse una intervención y, por tanto, mayor probabilidad de formular una recomendación fuerte.
Calidad de la evidencia: ¿cuál es la calidad global de la evidencia? (alta, moderada, baja, muy baja, no hay estudios incluidos). Cuanto mayor sea la calidad de la evidencia, mayor probabilidad de realizar una recomendación fuerte.
Importancia de los desenlaces para los pacientes. ¿Existe incertidumbre o variabilidad en cómo los pacientes valoran los desenlaces de interés? Cuanto mayor sea la incertidumbre, menor es la probabilidad de formular una recomendación fuerte. En el caso de la diabetes tipo 2 y el control estricto de la glucemia frente al convencional, existe incertidumbre acerca de cómo los pacientes valorarán la carga de la medicación debida a un control más estricto (posible insulinización, más fármacos orales, más analíticas y consultas), el mayor riesgo de hipoglucemia frente a ligeros beneficios en las complicaciones para la diabetes.
Teniendo en cuenta la magnitud de los beneficios y riesgos y la incertidumbre respecto a cómo los pacientes valoran los distintos desenlaces, el balance entre los efectos deseados e indeseados, ¿favorece a la intervención?
Recursos/Costes. ¿Son altos los costes que se requieren para poner en marcha la intervención?¿Es alta la incertidumbre en torno a los recursos necesarios? Cuanto mayor es el coste, menos probable es que una intervención se recomiende. Cuando el uso de recursos se considera fundamental para una decisión acerca de una recomendación, es aconsejable su evaluación económica mediante métodos formales o la búsqueda de evidencia acerca de su relación entre costes y beneficios.
Teniendo en cuenta el balance entre efectos deseables e indeseables, es decir, el beneficio neto (criterios 2 a 5) y el coste, la relación coste-beneficio, ¿favorece la intervención?
Equidad, aceptabilidad y factibilidad. ¿Cuál es el impacto sobre la equidad?¿Es aceptable la intervención para los grupos de interés clave?¿Es factible implementar la intervención?

Veamos algunos ejemplos:

El tratamiento con corticoides sistémicos en las exacerbaciones en la enfermedad pulmonar obstructiva crónica (EPOC) presenta un balance beneficio-riesgo favorable (reduce el riesgo de fracaso terapéutico, la necesidad de tratamiento adicional, la estancia hospitalaria y aumenta la capacidad funcional, aunque presenta eventos adversos leves). La calidad de la evidencia es moderada. No hay razones para pensar que la mayoría de los pacientes, una vez informados, no aceptarían el tratamiento. Y finalmente, el coste de los corticoides es muy bajo. En conjunto, por tanto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la estimación del efecto) y no hay otros factores adicionales que nos hagan disminuir nuestra confianza en que el llevar a cabo esta recomendación conllevaría más beneficios que daños. No conlleva problemas de equidad ni de factibilidad. Por tanto, el grupo elaborador de una guía probablemente realizaría una recomendación fuerte a favor del uso de corticoides en las exacerbaciones de la EPOC (National Collaborating Centre for Chronic Conditions, 2004).
La prevención del ictus en pacientes con fibrilación auricular de riesgo intermedio (CHADS₂= 1) con anticoagulantes orales, bien antagonistas de la vitamina K (warfarina y acenocumarol) o nuevos anticoagulantes orales (NACO) en comparación con aspirina. Warfarina muestra un balance beneficio riesgo favorable (9 ictus menos y 3 sangrados extracraneales no fatales más por cada 1.000 pacientes tratados), siendo la calidad de la evidencia moderada (You JJ, 2012). No se dispone de datos comparativos entre aspirina y nuevos anticoagulantes (aunque sí entre warfarina y NACO, la evidencia para los NACO sería, en todo caso, indirecta). En cuanto a los valores y preferencias, los pacientes asignan, en términos generales, tres veces más importancia a evitar un ictus que a sufrir un sangrado extracraneal grave. No obstante, estas estimaciones de los valores y preferencias son muy variables (MacLean S, 2012). En cuanto al coste, aspirina y warfarina tienen bajo coste. En el caso de los NACO, el coste es mucho más elevado y en nuestro medio su impacto en presupuesto es muy relevante. En conjunto, por tanto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la estimación del efecto) y el coste es bajo para warfarina. El balance entre beneficios y riesgo favorece a warfarina, aunque, debido al riesgo basal relativamente bajo de estos pacientes, es modesto. Los valores y preferencias de los pacientes son variables. Por tanto, hay algunos factores que disminuyen nuestra confianza en que el llevar a cabo esta recomendación conllevaría más beneficios que daños en la mayoría de pacientes. Por tanto, el grupo elaborador de una guía probablemente formularía una recomendación débil a favor de los anticoagulantes antagonistas de la vitamina K, comparados con la aspirina, en esta población (You JJ, 2012). No recomendaría los NACO en esta población, debido sobre todo a la ausencia de evidencia directa y a su alto coste.

Respecto a la redacción de recomendaciones, GRADE propone la adopción de una terminología específica para reflejar la fuerza, utilizando para ello expresiones como “se recomienda/no se recomienda” o “se debe/no se debe” cuando se habla de recomendaciones fuertes, y “se sugiere/no se sugiere” o “se podría” para recomendaciones débiles.

Por ejemplo, una recomendación acerca del control glucémico es débil y queda redactada de la siguiente forma (Ezkurra P, 2015):

“En general se sugieren unas cifras objetivo orientativas menores del 7% de HbA1c. No obstante, el objetivo debería estar basado en la evaluación individualizada teniendo en cuenta el riesgo de complicaciones de la diabetes, comorbilidad, esperanza de vida y preferencias de los pacientes.

Se sugiere plantear objetivos menos estrictos, entre 7,5%-8%, para los ancianos, pacientes con multimorbilidad o para iniciar la insulinización o la triple terapia. Se puede considerar un tratamiento intensivo con el objeto de reducir las cifras de HbA1c por debajo del 6,5% en pacientes jóvenes o recién diagnosticados sin comorbilidad. Se sugiere implicar a las personas con diabetes tipo 2 en las decisiones sobre su nivel objetivo de HbA1c.”

Tecnologías para aplicación de GRADE

El sistema GRADE cuenta con un software para la aplicación del mismo denominado GRADEpro GDT. El software es una propuesta para sintetizar y presentar información para la toma de decisiones en el campo de la salud. GRADEpro GDT permite la elaboración de tablas de resumen de los hallazgos tanto para revisiones sistemáticas como para las evaluaciones de tecnologías, facilitando el desarrollo de GPC y otro tipo de decisiones. Recientemente, ha incorporado una base de datos que incluye un repositorio de este tipo de formatos para su adopción, adaptación o uso en nuevas GPC.

DECIDE es un proyecto Europeo impulsado por el grupo GRADE que tuvo como objetivo mejorar la diseminación de las recomendaciones en salud para diferentes grupos de interés (profesionales sanitarios, ciudadanos, pacientes y gestores). Para ello se desarrollaron formatos óptimos de presentación y se actualizó el software original de GRADEpro (Kristiansen A, 2015). Sus resultados ya se están implementando en algunas de las instituciones más influyentes en la elaboración de revisiones sistemáticas, la formulación de recomendaciones y toma de decisiones sanitarias como la Colaboración Cochrane, la OMS o la propia NICE. En nuestro entorno ya han sido incorporados en la actualización del manual de elaboración de GPC en el Sistema Nacional de Salud de 2016 (Grupo de trabajo sobre GPC, 2016). Entre los formatos de presentación desarrollados están las tablas interactivas de resumen de los hallazgos (https://isof.epistemonikos.org/#/), las herramientas de apoyo a las decisiones compartidas ligadas a las GPC (Agoritsas T, 2015) o el marco de la evidencia a las decisiones (Alonso Coello P, 2016).

Existen otros softwares para la aplicación de GRADE. Entre ellos destaca la iniciativa MAGIC (Vandvik, 2013), la cual dispone de MAGIC app, una aplicación para desarrollar GPC electrónicas, síntesis de información y herramientas de apoyo a la toma de decisiones ligada a las GPC. Es un software similar a GRADEpro que destaca por su desarrollo de los aspectos de publicación, simultáneos a los de elaboración.

La evaluación de estos nuevos formatos de presentación electrónicas de las GPC han sido favorables entre los profesionales a los que van dirigidas las GPC (Brandt, 2017). Éstos incluyen tablas de resumen de los hallazgos, marcos de la evidencia a la decisión y herramientas de apoyo a las decisiones compartidas (Kristiansen A, 2015, Agoritsas T, 2015).

Bibliografía

Agoritsas T, Heen AF, Brandt L, Alonso-Coello P, Kristiansen A, Akl EA, et al. Decision aids that really promote shared decision making: the pace quickens. BMJ 2015;350:g7624. Texto completo
Alonso-Coello P, Schünemann HJ, Moberg J, et al. Marcos GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones sanitarias bien informadas. 1: Guías de práctica clínica. Gac Sanit. 2018;32(2):166.e1-166.e10. PMID: 28822594. Texto completo
Alonso-Coello P, Oxman AD, Moberg J, et al. Marcos GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones sanitarias bien informadas. 2: Guías de práctica clínica. Gac Sanit. 2018;32(2):167.e1-167.e10. PMID: 28917831. Texto completo
Alonso-Coello P, Rigau D, Solà I, Martínez García L. La formulación de recomendaciones en salud: el sistema GRADE. MedClin (Barc). 2013;140(8):366-73. Texto completo
Alonso-Coello P, Schünemann HJ, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, Treweek S, Mustafa RA, Rada G, Rosenbaum S, Morelli A, Guyatt GH, Oxman AD; GRADE Working Group. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed healthcare choices. 1: Introduction. BMJ. 2016 Jun 28;353:i2016. PubMed PMID: 27353417. Texto completo
Alonso-Coello P, Oxman AD, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, Treweek S, Mustafa RA, Vandvik PO, Meerpohl J, Guyatt GH, Schünemann HJ; GRADE Working Group. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed healthcare choices. 2: Clinical practice guidelines. BMJ. 2016 Jun 30;353:i2089. PubMed PMID: 27365494. Texto completo
Balshem H, Helfand M, Schünemann HJ, Oxman AD, Kunz R, Brozek J, Vist GE, Falck-Ytter Y, Meerpohl J, Norris S, Guyatt GH. GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol. 2011 Apr;64(4):401-6. PubMed PMID: 21208779. Texto completo
Brandt L, Vandvik PO, Alonso-Coello P, Akl EA, Thornton J, Rigau D, et al. Multilayered and digitally structured presentation formats of trustworthy recommendations: a combined survey and randomised trial. BMJ Open. 2017 Feb 10;7(2):e011569. PMID: 28188149. Texto completo
Ezkurra P, Etxeberria A, Idarreta I, Balagué L, Moreno M, Daza P, Villa I, Etxeandia I. Protocolo sobre manejo de la diabetes mellitus tipo 2. FMC. 2015;22(Supl. 2):9-40 - Vol. 22 Núm.Supl.2.
Grupo de trabajo sobre GPC. Elaboración de Guías de Práctica Clínica en el Sistema Nacional de Salud. Actualización del Manual Metodológico [Internet]. Madrid: Plan Nacional para el SNS del MSC. Instituto Aragonés de Ciencias de la Salud-I+CS; 2016. Disponible en: https://portal.guiasalud.es/wp-content/uploads/2019/01/manual_gpc_completo.pdf
Hemmingsen B, Lund SS, Gluud C, Vaag A, Almdal T, Hemmingsen C, Wetterslev J. Targeting intensive glycaemic control versus targeting conventional glycaemic control for type 2 diabetes mellitus. Cochrane Database Syst Rev. 2011 Jun 15;(6):CD008143. PubMed PMID: 21678374
Instrumento AGREE II. Instrumento para la evaluación de Guías de Práctica Clínica. Traducción a cargo de Guía Salud. The Agree Research Trust; 2009. En: http://www.agreetrust.org; Versión en español: https://portal.guiasalud.es/wp-content/uploads/2019/01/spanish-agree-ii.pdf
Kristiansen A, Brandt L, Alonso-Coello P, Agoritsas T, Akl EA, Conboy T, et al. Development of a novel multilayered presentation format for clinical practice guidelines. Chest. 2015;147(3):754-63. PubMed PMID: 25317597. Texto completo
MacLean S, Mulla S, Akl EA, Jankowski M, Vandvik PO, Ebrahim S, McLeod S, Bhatnagar N, Guyatt GH; American College of Chest Physicians. Patient values and preferences in decision making for antithrombotic therapy: a systematic review: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines. Chest. 2012 Feb;141(2 Suppl):e1S-23S. PubMed PMID: 22315262. Texto completo
National Collaborating Centre for Chronic Conditions. Chronic obstructive pulmonary disease. National clinical guideline on management of chronic obstructive pulmonary disease in adults in primary and secondary care. Thorax. 2004 Feb;59 Suppl 1:1-232. PubMed PMID: 15041752. Texto completo
Schünemann H, Brozek J, Guyatt G, Oxman A, editores. GRADE handbook forgrading quality of evidence and strength of recommendations [Internet]. The GRADE Working Group, 2013. Disponible en: http://gdt.guidelinedevelopment.org/central_prod/_design/client/handbook/handbook.html
Vandvik PO, Brandt L, Alonso-Coello P, et al. Creating clinical practice guidelines we can trust, use, and share: a new era is imminent. Chest. 2013;144(2):381-389. PMID 23918106. Texto completo
You JJ, Singer DE, Howard PA, Lane DA, Eckman MH, Fang MC, Hylek EM, Schulman S, Go AS, Hughes M, Spencer FA, Manning WJ, Halperin JL, Lip GY; American College of Chest Physicians. Antithrombotic therapy for atrial fibrillation: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines. Chest. 2012 Feb;141(2 Suppl):e531S-75S. PubMed PMID: 22315271. Texto completo

Autores

Pablo Alonso Coello

Médico Especialista en Medicina Familiar y Comunitaria (1)

Rafael Rotaeche del Campo

Médico Especialista en Medicina Familiar y Comunitaria (2)

		David Rigau	Médico Especialista en Farmacología Clínica (1)
		Arritxu Etxeberria Agirre	Farmacéutica de Atención Primaria (3)
		Laura Martínez	Médico Especialista en Medicina Preventiva y Salud Pública (1)

(1) Centro Cochrane Iberoamericano, Instituto de Investigación Biomédica (IIB-Sant Pau), Barcelona.
(2) Unidad de investigación AP y OSIS Gipuzkoa. IIS-BIogipuzkoa.
(3) OSI Donostialdea. Servicio Vasco de Salud (Osakidetza). País Vasco.

Conflicto de intereses
Los autores declaran no tener ningún conflicto de intereses.

Fecha de revisión: 16/11/2023

Cursos relacionados

La evaluación de la calidad de la evidencia y la graduación de la fuerza de las recomendaciones: el sistema GRADE

Fecha de revisión: 16/11/2023

Guía

Índice de contenidos

Características del sistema GRADE
Evaluación de la evidencia
Presentación de los resultados de la evaluación de la evidencia
Formulación de las recomendaciones
Tecnologías para aplicación de GRADE
Bibliografía
Autores

Características del sistema GRADE

Las diferencias más relevantes entre GRADE (http://www.gradeworkinggroup.org) y otros sistemas previos son las siguientes (Grupo de trabajo sobre GPC, 2016):

La evaluación de la calidad de la evidencia se centra en el análisis por separado para cada desenlace de interés, que el grupo de trabajo habrá priorizado previamente en la fase de formulación de preguntas clínicas.
Se amplía la habitual evaluación del riesgo de sesgo a otros factores como, por ejemplo, la consistencia de los resultados o su precisión.
Se separa de forma explícita la definición de la calidad de la evidencia y de la fuerza de las recomendaciones.

7-9: desenlace clave (o crítico) para la toma de decisiones.
4-6: desenlace importante pero no clave para la toma de decisiones.
1-3: desenlace no importante; estos desenlaces no juegan un papel relevante en la formulación de las recomendaciones y no se incluyen en la tabla de evaluación de la calidad o de los resultados.

Los métodos para formular las recomendaciones, ¿están claramente descritos?
Al formular las recomendaciones, ¿han sido considerados los beneficios de salud, efectos secundarios y los riesgos?
¿Hay una relación clara entre cada una de las recomendaciones y las evidencias en las que se basan?

El sistema GRADE propone las siguientes definiciones (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):

Calidad de la evidencia: indica hasta qué punto nuestra confianza en la estimación de un efecto es adecuada para apoyar una recomendación.
Fuerza de la recomendación: indica hasta qué punto podemos confiar si poner en práctica la recomendación conllevará más consecuencias deseables que indeseables.

Puntos clave

El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la formulación de la pregunta y la selección de los desenlaces de interés hasta la formulación de las recomendaciones y su redacción.
La calidad de la evidencia refleja la confianza que se puede depositar en los resultados de la literatura científica para apoyar una recomendación en particular.
La evaluación de la calidad de la evidencia se realiza para cada desenlace de interés importante para los pacientes. Asimismo, se realiza una evaluación global para todos los desenlaces, con el fin de informar el proceso de decisión entre la evidencia y la recomendación.
La fuerza de la recomendación indica hasta qué punto podemos confiar si poner en práctica la recomendación conllevará más consecuencias deseables que indeseables.
Para estructurar la información y favorecer la transparencia en el paso de la evidencia a las recomendaciones, el grupo GRADE ha elaborado los marcos de la Evidencia a la Decision (Evidence to Decision (EtD) frameworks).

Evaluación de la evidencia

Tabla 1. Clasificación de la calidad de la evidencia.
Alta	Confianza alta en que el estimador del efecto disponible en la literatura científica se encuentra muy cercano al efecto real.
Moderada	Es probable que el estimador del efecto se encuentre cercano al efecto real, aunque podrían existir diferencias sustanciales.
Baja	El estimador del efecto puede ser sustancialmente diferente al efecto real.
Muy baja	Es muy probable que el estimador del efecto sea sustancialmente diferente al efecto real.

Tabla 2. Factores que modifican la calidad de la evidencia.
Factores que pueden disminuir la calidad de la evidencia
Limitaciones en el diseño o ejecución de los estudios	↓ 1 o 2 grados
Inconsistencia entre los resultados de diferentes estudios	↓ 1 o 2 grados
Ausencia de evidencia directa	↓ 1 o 2 grados
Imprecisión de los estimadores del efecto	↓ 1 o 2 grados
Sesgo de publicación	↓ 1 grado
Factores que permiten aumentar la calidad de la evidencia
Magnitud del efecto importante	↑ 1 o 2 grados
Gradiente dosis-respuesta relevante	↑ 1 grado
Impacto de las variables de confusión plausibles	↑ 1 grado

Presentación de los resultados de la evaluación de la evidencia

Tabla 3. Ejemplo de perfil de evidencia. (Hemmingsen B, 2011)
Evaluación de la calidad							Resumen de los resultados		Calidad	Importancia
Evaluación de la calidad							Nº de pacientes	Magnitud del efecto
Nº de estudios	Diseño	Riesgo de sesgo	Inconsistencia	Evidencia indirecta	Imprecisión	Sesgo publicación		Relativa (95% CI)
Desenlace 1: Mortalidad por todas las causas.
18	ECA	Sin limitaciones importantes	No importante I²= 40% p= 0,08	No	(-1)^a	Poco probable	29.731	RR 1,01 (0,9-1,13)	Moderada	Clave
Desenlace 2: Mortalidad cardiovascular.
18	ECA	Sin limitaciones importantes	No importante I²= 37% p= 0,09	No	(-1)^a	Poco probable	29.731	RR 1,06 (0,9-1,26)	Moderada	Clave
Desenlace 3: IAM no fatal.
12	ECA	Sin limitaciones importantes	No importante	No	(-1)^a	Poco probable	29.174	RR 0,87 (0,76-1,0)	Moderada	Clave
Desenlace 4: ACV no fatal.
11	ECA	Sin limitaciones importantes	No importante I²= 20% p= 0,26	No	Pocos eventos (-1)^a	Poco probable	28.760	RR 0,96 (0,8-1,16)	Moderada	Clave
Desenlace 5: Insuficiencia renal terminal.
7	ECA	Sin limitaciones importantes	No importante	Sí ^b	No	Poco probable	28.075	RR 0,87 (0,71-1,06)	Moderada	Clave
Desenlace 6: Retinopatía.
8	ECA	Sin limitaciones importantes	Sí I²= 53% p= 0,04	Sí ^b	No	Poco probable	10.953	RR 0,79 (0,68-0,92)	Moderada	Importante
Desenlace 7: Hipoglucemia severa.
12	ECA	Sin limitaciones	Sí I²= 79% p >0,00001	No	No	Poco probable	28.127	RR 2,05 (1,39-3,02)	Alta	Clave
Desenlace 8: Amputaciones (extremidades inferiores).
6	ECA	Sin limitaciones importantes	No importante	No	(-2)^c	Poco probable	6.960	RR 0,64 (0,43 a 0,95)	Baja	Clave
^a Desenlace 1, 2 y 3: el análisis secuencial de los ensayos informó que se necesitan más datos. Desenlace 7: la heterogeneidad fue considerable, pero explicable por cómo se define la hipoglucemia. Es improbable que esta cambie el resultado. ^b Variables subrogadas. ^c Pocas amputaciones.

Formulación de las recomendaciones

Recomendación fuerte: se refiere a una recomendación con confianza en que las consecuencias deseables de la intervención superan a las indeseables (recomendación fuerte a favor), o en que las consecuencias indeseables de la intervención superan las deseables (recomendación fuerte en contra).
Recomendación débil: se refiere a una recomendación según la cual las consecuencias deseables probablemente superan las consecuencias no deseables (recomendación débil a favor de una intervención) o las consecuencias no deseables probablemente son mayores que las deseables (recomendación débil en contra de una intervención), pero con una incertidumbre apreciable.

En la tabla 4 se resumen las implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas (pacientes, clínicos y gestores).

Tabla 4. Implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas (pacientes, clínicos y gestores).
	Recomendación fuerte	Recomendación débil
Para pacientes	La mayoría de las personas estarían de acuerdo con la acción recomendada y sólo una pequeña proporción no lo estaría. Las herramientas formales para la toma de decisiones probablemente no serán necesarias para ayudar a las personas a tomar decisiones coherentes con sus valores y preferencias.	La mayoría de las personas en esta situación estarían de acuerdo con la acción sugerida, pero muchos no lo estarían. Las herramientas para la toma de decisiones pueden ser útiles como ayuda para la toma de decisiones coherentes con los valores y preferencias de cada persona.
Para profesionales sanitarios	La mayoría de las personas debería recibir la intervención recomendada.	Reconoce que diferentes opciones serán apropiadas para cada paciente individual y que se deberá alentar a que cada paciente alcance una decisión de manejo coherente con sus valores y preferencias. Las herramientas para la toma de decisiones pueden ser útiles como ayuda para la toma de decisiones coherentes con los valores y preferencias de cada persona.
Para decisores/gestores	La recomendación puede ser adaptada a la política sanitaria en la mayoría de las situaciones. La adherencia a esta recomendación incluida en la guía, puede ser utilizado como un criterio de calidad o indicador de rendimiento.	El desarrollo de políticas sanitarias requerirá considerables debates y la participación de los diversos grupos de interés. La documentación adecuada del proceso de toma de decisiones para una recomendación débil podría utilizarse como una medida de calidad, en particular, si está basada en evidencia de alta calidad.

Prioridad del problema: ¿el problema constituye una prioridad? Cuanto más severo es un problema, más probable es que sea una prioridad y que deba formularse una recomendación fuerte.
Efectos deseables e indeseables: ¿cuál es la magnitud de los efectos deseables (beneficios)?¿Cuál es la magnitud de los efectos indeseables (riesgos y carga de tratamiento)? Cuanto más sustanciales sean los efectos deseables y menos los indeseables, es más probable que deba recomendarse una intervención y, por tanto, mayor probabilidad de formular una recomendación fuerte.
Calidad de la evidencia: ¿cuál es la calidad global de la evidencia? (alta, moderada, baja, muy baja, no hay estudios incluidos). Cuanto mayor sea la calidad de la evidencia, mayor probabilidad de realizar una recomendación fuerte.
Importancia de los desenlaces para los pacientes. ¿Existe incertidumbre o variabilidad en cómo los pacientes valoran los desenlaces de interés? Cuanto mayor sea la incertidumbre, menor es la probabilidad de formular una recomendación fuerte. En el caso de la diabetes tipo 2 y el control estricto de la glucemia frente al convencional, existe incertidumbre acerca de cómo los pacientes valorarán la carga de la medicación debida a un control más estricto (posible insulinización, más fármacos orales, más analíticas y consultas), el mayor riesgo de hipoglucemia frente a ligeros beneficios en las complicaciones para la diabetes.
Teniendo en cuenta la magnitud de los beneficios y riesgos y la incertidumbre respecto a cómo los pacientes valoran los distintos desenlaces, el balance entre los efectos deseados e indeseados, ¿favorece a la intervención?
Recursos/Costes. ¿Son altos los costes que se requieren para poner en marcha la intervención?¿Es alta la incertidumbre en torno a los recursos necesarios? Cuanto mayor es el coste, menos probable es que una intervención se recomiende. Cuando el uso de recursos se considera fundamental para una decisión acerca de una recomendación, es aconsejable su evaluación económica mediante métodos formales o la búsqueda de evidencia acerca de su relación entre costes y beneficios.
Teniendo en cuenta el balance entre efectos deseables e indeseables, es decir, el beneficio neto (criterios 2 a 5) y el coste, la relación coste-beneficio, ¿favorece la intervención?
Equidad, aceptabilidad y factibilidad. ¿Cuál es el impacto sobre la equidad?¿Es aceptable la intervención para los grupos de interés clave?¿Es factible implementar la intervención?

Veamos algunos ejemplos:

El tratamiento con corticoides sistémicos en las exacerbaciones en la enfermedad pulmonar obstructiva crónica (EPOC) presenta un balance beneficio-riesgo favorable (reduce el riesgo de fracaso terapéutico, la necesidad de tratamiento adicional, la estancia hospitalaria y aumenta la capacidad funcional, aunque presenta eventos adversos leves). La calidad de la evidencia es moderada. No hay razones para pensar que la mayoría de los pacientes, una vez informados, no aceptarían el tratamiento. Y finalmente, el coste de los corticoides es muy bajo. En conjunto, por tanto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la estimación del efecto) y no hay otros factores adicionales que nos hagan disminuir nuestra confianza en que el llevar a cabo esta recomendación conllevaría más beneficios que daños. No conlleva problemas de equidad ni de factibilidad. Por tanto, el grupo elaborador de una guía probablemente realizaría una recomendación fuerte a favor del uso de corticoides en las exacerbaciones de la EPOC (National Collaborating Centre for Chronic Conditions, 2004).
La prevención del ictus en pacientes con fibrilación auricular de riesgo intermedio (CHADS₂= 1) con anticoagulantes orales, bien antagonistas de la vitamina K (warfarina y acenocumarol) o nuevos anticoagulantes orales (NACO) en comparación con aspirina. Warfarina muestra un balance beneficio riesgo favorable (9 ictus menos y 3 sangrados extracraneales no fatales más por cada 1.000 pacientes tratados), siendo la calidad de la evidencia moderada (You JJ, 2012). No se dispone de datos comparativos entre aspirina y nuevos anticoagulantes (aunque sí entre warfarina y NACO, la evidencia para los NACO sería, en todo caso, indirecta). En cuanto a los valores y preferencias, los pacientes asignan, en términos generales, tres veces más importancia a evitar un ictus que a sufrir un sangrado extracraneal grave. No obstante, estas estimaciones de los valores y preferencias son muy variables (MacLean S, 2012). En cuanto al coste, aspirina y warfarina tienen bajo coste. En el caso de los NACO, el coste es mucho más elevado y en nuestro medio su impacto en presupuesto es muy relevante. En conjunto, por tanto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la estimación del efecto) y el coste es bajo para warfarina. El balance entre beneficios y riesgo favorece a warfarina, aunque, debido al riesgo basal relativamente bajo de estos pacientes, es modesto. Los valores y preferencias de los pacientes son variables. Por tanto, hay algunos factores que disminuyen nuestra confianza en que el llevar a cabo esta recomendación conllevaría más beneficios que daños en la mayoría de pacientes. Por tanto, el grupo elaborador de una guía probablemente formularía una recomendación débil a favor de los anticoagulantes antagonistas de la vitamina K, comparados con la aspirina, en esta población (You JJ, 2012). No recomendaría los NACO en esta población, debido sobre todo a la ausencia de evidencia directa y a su alto coste.

Tecnologías para aplicación de GRADE

Bibliografía

Agoritsas T, Heen AF, Brandt L, Alonso-Coello P, Kristiansen A, Akl EA, et al. Decision aids that really promote shared decision making: the pace quickens. BMJ 2015;350:g7624. Texto completo
Alonso-Coello P, Schünemann HJ, Moberg J, et al. Marcos GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones sanitarias bien informadas. 1: Guías de práctica clínica. Gac Sanit. 2018;32(2):166.e1-166.e10. PMID: 28822594. Texto completo
Alonso-Coello P, Oxman AD, Moberg J, et al. Marcos GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones sanitarias bien informadas. 2: Guías de práctica clínica. Gac Sanit. 2018;32(2):167.e1-167.e10. PMID: 28917831. Texto completo
Alonso-Coello P, Rigau D, Solà I, Martínez García L. La formulación de recomendaciones en salud: el sistema GRADE. MedClin (Barc). 2013;140(8):366-73. Texto completo
Alonso-Coello P, Schünemann HJ, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, Treweek S, Mustafa RA, Rada G, Rosenbaum S, Morelli A, Guyatt GH, Oxman AD; GRADE Working Group. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed healthcare choices. 1: Introduction. BMJ. 2016 Jun 28;353:i2016. PubMed PMID: 27353417. Texto completo
Alonso-Coello P, Oxman AD, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, Treweek S, Mustafa RA, Vandvik PO, Meerpohl J, Guyatt GH, Schünemann HJ; GRADE Working Group. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed healthcare choices. 2: Clinical practice guidelines. BMJ. 2016 Jun 30;353:i2089. PubMed PMID: 27365494. Texto completo
Balshem H, Helfand M, Schünemann HJ, Oxman AD, Kunz R, Brozek J, Vist GE, Falck-Ytter Y, Meerpohl J, Norris S, Guyatt GH. GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol. 2011 Apr;64(4):401-6. PubMed PMID: 21208779. Texto completo
Brandt L, Vandvik PO, Alonso-Coello P, Akl EA, Thornton J, Rigau D, et al. Multilayered and digitally structured presentation formats of trustworthy recommendations: a combined survey and randomised trial. BMJ Open. 2017 Feb 10;7(2):e011569. PMID: 28188149. Texto completo
Ezkurra P, Etxeberria A, Idarreta I, Balagué L, Moreno M, Daza P, Villa I, Etxeandia I. Protocolo sobre manejo de la diabetes mellitus tipo 2. FMC. 2015;22(Supl. 2):9-40 - Vol. 22 Núm.Supl.2.
Grupo de trabajo sobre GPC. Elaboración de Guías de Práctica Clínica en el Sistema Nacional de Salud. Actualización del Manual Metodológico [Internet]. Madrid: Plan Nacional para el SNS del MSC. Instituto Aragonés de Ciencias de la Salud-I+CS; 2016. Disponible en: https://portal.guiasalud.es/wp-content/uploads/2019/01/manual_gpc_completo.pdf
Hemmingsen B, Lund SS, Gluud C, Vaag A, Almdal T, Hemmingsen C, Wetterslev J. Targeting intensive glycaemic control versus targeting conventional glycaemic control for type 2 diabetes mellitus. Cochrane Database Syst Rev. 2011 Jun 15;(6):CD008143. PubMed PMID: 21678374
Instrumento AGREE II. Instrumento para la evaluación de Guías de Práctica Clínica. Traducción a cargo de Guía Salud. The Agree Research Trust; 2009. En: http://www.agreetrust.org; Versión en español: https://portal.guiasalud.es/wp-content/uploads/2019/01/spanish-agree-ii.pdf
Kristiansen A, Brandt L, Alonso-Coello P, Agoritsas T, Akl EA, Conboy T, et al. Development of a novel multilayered presentation format for clinical practice guidelines. Chest. 2015;147(3):754-63. PubMed PMID: 25317597. Texto completo
MacLean S, Mulla S, Akl EA, Jankowski M, Vandvik PO, Ebrahim S, McLeod S, Bhatnagar N, Guyatt GH; American College of Chest Physicians. Patient values and preferences in decision making for antithrombotic therapy: a systematic review: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines. Chest. 2012 Feb;141(2 Suppl):e1S-23S. PubMed PMID: 22315262. Texto completo
National Collaborating Centre for Chronic Conditions. Chronic obstructive pulmonary disease. National clinical guideline on management of chronic obstructive pulmonary disease in adults in primary and secondary care. Thorax. 2004 Feb;59 Suppl 1:1-232. PubMed PMID: 15041752. Texto completo
Schünemann H, Brozek J, Guyatt G, Oxman A, editores. GRADE handbook forgrading quality of evidence and strength of recommendations [Internet]. The GRADE Working Group, 2013. Disponible en: http://gdt.guidelinedevelopment.org/central_prod/_design/client/handbook/handbook.html
Vandvik PO, Brandt L, Alonso-Coello P, et al. Creating clinical practice guidelines we can trust, use, and share: a new era is imminent. Chest. 2013;144(2):381-389. PMID 23918106. Texto completo
You JJ, Singer DE, Howard PA, Lane DA, Eckman MH, Fang MC, Hylek EM, Schulman S, Go AS, Hughes M, Spencer FA, Manning WJ, Halperin JL, Lip GY; American College of Chest Physicians. Antithrombotic therapy for atrial fibrillation: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines. Chest. 2012 Feb;141(2 Suppl):e531S-75S. PubMed PMID: 22315271. Texto completo

Autores

Pablo Alonso Coello

Médico Especialista en Medicina Familiar y Comunitaria (1)

Rafael Rotaeche del Campo

Médico Especialista en Medicina Familiar y Comunitaria (2)

		David Rigau	Médico Especialista en Farmacología Clínica (1)
		Arritxu Etxeberria Agirre	Farmacéutica de Atención Primaria (3)
		Laura Martínez	Médico Especialista en Medicina Preventiva y Salud Pública (1)

Conflicto de intereses
Los autores declaran no tener ningún conflicto de intereses.

Fisterra

Fisterra

Acceso institucional

¿Olvidó su contraseña?

La evaluación de la calidad de la evidencia y la graduación de la fuerza de las recomendaciones: el sistema GRADE

Índice de contenidos

Características del sistema GRADE

Evaluación de la evidencia

Presentación de los resultados de la evaluación de la evidencia

Formulación de las recomendaciones

Tecnologías para aplicación de GRADE

Bibliografía

Autores

Cursos relacionados

La evaluación de la calidad de la evidencia y la graduación de la fuerza de las recomendaciones: el sistema GRADE

Características del sistema GRADE

Evaluación de la evidencia

Presentación de los resultados de la evaluación de la evidencia

Formulación de las recomendaciones

Tecnologías para aplicación de GRADE

Bibliografía

Autores

Cursos relacionados

La evaluación de la calidad de la evidencia y la graduación de la fuerza de las recomendaciones: el sistema GRADE

Índice de contenidos

Características del sistema GRADE

Evaluación de la evidencia

Presentación de los resultados de la evaluación de la evidencia

Formulación de las recomendaciones

Tecnologías para aplicación de GRADE

Bibliografía

Autores