Fisterra

    La evaluación de la calidad de la evidencia y la graduación de la fuerza de las recomendaciones: el sistema GRADE

    Características del sistema GRADE


    Las guías de práctica clínica (GPC) han experimentado una enorme transformación durante las últimas décadas. El sistema para clasificar la calidad de la evidencia y graduar la fuerza de la recomendación es uno de los aspectos que más se ha evolucionado. En concreto, el sistema GRADE (Grading of Recommendations Assessment, Development and Evaluation) ha ganado una amplia adopción internacional y es utilizado por organizaciones líderes en el ámbito de la salud, como la Organización Mundial de la Salud (OMS), la Colaboración Cochrane o el Instituto Nacional de Salud y Excelencia en la Atención (NICE) (Schünemann H, 2013). En nuestro entorno, el Programa de Guías de Práctica Clínica en el Sistema Nacional de Salud (SNS) ha adoptado GRADE desde hace algunos años, como se recoge en el manual de elaboración de GPC en el Sistema Nacional de Salud (Schünemann H, 2013; Grupo de trabajo sobre GPC, 2016).

    Las diferencias más relevantes entre GRADE (http://www.gradeworkinggroup.org) y otros sistemas previos son las siguientes (Grupo de trabajo sobre GPC, 2016):

    • La evaluación de la calidad de la evidencia se centra en el análisis por separado para cada desenlace de interés, los cuales deben haber sido priorizados previamente en la fase de formulación de preguntas clínicas.
    • Se amplía el número de factores a tener en cuenta para la evaluación de la calidad de la evidencia, incluyendo, además de la evaluación del riesgo de sesgo, otros factores, como por ejemplo la consistencia de los resultados o su precisión.
    • Se separa de forma explícita la definición de la calidad de la evidencia y de la fuerza de las recomendaciones.


    El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la formulación de la pregunta y la selección de los desenlaces de interés hasta la formulación de las recomendaciones y su redacción (Grupo de trabajo sobre GPC, 2016). En este capítulo desarrollamos tanto la fase de evaluación de la calidad de la evidencia como la de formulación de recomendaciones. Es importante señalar que GRADE se utiliza tanto para la evaluación de la calidad de la evidencia en las revisiones sistemáticas (por ejemplo, en las revisiones Cochrane), como para la formulación de las recomendaciones, donde también es necesario evaluar la calidad de la evidencia.

    Respecto a la formulación de las preguntas clínicas, GRADE propone la clasificación de la importancia de los desenlaces de interés, normalmente desde el punto de vista del paciente o de aquellos afectados por las recomendaciones (por ejemplo, la sociedad). Esto es relevante, pues los desenlaces más importantes serán los que deberán tener un mayor peso a la hora de evaluar la calidad de la evidencia, así como a la hora de formular las recomendaciones.

    El sistema GRADE, tal y como se describe en capítulos previos, clasifica la importancia de los desenlaces en tres categorías, utilizando una escala de 1 a 9.

    • 7-9: desenlace clave (o crítico) para la toma de decisiones.
    • 4-6: desenlace importante pero no clave para la toma de decisiones.
    • 1-3: desenlace no importante; estos desenlaces no juegan un papel relevante en la formulación de las recomendaciones y no se incluyen habitualmente en la toma de decisiones, ni en la síntesis de la evidencia.

    Por ejemplo, a la hora de clasificar los desenlaces para la evaluación de la eficacia de los bisfosfonatos en mujeres con un riesgo alto de fractura, desenlaces como la fractura de cadera, la fractura vertebral clínica y la calidad de vida serían claves, mientras la fractura vertebral radiológica importante; y como no importantes, la densidad mineral ósea y los marcadores óseos.

    GRADE establece también que, en el contexto de una GPC, las preguntas clínicas deben estar claramente definidas no solo en los componentes en formato PICO (Paciente, Intervención, Comparación y Desenlace o Outcome), sino también en lo que se refiere al entorno (p. ej. ambulatorio y/o hospitalario) y a la perspectiva desde la que se abordan (individual o poblacional) (Alonso-Coello P, 2018; Alonso-Coello P, 2018b). La perspectiva de las guías de práctica clínica del Programa de Guías de Práctica Clínica en el Sistema Nacional de Salud (SNS), por ejemplo, es poblacional. Otras guías, como muchas de las realizadas por sociedades científicas, a menudo no incluyen esta perspectiva y se centran en aspectos relacionados con una perspectiva del paciente individual.

    En la perspectiva poblacional, las recomendaciones en las guías de práctica clínica buscan optimizar la salud general de la población, evaluando tanto los beneficios y riesgos generales como la sostenibilidad de la intervención. Las decisiones incluyen un análisis de costo-efectividad enfocado en el uso adecuado de los recursos del sistema de salud, considerando el impacto en la equidad y la cobertura para todos los sectores de la sociedad.

    Por otro lado, la perspectiva individual se centra en cómo cada intervención afecta directamente a la persona y su contexto único. En este caso, las recomendaciones consideran los beneficios, riesgos y costos específicos para el paciente y su familia, como los costos de bolsillo, la disponibilidad y la adaptabilidad de la intervención a sus necesidades y preferencias.

    El sistema GRADE propone definiciones (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013) para calidad de la evidencia y fuerza de las recomendaciones, tanto en el contexto de una revisión sistemática como de una guía de práctica clínica. Inicialmente, en el caso de las guías, definió estos conceptos de esta manera:

    • Calidad de la evidencia: indica hasta qué punto nuestra confianza en la estimación de un efecto es adecuada para apoyar una recomendación.
    • Fuerza de la recomendación: indica hasta qué punto podemos confiar en si poner en práctica la recomendación conllevará más consecuencias deseables que indeseables.
    No obstante, más recientemente, GRADE ha introducido el concepto de umbral, señalando que la certeza es el grado de confianza que tenemos en que el verdadero efecto esté dentro de un umbral o rango (Hultcrantz M, 2017). Estos umbrales se relacionan con diferentes magnitudes de efecto, como trivial, pequeño, moderado o grande. La calidad de la evidencia se reduce si los resultados cruzan múltiples umbrales, afectando la confiabilidad de la estimación del efecto. Imaginemos un tratamiento para reducir el riesgo de un accidente cerebrovascular (ACV). Supongamos que el beneficio mínimo considerado para recomendar el tratamiento es una reducción absoluta del riesgo de ACV del 0,5%. Si los estudios muestran una reducción del riesgo entre el 0,6% y el 2%, podemos tener calidad alta de que el efecto verdadero está por encima de ese umbral (0,5%), lo que nos llevaría a recomendar el tratamiento.

    El sistema GRADE puede utilizarse para dar respuesta a distintos tipos de preguntas: sobre tratamiento, diagnóstico, pronóstico, etc. En este capítulo nos centraremos en las preguntas sobre tratamiento, ya que es la parte más utilizada y la más desarrollada. En cualquier caso, la mayoría de los conceptos que se abordan pueden ser aplicados a otro tipo de preguntas, con algunas matizaciones.

    Para profundizar sobre GRADE y su utilización para dar respuesta a otro tipo de preguntas, puede consultarse el manual de elaboración de GPC en el sistema Nacional de Salud o el manual de GRADE (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013). Este manual está siendo actualizado y ahora se denomina GRADE Book (https://book.gradepro.org/). El contenido del GRADE Book también es accesible a través de la app GRADE GPT, una aplicación de vanguardia impulsada por un modelo de lenguaje grande basado en ChatGPT, entrenado específicamente con el contenido del GRADE Book. Actualmente, esta app se encuentra en su fase beta y está en continuo desarrollo y pruebas. A medida que la app evolucione, su objetivo es que proporcione a los usuarios una forma intuitiva e interactiva de interacción con el marco GRADE, ofreciendo acceso instantáneo a orientaciones y recursos directamente del GRADE Book.

    Puntos clave
    • El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la formulación de la pregunta y la selección de los desenlaces de interés hasta la formulación de las recomendaciones y su redacción.
    • La calidad de la evidencia refleja la confianza que se puede depositar en los resultados de la literatura científica para apoyar una recomendación en particular.
    • La evaluación de la calidad de la evidencia se realiza para cada desenlace de interés importante para los pacientes. Asimismo, se realiza una evaluación global de la calidad para todos los desenlaces, con el fin de informar el proceso de decisión entre la evidencia y la recomendación.
    • La fuerza de la recomendación indica hasta qué punto podemos confiar si poner en práctica la recomendación conllevará más consecuencias deseables que indeseables.
    • Para estructurar la información y favorecer la transparencia en el paso de la evidencia a las recomendaciones, el grupo GRADE ha elaborado los marcos de la evidencia a la decisión.

    Evaluación de la evidencia


    La certeza de la evidencia en las GPC, también denominada calidad o confianza, refleja el grado de confianza que tenemos en que la estimación de un efecto es adecuada para apoyar una recomendación y se evalúa para cada uno de los desenlaces de interés (idealmente los claves y, en ausencia de éstos, los importantes).

    Aunque la calidad de la evidencia es un espectro continuo, GRADE propone una clasificación en cuatro categorías (Balshem H, 2011):

    Tabla 1. Clasificación de la calidad de la evidencia.
    Alta Confianza alta en que el estimador del efecto disponible en la literatura científica se encuentra muy cercano al efecto real.
    Moderada Es probable que el estimador del efecto se encuentre cercano al efecto real, aunque podrían existir diferencias sustanciales.
    Baja El estimador del efecto puede ser sustancialmente diferente al efecto real.
    Muy baja Es muy probable que el estimador del efecto sea sustancialmente diferente al efecto real.


    En el sistema GRADE, la calidad de la evidencia para un determinado desenlace arranca con el diseño de los estudios: inicialmente considera a los ensayos clínicos aleatorizados (ECA) como fuente de calidad alta, y a los estudios observacionales sin limitaciones importantes como fuente de calidad baja. En las revisiones sistemáticas, la evaluación de los factores que afectan a la calidad de la evidencia debe realizarse sobre el diseño y las características de los estudios que incluye la revisión (ya sea un conjunto de estudios o de un único estudio). Las series de casos son estudios observacionales no controlados en los que la calidad de la evidencia es de entrada baja o muy baja.

    La opinión de experto no se considera un tipo de evidencia científica al que aplicar los factores modificadores de la calidad de la evidencia, sino una ayuda clave para la interpretación de los resultados de la evidencia. No obstante, cuando la evidencia de investigación es limitada, los expertos pueden aportar “evidencia experta” (expert evidence), basada en datos y observaciones sistemáticamente recogidas en su área de especialidad (Schünemann HJ, 2019). Es importante diferenciar esta evidencia proveniente de expertos de la opinión experta: mientras que la evidencia experta proporciona información objetiva y estructurada, la opinión experta incluye juicios subjetivos sobre la evidencia. La evidencia experta debe ser recopilada de forma sistemática y estar disponible para los miembros del panel antes de las reuniones, garantizando que las discusiones estén bien fundamentadas y no se basen únicamente en interpretaciones personales. No obstante, la calidad de este tipo de evidencia suele ser muy baja.

    A partir de este punto inicial (calidad alta para ensayos clínicos y baja para estudios observacionales), se aplican los siguientes factores para bajar o, en algunos casos aumentar, la calidad de la evidencia (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013) (tabla 2):

    Tabla 2. Factores que modifican la calidad de la evidencia.
    Factores que pueden disminuir la calidad de la evidencia
    Limitaciones en el diseño o ejecución de los estudios ↓ 1 o 2 grados
    Inconsistencia entre los resultados de diferentes estudios ↓ 1 o 2 grados
    Ausencia de evidencia directa ↓ 1 o 2 grados
    Imprecisión de los estimadores del efecto ↓ 1 o 2 grados
    Sesgo de publicación ↓ 1 grado
    Factores que permiten aumentar la calidad de la evidencia
    Magnitud del efecto importante ↑ 1 o 2 grados
    Gradiente dosis-respuesta relevante ↑ 1 grado
    Impacto de las variables de confusión plausibles ↑ 1 grado


    No obstante, recientemente GRADE ha integrado la posibilidad de utilizar el instrumento ROBINS-I para evaluar el riesgo de sesgo en estudios observacionales, permitiendo que algunos estudios observacionales rigurosos puedan comenzar con certeza alta en la evaluación de evidencia (Schünemann HJ, 2019). Este cambio reconoce que, cuando éstos estudios están bien diseñados y controlados, pueden ofrecer evidencia de mayor solidez, permitiendo ajustar con mayor precisión la certeza de la evidencia basada en la calidad metodológica específica del estudio.


    Factores que pueden bajar la calidad de la evidencia
    (Balshem H, 2011; Grupo de trabajo sobre GPC, 2016):

    Al valorar la calidad de la evidencia para un desenlace, tanto para los ECA, que de antemano se consideran como calidad alta para evaluar el efecto de diferentes intervenciones, como para los estudios observacionales, que de antemano se consideran como calidad baja, existen factores que pueden disminuir la misma:

    • Limitaciones en el diseño o la ejecución de los estudios (riesgo de sesgo).

    En los ECA se consideran: las limitaciones en la secuencia de aleatorización, limitaciones en el enmascaramiento de investigadores, personal implicado en el estudio o participantes en el estudio, pérdidas de seguimiento importantes y la ausencia de análisis por intención de tratar, descripción selectiva de los resultados u otros sesgos (ensayos interrumpidos prematuramente por beneficio, uso de medidas de resultado no validadas, etc.). En los estudios observacionales se consideran: limitaciones en los criterios de inclusión de los pacientes, limitaciones en la medida de los resultados (como el sesgo de memoria), el control inadecuado de los factores de confusión o el seguimiento incompleto. A la hora de valorar globalmente el riesgo de sesgo de un conjunto de estudios con diferentes limitaciones se debe realizar un juicio global, teniendo en cuenta la contribución de los estudios a la estimación del efecto; los estudios de mayor tamaño contribuirán más y los que tengan un menor riesgo de sesgo tendrán un mayor peso.

    • Inconsistencia entre los resultados provenientes de diferentes estudios.

    La inconsistencia se refiere a la variabilidad o heterogeneidad de los resultados entre los estudios disponibles para un determinado desenlace. Se deben explorar las posibles causas de la variabilidad, principalmente las diferencias en la población, la intervención, los desenlaces o el riesgo de sesgo de los estudios. En los metanálisis, se aconseja revisar de visu la variabilidad, prestando atención a diferencias entre los estimadores de los efectos, así como al grado de solapamiento de los intervalos de confianza. La existencia de heterogeneidad también se puede medir mediante una prueba de contraste de hipótesis (una p <0,10 nos sugiere que los resultados difieren entre sí más de lo que cabría esperar por el mero azar) o mediante el estadístico I2 (adquiere valores entre 0 y 100, mide la magnitud de la heterogeneidad, cuanto mayor sea su valor mayor heterogeneidad). En ocasiones, la diferencia en la variabilidad de los resultados puede explicarse por diferencias entre distintos subgrupos; en estos casos puede ser más adecuado realizar recomendaciones diferenciadas para los subgrupos en lugar de bajar la calidad de la evidencia por inconsistencia.

    • Ausencia de evidencia directa.

    La confianza en un estimador se reduce si se detecta que existen diferencias importantes entre la población donde se aplicará la GPC y la incluida en los estudios (por ejemplo, medio hospitalario vs. atención primaria, o pacientes de alto riesgo vs. bajo riesgo), entre la intervención que se pretende evaluar y la que se practicó en los estudios disponibles (por ejemplo, un programa de deshabituación tabáquica realizada por un equipo multidisciplinar vs. intervención de deshabituación en la consulta). También se debe considerar disminuir la calidad de la evidencia ante la ausencia de comparaciones directas entre las intervenciones de interés o cuando no existen desenlaces claves y la recomendación se base sólo en desenlaces que no son clave.

    • Imprecisión.

    Para evaluar la precisión al estimar el efecto de una intervención para un desenlace, se debe considerar su intervalo de confianza y el umbral que determina la diferencia clínicamente relevante para los pacientes. Si una decisión clínica o recomendación pudiera ser diferente dependiendo de si se tiene en cuenta un extremo u otro del intervalo de confianza como el efecto "real" de una intervención, la confianza (y, por tanto, la calidad) en la estimación del efecto deberían disminuir. Asimismo, incluso con un intervalo de confianza preciso según estos criterios, si el número de sucesos o el número de sujetos evaluados en los diferentes estudios son escasos, se debe considerar la necesidad de disminuir la calidad.

    En las GPC se valora un conjunto de desenlaces de interés y la decisión de bajar la calidad de la evidencia por imprecisión depende del umbral que determina la diferencia mínima relevante para los pacientes y del balance entre efectos deseables e indeseables de la intervención.

    Por ejemplo, si un fármaco anticoagulante para la prevención de episodios vasculares (ictus isquémicos) reduce el riesgo en un 5% (intervalo de confianza del 95% [IC: 95%] del 9 al 1%) en términos absolutos, las repercusiones de esta imprecisión deberían valorarse teniendo en cuenta también los efectos indeseables. Si el fármaco se asociara a un incremento absoluto de las hemorragias graves extracraneales del 4%, podríamos no realizar la misma recomendación en los dos extremos del intervalo de confianza para la reducción de ictus: en el supuesto de una reducción del riesgo de ictus del 1%, los riesgos podrían considerarse superiores a los beneficios, mientras que en el supuesto del 9%, los beneficios podrían compensar los riesgos. En este caso, dada la imprecisión, deberíamos bajar la calidad de la evidencia por imprecisión para el desenlace de ictus.

    • Sesgo de publicación.

    La calidad puede disminuir si se tiene la duda razonable de que no se hayan incluido todos los estudios realizados. La situación más frecuente se produce cuando, en el contexto de una revisión sistemática, se incluyen selectivamente los estudios que han mostrado resultados “positivos” (favorables a la intervención) y se omiten algunos estudios con resultados “negativos”, sobrestimando en su conjunto el efecto de la intervención. Existen pruebas estadísticas y gráficas que pueden orientar a la existencia de un sesgo de publicación, como la revisión de los gráficos de embudo (funnel plots). Esta situación puede llegar a ser más frecuente y difícil de detectar en los estudios observacionales.


    Factores que pueden aumentar la calidad de la evidencia:

    Las situaciones que pueden llevar a incrementar la confianza con los resultados de los estudios son poco comunes y se suelen aplicar sobre todo a estudios observacionales que evalúan el impacto de una intervención. Estos aspectos se deberían evaluar después de constatar que no se encuentra presente ninguna razón adicional que disminuya la calidad de la evidencia debido a un potencial riesgo de sesgo u otros de los factores que se han citado previamente (por ejemplo, imprecisión).

    • Fuerza de la asociación.

    Cuando el efecto observado muestra una asociación fuerte (riesgo relativo u odds ratio >2 ó <0,5) o muy fuerte (riesgo relativo u odds ratio >5 ó <0,2), es más improbable que este efecto sea debido a una sobrestimación debido a los factores de confusión y más probable que el efecto observado sea más cercano al efecto real. En estos casos la calidad puede subir en 1 ó 2 grados. Por ejemplo, una revisión sistemática de estudios observacionales sobre la posición de los lactantes en la cuna a la hora de dormir para evitar el síndrome de muerte súbita mostró una reducción importante del riesgo para la posición boca arriba con un OR de 4,1 (IC: 95% 3,1 a 5,5).

    • Gradiente dosis-respuesta.

    La existencia de un gradiente dosis-respuesta es un factor reconocido para establecer con mayor certidumbre una relación causa-efecto. En estas circunstancias este gradiente puede aumentar nuestra confianza en los resultados.

    • Impacto de las variables de confusión plausibles.

    En los estudios observacionales rigurosos se controlan los factores pronósticos conocidos asociados con el desenlace de interés. No siempre es posible controlar todas las variables de confusión, que pueden reducir o reforzar el impacto de la intervención. Por ejemplo, varios estudios observacionales, en los que el análisis no se ha ajustado por el número de parejas sexuales, han mostrado que el uso del preservativo por parte de varones que tienen sexo con varones reduce el riesgo de infección por VIH comparado con no usarlo. Otros estudios han mostrado que los usuarios de preservativos tienen un mayor número de parejas sexuales que los varones que no los usan. De haberse ajustado por este factor, es posible que la asociación entre uso de preservativo y prevención de infección por VIH fuera mayor (Grupo de trabajo sobre GPC, 2016).

    Estos factores que pueden aumentar o disminuir la calidad de la evidencia no deben tomarse como elementos individuales que puedan sumarse o restarse para obtener una clasificación de la calidad, sino que deben ser considerados en su conjunto. Por ejemplo, a la hora de valorar cuáles son las cifras de control glucémico más adecuadas en pacientes con diabetes tipo 2 (control intensivo vs. habitual), nos encontramos con que, para el desenlace de mortalidad cardiovascular, la calidad de la evidencia se basa en 18 ensayos clínicos sin limitaciones importantes, pero con un intervalo de confianza impreciso (ver tabla 3) y cierta heterogeneidad en los resultados (I2= 37% p= 0,09). Teniendo en cuenta ambos factores, bajamos la calidad de alta a moderada, pero no a baja.

    Una vez evaluada la calidad de la evidencia científica para cada desenlace, se debe realizar una clasificación global de la calidad de la evidencia, lo que implica realizar un juicio general de la calidad entre los desenlaces clave para una determinada pregunta clínica. En este proceso, se deberían considerar priorizar los desenlaces clave. En el caso de los fármacos para la osteoporosis, se consideraría, por ejemplo, la calidad de la evidencia para las fracturas, pero no la de la densidad mineral ósea.

    Presentación de los resultados de la evaluación de la evidencia


    Los perfiles de evidencia son un método para presentar la evidencia disponible y los juicios sobre su calidad para una revisión sistemática. Puede presentarse en forma de perfiles de (Evidence profile) o en forma más resumida (Summary of Findings table). Cada pregunta clínica deber acompañarse además de un resumen redactado de forma narrativa, en el que se describen brevemente los resultados de la búsqueda, la selección de estudios, sus características y resultados de los estudios para los distintos desenlaces.

    La tabla 3 muestra el perfil de la evidencia para la pregunta respecto al uso de heparina frente a no heparina para la profilaxis de la trombosis venosa en pacientes críticos (Schünemann HJ, 2018; y tabla disponible en GRADEpro).

    Tabla 3. Heparina frente a no heparina para la profilaxis de la trombosis venosa en pacientes críticamente enfermos.
    Nº de estudios Diseño Riesgo
    de sesgo
    Inconsistencia Evidencia
    indirecta
    Imprecisión Otras consideraciones Heparina Sin heparina Relativo
    (IC 95%)
    Absoluto (IC 95%) Certeza
    Mortalidad (evaluada con: mortalidad por todas las causas)
    21,2 Ensayos aleatorios No serio No seria No seriaa Seriaa Ninguna 283/1081 (26,2%) 313/1069 (29,3%) RR 0,89 (0,78 a 1,02) 32 menos por 1000 (de 64 menos a 6 más)
    Moderada
    Embolismo pulmonar
    31,2,3 Ensayos aleatorios Serioc No seria No seria No seriad Ninguna 15/1486 (1%) 28/1463 (1,9%) RR 0,53 (0,28 a 0,98) 9 menos por 1000 (de 14 menos a 0 menos)
    Moderada
    Trombosis venosa profunda proximal
    11 Ensayos aleatorios No serio No seria No seria Seriab Ninguna 49/976 (5%) 56/959 (5,8%) RR 0,86 (0,59 a 1,25) 8 menos por 1000 (de 24 menos a 15 más)
    Moderada
    Trombosis venosa profunda distal
    11 Ensayos aleatorios No serio No seria No seria Seriab Ninguna 49/976 (5%) 56/959 (5,8%) RR 0,86 (0,59 a 1,25) 8 menos por 1000 (de 24 menos a 15 más)
    Moderada
    Sangrado mayor
    21,2 Ensayos aleatorios No serio No seria No seria Seriab Ninguna 44/1085 (4,1%) 53/1073 (4,9%) RR 1,01 (0,40 a 2,54) 0 menos por 1000 (de 30 menos a 76 más)
    Moderada
    Trombocitopenia inducida por heparina
    12 Ensayos aleatorios Serioc No seria No seria Seria Ninguna 10/109 (9,2%) 7/114 (6,1%) RR 1,49 (0,59 a 3,78) 30 más por 1000 (de 25 menos a 171 más)
    Baja
    a. Shorr 2009; se realizó en pacientes con sepsis, lo que se refleja en la alta tasa de mortalidad y alto peso en el metanálisis.
    b. El intervalo de confianza incluye beneficios considerables, así como ningún beneficio, cruzando la línea de no efecto.
    c. Riesgo de sesgo serio debido a generación de secuencia aleatoria poco clara, ocultación de la asignación y enmascaramiento.
    d. Intervalo de confianza amplio, pero imprecisión no es seria, ya que el intervalo de confianza en torno al efecto absoluto, basado en el riesgo basal de estudios observacionales, es estrecho.

    Referencias
    1. Shorr AF, Williams M D. Venous thromboembolism in critically ill patients. Observations from a randomized trial in sepsis. Thromb Haemost. 2009;101(1):139-44.
    2. Fraisse F, Holzapfel, L, Coulaud JM, et al. Nadroparin in the prevention of deep vein thrombosis in acute decompensated COPD. Am J Respir Crit Care Med. 2000;161(4 Pt 1):1109-14.
    3. Kapoor M, Kupfer YY, Tessler S. Subcutaneous heparin prophylaxis significantly reduces the incidence of venous thromboembolic events in the critically ill. Crit Care Med. 1999;27(12):A69.


    En este ejemplo, considerando todos los desenlaces, la calidad global de la evidencia sería moderada, observándose una probable disminución de la mortalidad, embolismos pulmonares y trombosis, así como un posible aumento de la trombocitopenia inducida por heparina (Schünemann HJ, 2018).

    • Efectos deseables
    En términos absolutos y relativos, la profilaxis farmacológica probablemente reduce la mortalidad, la embolia pulmonar (EP) y la trombosis venosa profunda (TVP). El RR de mortalidad fue de 0,89 (IC del 95%, 0,78-1,02) y la reducción absoluta del riesgo (RAR) fue de 32 menos por cada 1000 pacientes (IC del 95%, de 64 menos a 6 más por cada 1000). El RR de la EP fue de 0,53 (IC del 95%, 0,28-0,98) y la RAR fue de 2 menos por cada 1000 (IC del 95%, de 0 a 3 menos por cada 1000). El RR de TVP fue de 0,86 (IC del 95%, 0,59-1,25) y la RAR fue de 1 menos por cada 1000 (IC del 95%, de 8 menos a 5 más por cada 1000) para la TVP distal, con un riesgo basal del 2%.
    • Efectos indeseables
    El sangrado mayor probablemente no se incrementa con la heparina no fraccionada o la heparina de bajo peso molecular (RR, 1,01; IC del 95%, 0,40-2,54), y el aumento absoluto del riesgo (AAR) fue de 7 más por cada 1000 pacientes (IC del 95%, de 30 menos a 76 más por cada 1000). Aunque ningún estudio informó sobre la trombocitopenia inducida por heparina, un estudio informó un mayor riesgo de trombocitopenia con el uso de heparina, con un RR de 1,49 (IC del 95%, 0,59-3,78) y un AAR de 30 más por cada 1000 (IC del 95%, de 25 menos a 171 más por cada 1000).

    Formulación de las recomendaciones


    Como se ha señalado anteriormente, la fuerza de una recomendación refleja el grado de certeza de que los efectos deseables de una intervención recomendada superan sus efectos no deseables, o viceversa, en la población de interés. El sistema GRADE considera dos categorías en relación a la fuerza de las recomendaciones (Grupo de trabajo sobre GPC, 2016):

    • Recomendación fuerte: se refiere a una recomendación con confianza en que las consecuencias deseables de la intervención superan a las indeseables (recomendación fuerte a favor), o en que las consecuencias indeseables de la intervención superan las deseables (recomendación fuerte en contra).
    • Recomendación débil: se refiere a una recomendación según la cual las consecuencias deseables probablemente superan las consecuencias no deseables (recomendación débil a favor de una intervención) o las consecuencias no deseables probablemente son mayores que las deseables (recomendación débil en contra de una intervención), pero con una incertidumbre apreciable.

    En la tabla 4 se resumen las implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas (pacientes, clínicos y gestores).

    Tabla 4. Implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas (pacientes, clínicos y gestores).
    Recomendación fuerte Recomendación débil
    Para pacientes La mayoría de las personas estarían de acuerdo con la acción recomendada y sólo una pequeña proporción no lo estaría.

    Las herramientas formales para la toma de decisiones probablemente no serán necesarias para ayudar a las personas a tomar decisiones coherentes con sus valores y preferencias.
    La mayoría de las personas en esta situación estarían de acuerdo con la acción sugerida, pero muchos no lo estarían.

    Las herramientas para la toma de decisiones pueden ser útiles como ayuda para la toma de decisiones coherentes con los valores y preferencias de cada persona.
    Para profesionales sanitarios La mayoría de las personas debería recibir la intervención recomendada. Reconoce que diferentes opciones serán apropiadas para cada paciente individual y que se deberá alentar a que cada paciente alcance una decisión de manejo coherente con sus valores y preferencias.

    Las herramientas para la toma de decisiones pueden ser útiles como ayuda para la toma de decisiones coherentes con los valores y preferencias de cada persona.
    Para decisores/gestores La recomendación puede ser adaptada a la política sanitaria en la mayoría de las situaciones.

    La adherencia a esta recomendación incluida en la guía, puede ser utilizado como un criterio de calidad o indicador de rendimiento.
    El desarrollo de políticas sanitarias requerirá considerables debates y la participación de los diversos grupos de interés.

    La documentación adecuada del proceso de toma de decisiones para una recomendación débil podría utilizarse como una medida de calidad, en particular, si está basada en evidencia de alta calidad.


    De la evidencia a la recomendación: factores a tener en cuenta en la graduación de las recomendaciones
    (Alonso-Coello P, 2018; Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):

    El paso de la evidencia a la recomendación requiere tener en cuenta otros aspectos, además de la calidad de la evidencia sobre el efecto de las intervenciones. Estos aspectos o “juicios” deben reflejarse de forma explícita y transparente. Para estructurar la información y favorecer la transparencia en el paso de la evidencia a las recomendaciones o decisiones, el grupo GRADE ha elaborado una serie de marcos para la formulación de las recomendaciones y otras decisiones denominados marcos de la evidencia a la decisión (Alonso-Coello P, 2018; Alonso-Coello P, 2018 [2]). Para cada una de las preguntas, se debe presentar claramente la pregunta, los subgrupos de población a los que va dirigido, el entorno (ámbito al cual va dirigida la recomendación) y la perspectiva (por ejemplo, poblacional o paciente individual), y los siguientes criterios y consideraciones:

    1. Prioridad del problema: ¿el problema constituye una prioridad? Cuanto más severo es un problema, más probable es que sea una prioridad y que deba formularse una recomendación fuerte.
    2. Efectos deseables e indeseables: ¿cuál es la magnitud de los efectos deseables (beneficios)?¿Cuál es la magnitud de los efectos indeseables (riesgos y carga de tratamiento)? Cuanto más sustanciales sean los efectos deseables y menos los indeseables, es más probable que deba recomendarse una intervención y, por tanto, mayor probabilidad de formular una recomendación fuerte.
    3. Calidad de la evidencia: ¿cuál es la calidad global de la evidencia? (alta, moderada, baja, muy baja, no hay estudios incluidos). Cuanto mayor sea la calidad de la evidencia, mayor probabilidad de realizar una recomendación fuerte.
    4. Importancia de los desenlaces para los pacientes. ¿Existe incertidumbre o variabilidad en cómo los pacientes valoran los desenlaces de interés? Cuanto mayor sea la incertidumbre, menor es la probabilidad de formular una recomendación fuerte. En el caso de la diabetes tipo 2 y el control estricto de la glucemia frente al convencional, existe incertidumbre acerca de cómo los pacientes valorarán la carga de la medicación debida a un control más estricto (posible insulinización, más fármacos orales, más analíticas y consultas), el mayor riesgo de hipoglucemia frente a ligeros beneficios en las complicaciones para la diabetes.
    5. Teniendo en cuenta la magnitud de los beneficios y riesgos y la incertidumbre respecto a cómo los pacientes valoran los distintos desenlaces, el balance entre los efectos deseados e indeseados, ¿favorece a la intervención?
    6. Recursos/Costes. ¿Son altos los costes que se requieren para poner en marcha la intervención?¿Es alta la incertidumbre en torno a los recursos necesarios? Cuanto mayor es el coste, menos probable es que una intervención se recomiende. Cuando el uso de recursos se considera fundamental para una decisión acerca de una recomendación, es aconsejable su evaluación económica mediante métodos formales o la búsqueda de evidencia acerca de su relación entre costes y beneficios.
    7. Teniendo en cuenta el balance entre efectos deseables e indeseables, es decir, el beneficio neto (criterios 2 a 5) y el coste, la relación coste-beneficio, ¿favorece la intervención?
    8. Equidad, aceptabilidad y factibilidad. ¿Cuál es el impacto sobre la equidad?¿Es aceptable la intervención para los grupos de interés clave?¿Es factible implementar la intervención?

    Veamos algunos ejemplos:

    • El tratamiento con corticoides sistémicos en las exacerbaciones en la enfermedad pulmonar obstructiva crónica (EPOC) presenta un balance beneficio-riesgo favorable (reduce el riesgo de fracaso terapéutico, la necesidad de tratamiento adicional, la estancia hospitalaria y aumenta la capacidad funcional, aunque presenta eventos adversos leves). La calidad de la evidencia es moderada. No hay razones para pensar que la mayoría de los pacientes, una vez informados, no aceptarían el tratamiento. Y finalmente, el coste de los corticoides es muy bajo. En conjunto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la estimación del efecto) y no hay otros factores adicionales que nos hagan disminuir nuestra confianza en que el llevar a cabo esta recomendación conllevaría más beneficios que daños. No conlleva problemas de equidad ni de factibilidad. Por tanto, el grupo elaborador de una guía probablemente realizaría una recomendación fuerte a favor del uso de corticoides en las exacerbaciones de la EPOC (National Collaborating Centre for Chronic Conditions, 2004).
    • La prevención del ictus en pacientes con fibrilación auricular de riesgo intermedio (CHADS2= 1) con anticoagulantes orales, bien antagonistas de la vitamina K (warfarina y acenocumarol) o nuevos anticoagulantes orales (NACO) en comparación con aspirina. Warfarina muestra un balance beneficio riesgo favorable (9 ictus menos y 3 sangrados extracraneales no fatales más por cada 1.000 pacientes tratados), siendo la calidad de la evidencia moderada (You JJ, 2012). No se dispone de datos comparativos entre aspirina y nuevos anticoagulantes (aunque sí entre warfarina y NACO, la evidencia para los NACO sería, en todo caso, indirecta). En cuanto a los valores y preferencias, los pacientes asignan, en términos generales, tres veces más importancia a evitar un ictus que a sufrir un sangrado extracraneal grave. No obstante, estas estimaciones de los valores y preferencias son muy variables (MacLean S, 2012). En cuanto al coste, aspirina y warfarina tienen bajo coste. En el caso de los NACO, el coste es mucho más elevado y en nuestro medio su impacto en presupuesto es muy relevante. En conjunto, por tanto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la estimación del efecto) y el coste es bajo para warfarina. El balance entre beneficios y riesgo favorece a warfarina, aunque, debido al riesgo basal relativamente bajo de estos pacientes, es modesto. Los valores y preferencias de los pacientes son variables. Por tanto, hay algunos factores que disminuyen nuestra confianza en que el llevar a cabo esta recomendación conllevaría más beneficios que daños en la mayoría de pacientes. Por tanto, el grupo elaborador de una guía probablemente formularía una recomendación débil a favor de los anticoagulantes antagonistas de la vitamina K, comparados con la aspirina, en esta población (You JJ, 2012). No recomendaría los NACO en esta población, debido sobre todo a la ausencia de evidencia directa y a su alto coste.

    Respecto a la redacción de recomendaciones, GRADE propone la adopción de una terminología específica para reflejar la fuerza, utilizando para ello expresiones como “se recomienda/no se recomienda” o “se debe/no se debe” cuando se habla de recomendaciones fuertes, y “se sugiere/no se sugiere” o “se podría” para recomendaciones débiles.

    Por ejemplo, una recomendación acerca del control glucémico es débil y queda redactada de la siguiente forma (Ezkurra P, 2015):
    “En general se sugieren unas cifras objetivo orientativas menores del 7% de HbA1c. No obstante, el objetivo debería estar basado en la evaluación individualizada teniendo en cuenta el riesgo de complicaciones de la diabetes, comorbilidad, esperanza de vida y preferencias de los pacientes.

    Se sugiere plantear objetivos menos estrictos, entre 7,5%-8%, para los ancianos, pacientes con multimorbilidad o para iniciar la insulinización o la triple terapia. Se puede considerar un tratamiento intensivo con el objeto de reducir las cifras de HbA1c por debajo del 6,5% en pacientes jóvenes o recién diagnosticados sin comorbilidad. Se sugiere implicar a las personas con diabetes tipo 2 en las decisiones sobre su nivel objetivo de HbA1c.”

    En el Instrumento AGREE II (Instrumento AGREE II, 2009) los criterios más relevantes relacionados con la formulación de recomendaciones se recogen en el dominio “rigor en la elaboración”:

    1. Los métodos para formular las recomendaciones, ¿están claramente descritos?
    2. Al formular las recomendaciones, ¿han sido considerados los beneficios de salud, efectos secundarios y riesgos?
    3. ¿Hay una relación clara entre cada una de las recomendaciones y las evidencias en las que se basan?
    El sistema GRADE se adhiere estrechamente a los criterios del dominio de “rigor en la elaboración” del Instrumento AGREE II, proporcionando un marco estructurado y transparente para formular recomendaciones en guías clínicas. GRADE facilita que las guías cumplan estos criterios al ofrecer métodos claramente definidos para evaluar y sintetizar la evidencia, lo que permite una descripción detallada y reproducible del proceso de formulación de recomendaciones.

    Tecnologías para aplicación de GRADE


    El sistema GRADE cuenta con un software para la aplicación del mismo denominado GRADEpro GDT. El software es una propuesta para sintetizar y presentar información para la toma de decisiones en el campo de la salud. GRADEpro GDT permite la elaboración de tablas de resumen de los hallazgos tanto para revisiones sistemáticas como para las evaluaciones de tecnologías, facilitando el desarrollo de GPC y otro tipo de decisiones. Recientemente, ha incorporado una base de datos que incluye un repositorio de este tipo de formatos para su adopción, adaptación o uso en nuevas GPC.

    Para ello se desarrollaron formatos óptimos de presentación y se actualizó el software original de GRADEpro (Kristiansen A, 2015). Sus resultados ya se están implementando en algunas de las instituciones más influyentes en la elaboración de revisiones sistemáticas, la formulación de recomendaciones y toma de decisiones sanitarias como la Colaboración Cochrane, la OMS o la propia NICE. En nuestro entorno ya han sido incorporados en la actualización del manual de elaboración de GPC en el Sistema Nacional de Salud de 2016 (Grupo de trabajo sobre GPC, 2016). Entre los formatos de presentación desarrollados están las tablas interactivas de resumen de los hallazgos (https://isof.epistemonikos.org/#/), las herramientas de apoyo a las decisiones compartidas ligadas a las GPC (Agoritsas T, 2015) o el marco de la evidencia a las decisiones (Alonso Coello P, 2018).

    Existen otros softwares para la aplicación de GRADE. Entre ellos destaca la iniciativa MAGIC (Vandvik, 2013), la cual dispone de MAGIC app, una aplicación para desarrollar GPC electrónicas, síntesis de información y herramientas de apoyo a la toma de decisiones ligada a las GPC. Es un software similar a GRADEpro que destaca por su desarrollo de los aspectos de publicación, simultáneos a los de elaboración.

    Bibliografía

    • Agoritsas T, Heen AF, Brandt L, Alonso-Coello P, Kristiansen A, Akl EA, et al. Decision aids that really promote shared decision making: the pace quickens. BMJ 2015;350:g7624. PubMed PMID: 25670178
    • Alonso-Coello P, Schünemann HJ, Moberg J, et al. Marcos GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones sanitarias bien informadas. 1: Guías de práctica clínica. Gac Sanit. 2018;32(2):166.e1-166.e10. PubMed. PMID: 28822594
    • Alonso-Coello P, Oxman AD, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, et al.; GRADE Working Group. Marcos GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones sanitarias bien informadas. 2: Guías de práctica clínica. Gac Sanit. 2018;32(2):167.e1-167.e10. PubMed. PMID: 28917831
    • Balshem H, Helfand M, Schünemann HJ, Oxman AD, Kunz R, Brozek J, et al. GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol. 2011;64(4):401-6. PubMed PubMed. PMID: 21208779
    • Ezkurra P, Etxeberria A, Idarreta I, Balagué L, Moreno M, Daza P, et al. Protocolo sobre manejo de la diabetes mellitus tipo 2. FMC. 2015;22(Supl. 2):9-40 - Vol. 22 Núm.Supl.2.
    • Grupo de trabajo sobre GPC. Elaboración de Guías de Práctica Clínica en el Sistema Nacional de Salud. Actualización del Manual Metodológico [Internet]. Madrid: Plan Nacional para el SNS del MSC. Instituto Aragonés de Ciencias de la Salud-I+CS; 2016. https://portal.guiasalud.es/wp-content/uploads/2019/01/manual_gpc_completo.pdf
    • Hultcrantz M, Rind D, Akl EA, Treweek S, Mustafa RA, Iorio A, et al. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol. 2017;87:4-13. PubMed PMID: 28529184
    • Instrumento AGREE II. Instrumento para la evaluación de Guías de Práctica Clínica. Traducción a cargo de GuíaSalud. The Agree Research Trust; 2009. http://www.agreetrust.org; versión en español. https://portal.guiasalud.es/wp-content/uploads/2019/01/spanish-agree-ii.pdf
    • MacLean S, Mulla S, Akl EA, Jankowski M, Vandvik PO, Ebrahim S, et al.; American College of Chest Physicians. Patient values and preferences in decision making for antithrombotic therapy: a systematic review: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines. Chest. 2012;141(2 Suppl):e1S-23S. PubMed PMID: 22315262
    • National Collaborating Centre for Chronic Conditions. Chronic obstructive pulmonary disease. National clinical guideline on management of chronic obstructive pulmonary disease in adults in primary and secondary care. Thorax. 2004;59 Suppl 1:1-232. PubMed PMID: 15041752
    • Schünemann H, Brozek J, Guyatt G, Oxman A. [Eds.]. GRADE handbook forgrading quality of evidence and strength of recommendations [Internet]. The GRADE Working Group; 2013. https://book.gradepro.org/
    • Schünemann HJ, Cuello C, Akl EA, Mustafa RA, Meerpohl JJ, Thayer K, et al.; GRADE Working Group. GRADE guidelines: 18. How ROBINS-I and other tools to assess risk of bias in nonrandomized studies should be used to rate the certainty of a body of evidence. J Clin Epidemiol. 2019;111:105–14. PubMed PMID: 29432858
    • Schünemann HJ, Cushman M, Burnett AE, Kahn SR, Beyer-Westendorf J, Spencer FA, et al. American Society of Hematology 2018 guidelines for management of venous thromboembolism: prophylaxis for hospitalized and nonhospitalized medical patients. Blood Adv. 2018;2(22):3198-3225. PubMed PMID: 30482763
    • Schünemann HJ, Zhang Y, Oxman AD; Expert Evidence in Guidelines Group. Distinguishing opinion from evidence in guidelines. BMJ. 2019;366:l4606. PubMed. PMID: 31324659
    • Vandvik PO, Brandt L, Alonso-Coello P, Treweek S, Akl EA, Kristiansen A, et al. Creating clinical practice guidelines we can trust, use, and share: a new era is imminent. Chest. 2013;144(2):381-389. PubMed. PMID 23918106
    • You JJ, Singer DE, Howard PA, Lane DA, Eckman MH, Fang MC, et al.; American College of Chest Physicians. Antithrombotic therapy for atrial fibrillation: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines. Chest. 2012;141 Suppl 2:e531S-75S. PubMed PMID: 22315271

    Autores

    Pablo Alonso Coello Médico Especialista en Medicina Familiar y Comunitaria (1)
    Rafael Rotaeche del Campo Médico Especialista en Medicina Familiar y Comunitaria (2)

    (1) Instituto de Investigación Sant Pau (IR Sant Pau), Barcelona.
    (2) Unidad de investigación AP y OSIS Gipuzkoa. IIS-BIogipuzkoa.

    Infografía


    Nota: Esta infografía complementa la lectura atenta de la Guía.

    Conflicto de intereses
    Los autores declaran no tener ningún conflicto de intereses.

    La evaluación de la calidad de la evidencia y la graduación de la fuerza de las recomendaciones: el sistema GRADE

    Fecha de revisión: 27/10/2024
    • Guía
    • Imágenes 1
    Índice de contenidos

    Características del sistema GRADE


    Las guías de práctica clínica (GPC) han experimentado una enorme transformación durante las últimas décadas. El sistema para clasificar la calidad de la evidencia y graduar la fuerza de la recomendación es uno de los aspectos que más se ha evolucionado. En concreto, el sistema GRADE (Grading of Recommendations Assessment, Development and Evaluation) ha ganado una amplia adopción internacional y es utilizado por organizaciones líderes en el ámbito de la salud, como la Organización Mundial de la Salud (OMS), la Colaboración Cochrane o el Instituto Nacional de Salud y Excelencia en la Atención (NICE) (Schünemann H, 2013). En nuestro entorno, el Programa de Guías de Práctica Clínica en el Sistema Nacional de Salud (SNS) ha adoptado GRADE desde hace algunos años, como se recoge en el manual de elaboración de GPC en el Sistema Nacional de Salud (Schünemann H, 2013; Grupo de trabajo sobre GPC, 2016).

    Las diferencias más relevantes entre GRADE (http://www.gradeworkinggroup.org) y otros sistemas previos son las siguientes (Grupo de trabajo sobre GPC, 2016):

    • La evaluación de la calidad de la evidencia se centra en el análisis por separado para cada desenlace de interés, los cuales deben haber sido priorizados previamente en la fase de formulación de preguntas clínicas.
    • Se amplía el número de factores a tener en cuenta para la evaluación de la calidad de la evidencia, incluyendo, además de la evaluación del riesgo de sesgo, otros factores, como por ejemplo la consistencia de los resultados o su precisión.
    • Se separa de forma explícita la definición de la calidad de la evidencia y de la fuerza de las recomendaciones.


    El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la formulación de la pregunta y la selección de los desenlaces de interés hasta la formulación de las recomendaciones y su redacción (Grupo de trabajo sobre GPC, 2016). En este capítulo desarrollamos tanto la fase de evaluación de la calidad de la evidencia como la de formulación de recomendaciones. Es importante señalar que GRADE se utiliza tanto para la evaluación de la calidad de la evidencia en las revisiones sistemáticas (por ejemplo, en las revisiones Cochrane), como para la formulación de las recomendaciones, donde también es necesario evaluar la calidad de la evidencia.

    Respecto a la formulación de las preguntas clínicas, GRADE propone la clasificación de la importancia de los desenlaces de interés, normalmente desde el punto de vista del paciente o de aquellos afectados por las recomendaciones (por ejemplo, la sociedad). Esto es relevante, pues los desenlaces más importantes serán los que deberán tener un mayor peso a la hora de evaluar la calidad de la evidencia, así como a la hora de formular las recomendaciones.

    El sistema GRADE, tal y como se describe en capítulos previos, clasifica la importancia de los desenlaces en tres categorías, utilizando una escala de 1 a 9.

    • 7-9: desenlace clave (o crítico) para la toma de decisiones.
    • 4-6: desenlace importante pero no clave para la toma de decisiones.
    • 1-3: desenlace no importante; estos desenlaces no juegan un papel relevante en la formulación de las recomendaciones y no se incluyen habitualmente en la toma de decisiones, ni en la síntesis de la evidencia.

    Por ejemplo, a la hora de clasificar los desenlaces para la evaluación de la eficacia de los bisfosfonatos en mujeres con un riesgo alto de fractura, desenlaces como la fractura de cadera, la fractura vertebral clínica y la calidad de vida serían claves, mientras la fractura vertebral radiológica importante; y como no importantes, la densidad mineral ósea y los marcadores óseos.

    GRADE establece también que, en el contexto de una GPC, las preguntas clínicas deben estar claramente definidas no solo en los componentes en formato PICO (Paciente, Intervención, Comparación y Desenlace o Outcome), sino también en lo que se refiere al entorno (p. ej. ambulatorio y/o hospitalario) y a la perspectiva desde la que se abordan (individual o poblacional) (Alonso-Coello P, 2018; Alonso-Coello P, 2018b). La perspectiva de las guías de práctica clínica del Programa de Guías de Práctica Clínica en el Sistema Nacional de Salud (SNS), por ejemplo, es poblacional. Otras guías, como muchas de las realizadas por sociedades científicas, a menudo no incluyen esta perspectiva y se centran en aspectos relacionados con una perspectiva del paciente individual.

    En la perspectiva poblacional, las recomendaciones en las guías de práctica clínica buscan optimizar la salud general de la población, evaluando tanto los beneficios y riesgos generales como la sostenibilidad de la intervención. Las decisiones incluyen un análisis de costo-efectividad enfocado en el uso adecuado de los recursos del sistema de salud, considerando el impacto en la equidad y la cobertura para todos los sectores de la sociedad.

    Por otro lado, la perspectiva individual se centra en cómo cada intervención afecta directamente a la persona y su contexto único. En este caso, las recomendaciones consideran los beneficios, riesgos y costos específicos para el paciente y su familia, como los costos de bolsillo, la disponibilidad y la adaptabilidad de la intervención a sus necesidades y preferencias.

    El sistema GRADE propone definiciones (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013) para calidad de la evidencia y fuerza de las recomendaciones, tanto en el contexto de una revisión sistemática como de una guía de práctica clínica. Inicialmente, en el caso de las guías, definió estos conceptos de esta manera:

    • Calidad de la evidencia: indica hasta qué punto nuestra confianza en la estimación de un efecto es adecuada para apoyar una recomendación.
    • Fuerza de la recomendación: indica hasta qué punto podemos confiar en si poner en práctica la recomendación conllevará más consecuencias deseables que indeseables.
    No obstante, más recientemente, GRADE ha introducido el concepto de umbral, señalando que la certeza es el grado de confianza que tenemos en que el verdadero efecto esté dentro de un umbral o rango (Hultcrantz M, 2017). Estos umbrales se relacionan con diferentes magnitudes de efecto, como trivial, pequeño, moderado o grande. La calidad de la evidencia se reduce si los resultados cruzan múltiples umbrales, afectando la confiabilidad de la estimación del efecto. Imaginemos un tratamiento para reducir el riesgo de un accidente cerebrovascular (ACV). Supongamos que el beneficio mínimo considerado para recomendar el tratamiento es una reducción absoluta del riesgo de ACV del 0,5%. Si los estudios muestran una reducción del riesgo entre el 0,6% y el 2%, podemos tener calidad alta de que el efecto verdadero está por encima de ese umbral (0,5%), lo que nos llevaría a recomendar el tratamiento.

    El sistema GRADE puede utilizarse para dar respuesta a distintos tipos de preguntas: sobre tratamiento, diagnóstico, pronóstico, etc. En este capítulo nos centraremos en las preguntas sobre tratamiento, ya que es la parte más utilizada y la más desarrollada. En cualquier caso, la mayoría de los conceptos que se abordan pueden ser aplicados a otro tipo de preguntas, con algunas matizaciones.

    Para profundizar sobre GRADE y su utilización para dar respuesta a otro tipo de preguntas, puede consultarse el manual de elaboración de GPC en el sistema Nacional de Salud o el manual de GRADE (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013). Este manual está siendo actualizado y ahora se denomina GRADE Book (https://book.gradepro.org/). El contenido del GRADE Book también es accesible a través de la app GRADE GPT, una aplicación de vanguardia impulsada por un modelo de lenguaje grande basado en ChatGPT, entrenado específicamente con el contenido del GRADE Book. Actualmente, esta app se encuentra en su fase beta y está en continuo desarrollo y pruebas. A medida que la app evolucione, su objetivo es que proporcione a los usuarios una forma intuitiva e interactiva de interacción con el marco GRADE, ofreciendo acceso instantáneo a orientaciones y recursos directamente del GRADE Book.

    Puntos clave
    • El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la formulación de la pregunta y la selección de los desenlaces de interés hasta la formulación de las recomendaciones y su redacción.
    • La calidad de la evidencia refleja la confianza que se puede depositar en los resultados de la literatura científica para apoyar una recomendación en particular.
    • La evaluación de la calidad de la evidencia se realiza para cada desenlace de interés importante para los pacientes. Asimismo, se realiza una evaluación global de la calidad para todos los desenlaces, con el fin de informar el proceso de decisión entre la evidencia y la recomendación.
    • La fuerza de la recomendación indica hasta qué punto podemos confiar si poner en práctica la recomendación conllevará más consecuencias deseables que indeseables.
    • Para estructurar la información y favorecer la transparencia en el paso de la evidencia a las recomendaciones, el grupo GRADE ha elaborado los marcos de la evidencia a la decisión.

    Evaluación de la evidencia


    La certeza de la evidencia en las GPC, también denominada calidad o confianza, refleja el grado de confianza que tenemos en que la estimación de un efecto es adecuada para apoyar una recomendación y se evalúa para cada uno de los desenlaces de interés (idealmente los claves y, en ausencia de éstos, los importantes).

    Aunque la calidad de la evidencia es un espectro continuo, GRADE propone una clasificación en cuatro categorías (Balshem H, 2011):

    Tabla 1. Clasificación de la calidad de la evidencia.
    Alta Confianza alta en que el estimador del efecto disponible en la literatura científica se encuentra muy cercano al efecto real.
    Moderada Es probable que el estimador del efecto se encuentre cercano al efecto real, aunque podrían existir diferencias sustanciales.
    Baja El estimador del efecto puede ser sustancialmente diferente al efecto real.
    Muy baja Es muy probable que el estimador del efecto sea sustancialmente diferente al efecto real.


    En el sistema GRADE, la calidad de la evidencia para un determinado desenlace arranca con el diseño de los estudios: inicialmente considera a los ensayos clínicos aleatorizados (ECA) como fuente de calidad alta, y a los estudios observacionales sin limitaciones importantes como fuente de calidad baja. En las revisiones sistemáticas, la evaluación de los factores que afectan a la calidad de la evidencia debe realizarse sobre el diseño y las características de los estudios que incluye la revisión (ya sea un conjunto de estudios o de un único estudio). Las series de casos son estudios observacionales no controlados en los que la calidad de la evidencia es de entrada baja o muy baja.

    La opinión de experto no se considera un tipo de evidencia científica al que aplicar los factores modificadores de la calidad de la evidencia, sino una ayuda clave para la interpretación de los resultados de la evidencia. No obstante, cuando la evidencia de investigación es limitada, los expertos pueden aportar “evidencia experta” (expert evidence), basada en datos y observaciones sistemáticamente recogidas en su área de especialidad (Schünemann HJ, 2019). Es importante diferenciar esta evidencia proveniente de expertos de la opinión experta: mientras que la evidencia experta proporciona información objetiva y estructurada, la opinión experta incluye juicios subjetivos sobre la evidencia. La evidencia experta debe ser recopilada de forma sistemática y estar disponible para los miembros del panel antes de las reuniones, garantizando que las discusiones estén bien fundamentadas y no se basen únicamente en interpretaciones personales. No obstante, la calidad de este tipo de evidencia suele ser muy baja.

    A partir de este punto inicial (calidad alta para ensayos clínicos y baja para estudios observacionales), se aplican los siguientes factores para bajar o, en algunos casos aumentar, la calidad de la evidencia (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013) (tabla 2):

    Tabla 2. Factores que modifican la calidad de la evidencia.
    Factores que pueden disminuir la calidad de la evidencia
    Limitaciones en el diseño o ejecución de los estudios ↓ 1 o 2 grados
    Inconsistencia entre los resultados de diferentes estudios ↓ 1 o 2 grados
    Ausencia de evidencia directa ↓ 1 o 2 grados
    Imprecisión de los estimadores del efecto ↓ 1 o 2 grados
    Sesgo de publicación ↓ 1 grado
    Factores que permiten aumentar la calidad de la evidencia
    Magnitud del efecto importante ↑ 1 o 2 grados
    Gradiente dosis-respuesta relevante ↑ 1 grado
    Impacto de las variables de confusión plausibles ↑ 1 grado


    No obstante, recientemente GRADE ha integrado la posibilidad de utilizar el instrumento ROBINS-I para evaluar el riesgo de sesgo en estudios observacionales, permitiendo que algunos estudios observacionales rigurosos puedan comenzar con certeza alta en la evaluación de evidencia (Schünemann HJ, 2019). Este cambio reconoce que, cuando éstos estudios están bien diseñados y controlados, pueden ofrecer evidencia de mayor solidez, permitiendo ajustar con mayor precisión la certeza de la evidencia basada en la calidad metodológica específica del estudio.


    Factores que pueden bajar la calidad de la evidencia
    (Balshem H, 2011; Grupo de trabajo sobre GPC, 2016):

    Al valorar la calidad de la evidencia para un desenlace, tanto para los ECA, que de antemano se consideran como calidad alta para evaluar el efecto de diferentes intervenciones, como para los estudios observacionales, que de antemano se consideran como calidad baja, existen factores que pueden disminuir la misma:

    • Limitaciones en el diseño o la ejecución de los estudios (riesgo de sesgo).

    En los ECA se consideran: las limitaciones en la secuencia de aleatorización, limitaciones en el enmascaramiento de investigadores, personal implicado en el estudio o participantes en el estudio, pérdidas de seguimiento importantes y la ausencia de análisis por intención de tratar, descripción selectiva de los resultados u otros sesgos (ensayos interrumpidos prematuramente por beneficio, uso de medidas de resultado no validadas, etc.). En los estudios observacionales se consideran: limitaciones en los criterios de inclusión de los pacientes, limitaciones en la medida de los resultados (como el sesgo de memoria), el control inadecuado de los factores de confusión o el seguimiento incompleto. A la hora de valorar globalmente el riesgo de sesgo de un conjunto de estudios con diferentes limitaciones se debe realizar un juicio global, teniendo en cuenta la contribución de los estudios a la estimación del efecto; los estudios de mayor tamaño contribuirán más y los que tengan un menor riesgo de sesgo tendrán un mayor peso.

    • Inconsistencia entre los resultados provenientes de diferentes estudios.

    La inconsistencia se refiere a la variabilidad o heterogeneidad de los resultados entre los estudios disponibles para un determinado desenlace. Se deben explorar las posibles causas de la variabilidad, principalmente las diferencias en la población, la intervención, los desenlaces o el riesgo de sesgo de los estudios. En los metanálisis, se aconseja revisar de visu la variabilidad, prestando atención a diferencias entre los estimadores de los efectos, así como al grado de solapamiento de los intervalos de confianza. La existencia de heterogeneidad también se puede medir mediante una prueba de contraste de hipótesis (una p <0,10 nos sugiere que los resultados difieren entre sí más de lo que cabría esperar por el mero azar) o mediante el estadístico I2 (adquiere valores entre 0 y 100, mide la magnitud de la heterogeneidad, cuanto mayor sea su valor mayor heterogeneidad). En ocasiones, la diferencia en la variabilidad de los resultados puede explicarse por diferencias entre distintos subgrupos; en estos casos puede ser más adecuado realizar recomendaciones diferenciadas para los subgrupos en lugar de bajar la calidad de la evidencia por inconsistencia.

    • Ausencia de evidencia directa.

    La confianza en un estimador se reduce si se detecta que existen diferencias importantes entre la población donde se aplicará la GPC y la incluida en los estudios (por ejemplo, medio hospitalario vs. atención primaria, o pacientes de alto riesgo vs. bajo riesgo), entre la intervención que se pretende evaluar y la que se practicó en los estudios disponibles (por ejemplo, un programa de deshabituación tabáquica realizada por un equipo multidisciplinar vs. intervención de deshabituación en la consulta). También se debe considerar disminuir la calidad de la evidencia ante la ausencia de comparaciones directas entre las intervenciones de interés o cuando no existen desenlaces claves y la recomendación se base sólo en desenlaces que no son clave.

    • Imprecisión.

    Para evaluar la precisión al estimar el efecto de una intervención para un desenlace, se debe considerar su intervalo de confianza y el umbral que determina la diferencia clínicamente relevante para los pacientes. Si una decisión clínica o recomendación pudiera ser diferente dependiendo de si se tiene en cuenta un extremo u otro del intervalo de confianza como el efecto "real" de una intervención, la confianza (y, por tanto, la calidad) en la estimación del efecto deberían disminuir. Asimismo, incluso con un intervalo de confianza preciso según estos criterios, si el número de sucesos o el número de sujetos evaluados en los diferentes estudios son escasos, se debe considerar la necesidad de disminuir la calidad.

    En las GPC se valora un conjunto de desenlaces de interés y la decisión de bajar la calidad de la evidencia por imprecisión depende del umbral que determina la diferencia mínima relevante para los pacientes y del balance entre efectos deseables e indeseables de la intervención.

    Por ejemplo, si un fármaco anticoagulante para la prevención de episodios vasculares (ictus isquémicos) reduce el riesgo en un 5% (intervalo de confianza del 95% [IC: 95%] del 9 al 1%) en términos absolutos, las repercusiones de esta imprecisión deberían valorarse teniendo en cuenta también los efectos indeseables. Si el fármaco se asociara a un incremento absoluto de las hemorragias graves extracraneales del 4%, podríamos no realizar la misma recomendación en los dos extremos del intervalo de confianza para la reducción de ictus: en el supuesto de una reducción del riesgo de ictus del 1%, los riesgos podrían considerarse superiores a los beneficios, mientras que en el supuesto del 9%, los beneficios podrían compensar los riesgos. En este caso, dada la imprecisión, deberíamos bajar la calidad de la evidencia por imprecisión para el desenlace de ictus.

    • Sesgo de publicación.

    La calidad puede disminuir si se tiene la duda razonable de que no se hayan incluido todos los estudios realizados. La situación más frecuente se produce cuando, en el contexto de una revisión sistemática, se incluyen selectivamente los estudios que han mostrado resultados “positivos” (favorables a la intervención) y se omiten algunos estudios con resultados “negativos”, sobrestimando en su conjunto el efecto de la intervención. Existen pruebas estadísticas y gráficas que pueden orientar a la existencia de un sesgo de publicación, como la revisión de los gráficos de embudo (funnel plots). Esta situación puede llegar a ser más frecuente y difícil de detectar en los estudios observacionales.


    Factores que pueden aumentar la calidad de la evidencia:

    Las situaciones que pueden llevar a incrementar la confianza con los resultados de los estudios son poco comunes y se suelen aplicar sobre todo a estudios observacionales que evalúan el impacto de una intervención. Estos aspectos se deberían evaluar después de constatar que no se encuentra presente ninguna razón adicional que disminuya la calidad de la evidencia debido a un potencial riesgo de sesgo u otros de los factores que se han citado previamente (por ejemplo, imprecisión).

    • Fuerza de la asociación.

    Cuando el efecto observado muestra una asociación fuerte (riesgo relativo u odds ratio >2 ó <0,5) o muy fuerte (riesgo relativo u odds ratio >5 ó <0,2), es más improbable que este efecto sea debido a una sobrestimación debido a los factores de confusión y más probable que el efecto observado sea más cercano al efecto real. En estos casos la calidad puede subir en 1 ó 2 grados. Por ejemplo, una revisión sistemática de estudios observacionales sobre la posición de los lactantes en la cuna a la hora de dormir para evitar el síndrome de muerte súbita mostró una reducción importante del riesgo para la posición boca arriba con un OR de 4,1 (IC: 95% 3,1 a 5,5).

    • Gradiente dosis-respuesta.

    La existencia de un gradiente dosis-respuesta es un factor reconocido para establecer con mayor certidumbre una relación causa-efecto. En estas circunstancias este gradiente puede aumentar nuestra confianza en los resultados.

    • Impacto de las variables de confusión plausibles.

    En los estudios observacionales rigurosos se controlan los factores pronósticos conocidos asociados con el desenlace de interés. No siempre es posible controlar todas las variables de confusión, que pueden reducir o reforzar el impacto de la intervención. Por ejemplo, varios estudios observacionales, en los que el análisis no se ha ajustado por el número de parejas sexuales, han mostrado que el uso del preservativo por parte de varones que tienen sexo con varones reduce el riesgo de infección por VIH comparado con no usarlo. Otros estudios han mostrado que los usuarios de preservativos tienen un mayor número de parejas sexuales que los varones que no los usan. De haberse ajustado por este factor, es posible que la asociación entre uso de preservativo y prevención de infección por VIH fuera mayor (Grupo de trabajo sobre GPC, 2016).

    Estos factores que pueden aumentar o disminuir la calidad de la evidencia no deben tomarse como elementos individuales que puedan sumarse o restarse para obtener una clasificación de la calidad, sino que deben ser considerados en su conjunto. Por ejemplo, a la hora de valorar cuáles son las cifras de control glucémico más adecuadas en pacientes con diabetes tipo 2 (control intensivo vs. habitual), nos encontramos con que, para el desenlace de mortalidad cardiovascular, la calidad de la evidencia se basa en 18 ensayos clínicos sin limitaciones importantes, pero con un intervalo de confianza impreciso (ver tabla 3) y cierta heterogeneidad en los resultados (I2= 37% p= 0,09). Teniendo en cuenta ambos factores, bajamos la calidad de alta a moderada, pero no a baja.

    Una vez evaluada la calidad de la evidencia científica para cada desenlace, se debe realizar una clasificación global de la calidad de la evidencia, lo que implica realizar un juicio general de la calidad entre los desenlaces clave para una determinada pregunta clínica. En este proceso, se deberían considerar priorizar los desenlaces clave. En el caso de los fármacos para la osteoporosis, se consideraría, por ejemplo, la calidad de la evidencia para las fracturas, pero no la de la densidad mineral ósea.

    Presentación de los resultados de la evaluación de la evidencia


    Los perfiles de evidencia son un método para presentar la evidencia disponible y los juicios sobre su calidad para una revisión sistemática. Puede presentarse en forma de perfiles de (Evidence profile) o en forma más resumida (Summary of Findings table). Cada pregunta clínica deber acompañarse además de un resumen redactado de forma narrativa, en el que se describen brevemente los resultados de la búsqueda, la selección de estudios, sus características y resultados de los estudios para los distintos desenlaces.

    La tabla 3 muestra el perfil de la evidencia para la pregunta respecto al uso de heparina frente a no heparina para la profilaxis de la trombosis venosa en pacientes críticos (Schünemann HJ, 2018; y tabla disponible en GRADEpro).

    Tabla 3. Heparina frente a no heparina para la profilaxis de la trombosis venosa en pacientes críticamente enfermos.
    Nº de estudios Diseño Riesgo
    de sesgo
    Inconsistencia Evidencia
    indirecta
    Imprecisión Otras consideraciones Heparina Sin heparina Relativo
    (IC 95%)
    Absoluto (IC 95%) Certeza
    Mortalidad (evaluada con: mortalidad por todas las causas)
    21,2 Ensayos aleatorios No serio No seria No seriaa Seriaa Ninguna 283/1081 (26,2%) 313/1069 (29,3%) RR 0,89 (0,78 a 1,02) 32 menos por 1000 (de 64 menos a 6 más)
    Moderada
    Embolismo pulmonar
    31,2,3 Ensayos aleatorios Serioc No seria No seria No seriad Ninguna 15/1486 (1%) 28/1463 (1,9%) RR 0,53 (0,28 a 0,98) 9 menos por 1000 (de 14 menos a 0 menos)
    Moderada
    Trombosis venosa profunda proximal
    11 Ensayos aleatorios No serio No seria No seria Seriab Ninguna 49/976 (5%) 56/959 (5,8%) RR 0,86 (0,59 a 1,25) 8 menos por 1000 (de 24 menos a 15 más)
    Moderada
    Trombosis venosa profunda distal
    11 Ensayos aleatorios No serio No seria No seria Seriab Ninguna 49/976 (5%) 56/959 (5,8%) RR 0,86 (0,59 a 1,25) 8 menos por 1000 (de 24 menos a 15 más)
    Moderada
    Sangrado mayor
    21,2 Ensayos aleatorios No serio No seria No seria Seriab Ninguna 44/1085 (4,1%) 53/1073 (4,9%) RR 1,01 (0,40 a 2,54) 0 menos por 1000 (de 30 menos a 76 más)
    Moderada
    Trombocitopenia inducida por heparina
    12 Ensayos aleatorios Serioc No seria No seria Seria Ninguna 10/109 (9,2%) 7/114 (6,1%) RR 1,49 (0,59 a 3,78) 30 más por 1000 (de 25 menos a 171 más)
    Baja
    a. Shorr 2009; se realizó en pacientes con sepsis, lo que se refleja en la alta tasa de mortalidad y alto peso en el metanálisis.
    b. El intervalo de confianza incluye beneficios considerables, así como ningún beneficio, cruzando la línea de no efecto.
    c. Riesgo de sesgo serio debido a generación de secuencia aleatoria poco clara, ocultación de la asignación y enmascaramiento.
    d. Intervalo de confianza amplio, pero imprecisión no es seria, ya que el intervalo de confianza en torno al efecto absoluto, basado en el riesgo basal de estudios observacionales, es estrecho.

    Referencias
    1. Shorr AF, Williams M D. Venous thromboembolism in critically ill patients. Observations from a randomized trial in sepsis. Thromb Haemost. 2009;101(1):139-44.
    2. Fraisse F, Holzapfel, L, Coulaud JM, et al. Nadroparin in the prevention of deep vein thrombosis in acute decompensated COPD. Am J Respir Crit Care Med. 2000;161(4 Pt 1):1109-14.
    3. Kapoor M, Kupfer YY, Tessler S. Subcutaneous heparin prophylaxis significantly reduces the incidence of venous thromboembolic events in the critically ill. Crit Care Med. 1999;27(12):A69.


    En este ejemplo, considerando todos los desenlaces, la calidad global de la evidencia sería moderada, observándose una probable disminución de la mortalidad, embolismos pulmonares y trombosis, así como un posible aumento de la trombocitopenia inducida por heparina (Schünemann HJ, 2018).

    • Efectos deseables
    En términos absolutos y relativos, la profilaxis farmacológica probablemente reduce la mortalidad, la embolia pulmonar (EP) y la trombosis venosa profunda (TVP). El RR de mortalidad fue de 0,89 (IC del 95%, 0,78-1,02) y la reducción absoluta del riesgo (RAR) fue de 32 menos por cada 1000 pacientes (IC del 95%, de 64 menos a 6 más por cada 1000). El RR de la EP fue de 0,53 (IC del 95%, 0,28-0,98) y la RAR fue de 2 menos por cada 1000 (IC del 95%, de 0 a 3 menos por cada 1000). El RR de TVP fue de 0,86 (IC del 95%, 0,59-1,25) y la RAR fue de 1 menos por cada 1000 (IC del 95%, de 8 menos a 5 más por cada 1000) para la TVP distal, con un riesgo basal del 2%.
    • Efectos indeseables
    El sangrado mayor probablemente no se incrementa con la heparina no fraccionada o la heparina de bajo peso molecular (RR, 1,01; IC del 95%, 0,40-2,54), y el aumento absoluto del riesgo (AAR) fue de 7 más por cada 1000 pacientes (IC del 95%, de 30 menos a 76 más por cada 1000). Aunque ningún estudio informó sobre la trombocitopenia inducida por heparina, un estudio informó un mayor riesgo de trombocitopenia con el uso de heparina, con un RR de 1,49 (IC del 95%, 0,59-3,78) y un AAR de 30 más por cada 1000 (IC del 95%, de 25 menos a 171 más por cada 1000).

    Formulación de las recomendaciones


    Como se ha señalado anteriormente, la fuerza de una recomendación refleja el grado de certeza de que los efectos deseables de una intervención recomendada superan sus efectos no deseables, o viceversa, en la población de interés. El sistema GRADE considera dos categorías en relación a la fuerza de las recomendaciones (Grupo de trabajo sobre GPC, 2016):

    • Recomendación fuerte: se refiere a una recomendación con confianza en que las consecuencias deseables de la intervención superan a las indeseables (recomendación fuerte a favor), o en que las consecuencias indeseables de la intervención superan las deseables (recomendación fuerte en contra).
    • Recomendación débil: se refiere a una recomendación según la cual las consecuencias deseables probablemente superan las consecuencias no deseables (recomendación débil a favor de una intervención) o las consecuencias no deseables probablemente son mayores que las deseables (recomendación débil en contra de una intervención), pero con una incertidumbre apreciable.

    En la tabla 4 se resumen las implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas (pacientes, clínicos y gestores).

    Tabla 4. Implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas (pacientes, clínicos y gestores).
    Recomendación fuerte Recomendación débil
    Para pacientes La mayoría de las personas estarían de acuerdo con la acción recomendada y sólo una pequeña proporción no lo estaría.

    Las herramientas formales para la toma de decisiones probablemente no serán necesarias para ayudar a las personas a tomar decisiones coherentes con sus valores y preferencias.
    La mayoría de las personas en esta situación estarían de acuerdo con la acción sugerida, pero muchos no lo estarían.

    Las herramientas para la toma de decisiones pueden ser útiles como ayuda para la toma de decisiones coherentes con los valores y preferencias de cada persona.
    Para profesionales sanitarios La mayoría de las personas debería recibir la intervención recomendada. Reconoce que diferentes opciones serán apropiadas para cada paciente individual y que se deberá alentar a que cada paciente alcance una decisión de manejo coherente con sus valores y preferencias.

    Las herramientas para la toma de decisiones pueden ser útiles como ayuda para la toma de decisiones coherentes con los valores y preferencias de cada persona.
    Para decisores/gestores La recomendación puede ser adaptada a la política sanitaria en la mayoría de las situaciones.

    La adherencia a esta recomendación incluida en la guía, puede ser utilizado como un criterio de calidad o indicador de rendimiento.
    El desarrollo de políticas sanitarias requerirá considerables debates y la participación de los diversos grupos de interés.

    La documentación adecuada del proceso de toma de decisiones para una recomendación débil podría utilizarse como una medida de calidad, en particular, si está basada en evidencia de alta calidad.


    De la evidencia a la recomendación: factores a tener en cuenta en la graduación de las recomendaciones
    (Alonso-Coello P, 2018; Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):

    El paso de la evidencia a la recomendación requiere tener en cuenta otros aspectos, además de la calidad de la evidencia sobre el efecto de las intervenciones. Estos aspectos o “juicios” deben reflejarse de forma explícita y transparente. Para estructurar la información y favorecer la transparencia en el paso de la evidencia a las recomendaciones o decisiones, el grupo GRADE ha elaborado una serie de marcos para la formulación de las recomendaciones y otras decisiones denominados marcos de la evidencia a la decisión (Alonso-Coello P, 2018; Alonso-Coello P, 2018 [2]). Para cada una de las preguntas, se debe presentar claramente la pregunta, los subgrupos de población a los que va dirigido, el entorno (ámbito al cual va dirigida la recomendación) y la perspectiva (por ejemplo, poblacional o paciente individual), y los siguientes criterios y consideraciones:

    1. Prioridad del problema: ¿el problema constituye una prioridad? Cuanto más severo es un problema, más probable es que sea una prioridad y que deba formularse una recomendación fuerte.
    2. Efectos deseables e indeseables: ¿cuál es la magnitud de los efectos deseables (beneficios)?¿Cuál es la magnitud de los efectos indeseables (riesgos y carga de tratamiento)? Cuanto más sustanciales sean los efectos deseables y menos los indeseables, es más probable que deba recomendarse una intervención y, por tanto, mayor probabilidad de formular una recomendación fuerte.
    3. Calidad de la evidencia: ¿cuál es la calidad global de la evidencia? (alta, moderada, baja, muy baja, no hay estudios incluidos). Cuanto mayor sea la calidad de la evidencia, mayor probabilidad de realizar una recomendación fuerte.
    4. Importancia de los desenlaces para los pacientes. ¿Existe incertidumbre o variabilidad en cómo los pacientes valoran los desenlaces de interés? Cuanto mayor sea la incertidumbre, menor es la probabilidad de formular una recomendación fuerte. En el caso de la diabetes tipo 2 y el control estricto de la glucemia frente al convencional, existe incertidumbre acerca de cómo los pacientes valorarán la carga de la medicación debida a un control más estricto (posible insulinización, más fármacos orales, más analíticas y consultas), el mayor riesgo de hipoglucemia frente a ligeros beneficios en las complicaciones para la diabetes.
    5. Teniendo en cuenta la magnitud de los beneficios y riesgos y la incertidumbre respecto a cómo los pacientes valoran los distintos desenlaces, el balance entre los efectos deseados e indeseados, ¿favorece a la intervención?
    6. Recursos/Costes. ¿Son altos los costes que se requieren para poner en marcha la intervención?¿Es alta la incertidumbre en torno a los recursos necesarios? Cuanto mayor es el coste, menos probable es que una intervención se recomiende. Cuando el uso de recursos se considera fundamental para una decisión acerca de una recomendación, es aconsejable su evaluación económica mediante métodos formales o la búsqueda de evidencia acerca de su relación entre costes y beneficios.
    7. Teniendo en cuenta el balance entre efectos deseables e indeseables, es decir, el beneficio neto (criterios 2 a 5) y el coste, la relación coste-beneficio, ¿favorece la intervención?
    8. Equidad, aceptabilidad y factibilidad. ¿Cuál es el impacto sobre la equidad?¿Es aceptable la intervención para los grupos de interés clave?¿Es factible implementar la intervención?

    Veamos algunos ejemplos:

    • El tratamiento con corticoides sistémicos en las exacerbaciones en la enfermedad pulmonar obstructiva crónica (EPOC) presenta un balance beneficio-riesgo favorable (reduce el riesgo de fracaso terapéutico, la necesidad de tratamiento adicional, la estancia hospitalaria y aumenta la capacidad funcional, aunque presenta eventos adversos leves). La calidad de la evidencia es moderada. No hay razones para pensar que la mayoría de los pacientes, una vez informados, no aceptarían el tratamiento. Y finalmente, el coste de los corticoides es muy bajo. En conjunto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la estimación del efecto) y no hay otros factores adicionales que nos hagan disminuir nuestra confianza en que el llevar a cabo esta recomendación conllevaría más beneficios que daños. No conlleva problemas de equidad ni de factibilidad. Por tanto, el grupo elaborador de una guía probablemente realizaría una recomendación fuerte a favor del uso de corticoides en las exacerbaciones de la EPOC (National Collaborating Centre for Chronic Conditions, 2004).
    • La prevención del ictus en pacientes con fibrilación auricular de riesgo intermedio (CHADS2= 1) con anticoagulantes orales, bien antagonistas de la vitamina K (warfarina y acenocumarol) o nuevos anticoagulantes orales (NACO) en comparación con aspirina. Warfarina muestra un balance beneficio riesgo favorable (9 ictus menos y 3 sangrados extracraneales no fatales más por cada 1.000 pacientes tratados), siendo la calidad de la evidencia moderada (You JJ, 2012). No se dispone de datos comparativos entre aspirina y nuevos anticoagulantes (aunque sí entre warfarina y NACO, la evidencia para los NACO sería, en todo caso, indirecta). En cuanto a los valores y preferencias, los pacientes asignan, en términos generales, tres veces más importancia a evitar un ictus que a sufrir un sangrado extracraneal grave. No obstante, estas estimaciones de los valores y preferencias son muy variables (MacLean S, 2012). En cuanto al coste, aspirina y warfarina tienen bajo coste. En el caso de los NACO, el coste es mucho más elevado y en nuestro medio su impacto en presupuesto es muy relevante. En conjunto, por tanto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la estimación del efecto) y el coste es bajo para warfarina. El balance entre beneficios y riesgo favorece a warfarina, aunque, debido al riesgo basal relativamente bajo de estos pacientes, es modesto. Los valores y preferencias de los pacientes son variables. Por tanto, hay algunos factores que disminuyen nuestra confianza en que el llevar a cabo esta recomendación conllevaría más beneficios que daños en la mayoría de pacientes. Por tanto, el grupo elaborador de una guía probablemente formularía una recomendación débil a favor de los anticoagulantes antagonistas de la vitamina K, comparados con la aspirina, en esta población (You JJ, 2012). No recomendaría los NACO en esta población, debido sobre todo a la ausencia de evidencia directa y a su alto coste.

    Respecto a la redacción de recomendaciones, GRADE propone la adopción de una terminología específica para reflejar la fuerza, utilizando para ello expresiones como “se recomienda/no se recomienda” o “se debe/no se debe” cuando se habla de recomendaciones fuertes, y “se sugiere/no se sugiere” o “se podría” para recomendaciones débiles.

    Por ejemplo, una recomendación acerca del control glucémico es débil y queda redactada de la siguiente forma (Ezkurra P, 2015):
    “En general se sugieren unas cifras objetivo orientativas menores del 7% de HbA1c. No obstante, el objetivo debería estar basado en la evaluación individualizada teniendo en cuenta el riesgo de complicaciones de la diabetes, comorbilidad, esperanza de vida y preferencias de los pacientes.

    Se sugiere plantear objetivos menos estrictos, entre 7,5%-8%, para los ancianos, pacientes con multimorbilidad o para iniciar la insulinización o la triple terapia. Se puede considerar un tratamiento intensivo con el objeto de reducir las cifras de HbA1c por debajo del 6,5% en pacientes jóvenes o recién diagnosticados sin comorbilidad. Se sugiere implicar a las personas con diabetes tipo 2 en las decisiones sobre su nivel objetivo de HbA1c.”

    En el Instrumento AGREE II (Instrumento AGREE II, 2009) los criterios más relevantes relacionados con la formulación de recomendaciones se recogen en el dominio “rigor en la elaboración”:

    1. Los métodos para formular las recomendaciones, ¿están claramente descritos?
    2. Al formular las recomendaciones, ¿han sido considerados los beneficios de salud, efectos secundarios y riesgos?
    3. ¿Hay una relación clara entre cada una de las recomendaciones y las evidencias en las que se basan?
    El sistema GRADE se adhiere estrechamente a los criterios del dominio de “rigor en la elaboración” del Instrumento AGREE II, proporcionando un marco estructurado y transparente para formular recomendaciones en guías clínicas. GRADE facilita que las guías cumplan estos criterios al ofrecer métodos claramente definidos para evaluar y sintetizar la evidencia, lo que permite una descripción detallada y reproducible del proceso de formulación de recomendaciones.

    Tecnologías para aplicación de GRADE


    El sistema GRADE cuenta con un software para la aplicación del mismo denominado GRADEpro GDT. El software es una propuesta para sintetizar y presentar información para la toma de decisiones en el campo de la salud. GRADEpro GDT permite la elaboración de tablas de resumen de los hallazgos tanto para revisiones sistemáticas como para las evaluaciones de tecnologías, facilitando el desarrollo de GPC y otro tipo de decisiones. Recientemente, ha incorporado una base de datos que incluye un repositorio de este tipo de formatos para su adopción, adaptación o uso en nuevas GPC.

    Para ello se desarrollaron formatos óptimos de presentación y se actualizó el software original de GRADEpro (Kristiansen A, 2015). Sus resultados ya se están implementando en algunas de las instituciones más influyentes en la elaboración de revisiones sistemáticas, la formulación de recomendaciones y toma de decisiones sanitarias como la Colaboración Cochrane, la OMS o la propia NICE. En nuestro entorno ya han sido incorporados en la actualización del manual de elaboración de GPC en el Sistema Nacional de Salud de 2016 (Grupo de trabajo sobre GPC, 2016). Entre los formatos de presentación desarrollados están las tablas interactivas de resumen de los hallazgos (https://isof.epistemonikos.org/#/), las herramientas de apoyo a las decisiones compartidas ligadas a las GPC (Agoritsas T, 2015) o el marco de la evidencia a las decisiones (Alonso Coello P, 2018).

    Existen otros softwares para la aplicación de GRADE. Entre ellos destaca la iniciativa MAGIC (Vandvik, 2013), la cual dispone de MAGIC app, una aplicación para desarrollar GPC electrónicas, síntesis de información y herramientas de apoyo a la toma de decisiones ligada a las GPC. Es un software similar a GRADEpro que destaca por su desarrollo de los aspectos de publicación, simultáneos a los de elaboración.

    Bibliografía

    • Agoritsas T, Heen AF, Brandt L, Alonso-Coello P, Kristiansen A, Akl EA, et al. Decision aids that really promote shared decision making: the pace quickens. BMJ 2015;350:g7624. PubMed PMID: 25670178
    • Alonso-Coello P, Schünemann HJ, Moberg J, et al. Marcos GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones sanitarias bien informadas. 1: Guías de práctica clínica. Gac Sanit. 2018;32(2):166.e1-166.e10. PubMed. PMID: 28822594
    • Alonso-Coello P, Oxman AD, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, et al.; GRADE Working Group. Marcos GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones sanitarias bien informadas. 2: Guías de práctica clínica. Gac Sanit. 2018;32(2):167.e1-167.e10. PubMed. PMID: 28917831
    • Balshem H, Helfand M, Schünemann HJ, Oxman AD, Kunz R, Brozek J, et al. GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol. 2011;64(4):401-6. PubMed PubMed. PMID: 21208779
    • Ezkurra P, Etxeberria A, Idarreta I, Balagué L, Moreno M, Daza P, et al. Protocolo sobre manejo de la diabetes mellitus tipo 2. FMC. 2015;22(Supl. 2):9-40 - Vol. 22 Núm.Supl.2.
    • Grupo de trabajo sobre GPC. Elaboración de Guías de Práctica Clínica en el Sistema Nacional de Salud. Actualización del Manual Metodológico [Internet]. Madrid: Plan Nacional para el SNS del MSC. Instituto Aragonés de Ciencias de la Salud-I+CS; 2016. https://portal.guiasalud.es/wp-content/uploads/2019/01/manual_gpc_completo.pdf
    • Hultcrantz M, Rind D, Akl EA, Treweek S, Mustafa RA, Iorio A, et al. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol. 2017;87:4-13. PubMed PMID: 28529184
    • Instrumento AGREE II. Instrumento para la evaluación de Guías de Práctica Clínica. Traducción a cargo de GuíaSalud. The Agree Research Trust; 2009. http://www.agreetrust.org; versión en español. https://portal.guiasalud.es/wp-content/uploads/2019/01/spanish-agree-ii.pdf
    • MacLean S, Mulla S, Akl EA, Jankowski M, Vandvik PO, Ebrahim S, et al.; American College of Chest Physicians. Patient values and preferences in decision making for antithrombotic therapy: a systematic review: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines. Chest. 2012;141(2 Suppl):e1S-23S. PubMed PMID: 22315262
    • National Collaborating Centre for Chronic Conditions. Chronic obstructive pulmonary disease. National clinical guideline on management of chronic obstructive pulmonary disease in adults in primary and secondary care. Thorax. 2004;59 Suppl 1:1-232. PubMed PMID: 15041752
    • Schünemann H, Brozek J, Guyatt G, Oxman A. [Eds.]. GRADE handbook forgrading quality of evidence and strength of recommendations [Internet]. The GRADE Working Group; 2013. https://book.gradepro.org/
    • Schünemann HJ, Cuello C, Akl EA, Mustafa RA, Meerpohl JJ, Thayer K, et al.; GRADE Working Group. GRADE guidelines: 18. How ROBINS-I and other tools to assess risk of bias in nonrandomized studies should be used to rate the certainty of a body of evidence. J Clin Epidemiol. 2019;111:105–14. PubMed PMID: 29432858
    • Schünemann HJ, Cushman M, Burnett AE, Kahn SR, Beyer-Westendorf J, Spencer FA, et al. American Society of Hematology 2018 guidelines for management of venous thromboembolism: prophylaxis for hospitalized and nonhospitalized medical patients. Blood Adv. 2018;2(22):3198-3225. PubMed PMID: 30482763
    • Schünemann HJ, Zhang Y, Oxman AD; Expert Evidence in Guidelines Group. Distinguishing opinion from evidence in guidelines. BMJ. 2019;366:l4606. PubMed. PMID: 31324659
    • Vandvik PO, Brandt L, Alonso-Coello P, Treweek S, Akl EA, Kristiansen A, et al. Creating clinical practice guidelines we can trust, use, and share: a new era is imminent. Chest. 2013;144(2):381-389. PubMed. PMID 23918106
    • You JJ, Singer DE, Howard PA, Lane DA, Eckman MH, Fang MC, et al.; American College of Chest Physicians. Antithrombotic therapy for atrial fibrillation: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines. Chest. 2012;141 Suppl 2:e531S-75S. PubMed PMID: 22315271

    Autores

    Pablo Alonso Coello Médico Especialista en Medicina Familiar y Comunitaria (1)
    Rafael Rotaeche del Campo Médico Especialista en Medicina Familiar y Comunitaria (2)

    (1) Instituto de Investigación Sant Pau (IR Sant Pau), Barcelona.
    (2) Unidad de investigación AP y OSIS Gipuzkoa. IIS-BIogipuzkoa.

    Infografía


    Nota: Esta infografía complementa la lectura atenta de la Guía.

    Conflicto de intereses
    Los autores declaran no tener ningún conflicto de intereses.

    La evaluación de la calidad de la evidencia y la graduación de la fuerza de las recomendaciones: el sistema GRADE

    Fecha de revisión: 27/10/2024

    Características del sistema GRADE


    Las guías de práctica clínica (GPC) han experimentado una enorme transformación durante las últimas décadas. El sistema para clasificar la calidad de la evidencia y graduar la fuerza de la recomendación es uno de los aspectos que más se ha evolucionado. En concreto, el sistema GRADE (Grading of Recommendations Assessment, Development and Evaluation) ha ganado una amplia adopción internacional y es utilizado por organizaciones líderes en el ámbito de la salud, como la Organización Mundial de la Salud (OMS), la Colaboración Cochrane o el Instituto Nacional de Salud y Excelencia en la Atención (NICE) (Schünemann H, 2013). En nuestro entorno, el Programa de Guías de Práctica Clínica en el Sistema Nacional de Salud (SNS) ha adoptado GRADE desde hace algunos años, como se recoge en el manual de elaboración de GPC en el Sistema Nacional de Salud (Schünemann H, 2013; Grupo de trabajo sobre GPC, 2016).

    Las diferencias más relevantes entre GRADE (http://www.gradeworkinggroup.org) y otros sistemas previos son las siguientes (Grupo de trabajo sobre GPC, 2016):

    • La evaluación de la calidad de la evidencia se centra en el análisis por separado para cada desenlace de interés, los cuales deben haber sido priorizados previamente en la fase de formulación de preguntas clínicas.
    • Se amplía el número de factores a tener en cuenta para la evaluación de la calidad de la evidencia, incluyendo, además de la evaluación del riesgo de sesgo, otros factores, como por ejemplo la consistencia de los resultados o su precisión.
    • Se separa de forma explícita la definición de la calidad de la evidencia y de la fuerza de las recomendaciones.


    El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la formulación de la pregunta y la selección de los desenlaces de interés hasta la formulación de las recomendaciones y su redacción (Grupo de trabajo sobre GPC, 2016). En este capítulo desarrollamos tanto la fase de evaluación de la calidad de la evidencia como la de formulación de recomendaciones. Es importante señalar que GRADE se utiliza tanto para la evaluación de la calidad de la evidencia en las revisiones sistemáticas (por ejemplo, en las revisiones Cochrane), como para la formulación de las recomendaciones, donde también es necesario evaluar la calidad de la evidencia.

    Respecto a la formulación de las preguntas clínicas, GRADE propone la clasificación de la importancia de los desenlaces de interés, normalmente desde el punto de vista del paciente o de aquellos afectados por las recomendaciones (por ejemplo, la sociedad). Esto es relevante, pues los desenlaces más importantes serán los que deberán tener un mayor peso a la hora de evaluar la calidad de la evidencia, así como a la hora de formular las recomendaciones.

    El sistema GRADE, tal y como se describe en capítulos previos, clasifica la importancia de los desenlaces en tres categorías, utilizando una escala de 1 a 9.

    • 7-9: desenlace clave (o crítico) para la toma de decisiones.
    • 4-6: desenlace importante pero no clave para la toma de decisiones.
    • 1-3: desenlace no importante; estos desenlaces no juegan un papel relevante en la formulación de las recomendaciones y no se incluyen habitualmente en la toma de decisiones, ni en la síntesis de la evidencia.

    Por ejemplo, a la hora de clasificar los desenlaces para la evaluación de la eficacia de los bisfosfonatos en mujeres con un riesgo alto de fractura, desenlaces como la fractura de cadera, la fractura vertebral clínica y la calidad de vida serían claves, mientras la fractura vertebral radiológica importante; y como no importantes, la densidad mineral ósea y los marcadores óseos.

    GRADE establece también que, en el contexto de una GPC, las preguntas clínicas deben estar claramente definidas no solo en los componentes en formato PICO (Paciente, Intervención, Comparación y Desenlace o Outcome), sino también en lo que se refiere al entorno (p. ej. ambulatorio y/o hospitalario) y a la perspectiva desde la que se abordan (individual o poblacional) (Alonso-Coello P, 2018; Alonso-Coello P, 2018b). La perspectiva de las guías de práctica clínica del Programa de Guías de Práctica Clínica en el Sistema Nacional de Salud (SNS), por ejemplo, es poblacional. Otras guías, como muchas de las realizadas por sociedades científicas, a menudo no incluyen esta perspectiva y se centran en aspectos relacionados con una perspectiva del paciente individual.

    En la perspectiva poblacional, las recomendaciones en las guías de práctica clínica buscan optimizar la salud general de la población, evaluando tanto los beneficios y riesgos generales como la sostenibilidad de la intervención. Las decisiones incluyen un análisis de costo-efectividad enfocado en el uso adecuado de los recursos del sistema de salud, considerando el impacto en la equidad y la cobertura para todos los sectores de la sociedad.

    Por otro lado, la perspectiva individual se centra en cómo cada intervención afecta directamente a la persona y su contexto único. En este caso, las recomendaciones consideran los beneficios, riesgos y costos específicos para el paciente y su familia, como los costos de bolsillo, la disponibilidad y la adaptabilidad de la intervención a sus necesidades y preferencias.

    El sistema GRADE propone definiciones (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013) para calidad de la evidencia y fuerza de las recomendaciones, tanto en el contexto de una revisión sistemática como de una guía de práctica clínica. Inicialmente, en el caso de las guías, definió estos conceptos de esta manera:

    • Calidad de la evidencia: indica hasta qué punto nuestra confianza en la estimación de un efecto es adecuada para apoyar una recomendación.
    • Fuerza de la recomendación: indica hasta qué punto podemos confiar en si poner en práctica la recomendación conllevará más consecuencias deseables que indeseables.
    No obstante, más recientemente, GRADE ha introducido el concepto de umbral, señalando que la certeza es el grado de confianza que tenemos en que el verdadero efecto esté dentro de un umbral o rango (Hultcrantz M, 2017). Estos umbrales se relacionan con diferentes magnitudes de efecto, como trivial, pequeño, moderado o grande. La calidad de la evidencia se reduce si los resultados cruzan múltiples umbrales, afectando la confiabilidad de la estimación del efecto. Imaginemos un tratamiento para reducir el riesgo de un accidente cerebrovascular (ACV). Supongamos que el beneficio mínimo considerado para recomendar el tratamiento es una reducción absoluta del riesgo de ACV del 0,5%. Si los estudios muestran una reducción del riesgo entre el 0,6% y el 2%, podemos tener calidad alta de que el efecto verdadero está por encima de ese umbral (0,5%), lo que nos llevaría a recomendar el tratamiento.

    El sistema GRADE puede utilizarse para dar respuesta a distintos tipos de preguntas: sobre tratamiento, diagnóstico, pronóstico, etc. En este capítulo nos centraremos en las preguntas sobre tratamiento, ya que es la parte más utilizada y la más desarrollada. En cualquier caso, la mayoría de los conceptos que se abordan pueden ser aplicados a otro tipo de preguntas, con algunas matizaciones.

    Para profundizar sobre GRADE y su utilización para dar respuesta a otro tipo de preguntas, puede consultarse el manual de elaboración de GPC en el sistema Nacional de Salud o el manual de GRADE (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013). Este manual está siendo actualizado y ahora se denomina GRADE Book (https://book.gradepro.org/). El contenido del GRADE Book también es accesible a través de la app GRADE GPT, una aplicación de vanguardia impulsada por un modelo de lenguaje grande basado en ChatGPT, entrenado específicamente con el contenido del GRADE Book. Actualmente, esta app se encuentra en su fase beta y está en continuo desarrollo y pruebas. A medida que la app evolucione, su objetivo es que proporcione a los usuarios una forma intuitiva e interactiva de interacción con el marco GRADE, ofreciendo acceso instantáneo a orientaciones y recursos directamente del GRADE Book.

    Puntos clave
    • El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la formulación de la pregunta y la selección de los desenlaces de interés hasta la formulación de las recomendaciones y su redacción.
    • La calidad de la evidencia refleja la confianza que se puede depositar en los resultados de la literatura científica para apoyar una recomendación en particular.
    • La evaluación de la calidad de la evidencia se realiza para cada desenlace de interés importante para los pacientes. Asimismo, se realiza una evaluación global de la calidad para todos los desenlaces, con el fin de informar el proceso de decisión entre la evidencia y la recomendación.
    • La fuerza de la recomendación indica hasta qué punto podemos confiar si poner en práctica la recomendación conllevará más consecuencias deseables que indeseables.
    • Para estructurar la información y favorecer la transparencia en el paso de la evidencia a las recomendaciones, el grupo GRADE ha elaborado los marcos de la evidencia a la decisión.

    Evaluación de la evidencia


    La certeza de la evidencia en las GPC, también denominada calidad o confianza, refleja el grado de confianza que tenemos en que la estimación de un efecto es adecuada para apoyar una recomendación y se evalúa para cada uno de los desenlaces de interés (idealmente los claves y, en ausencia de éstos, los importantes).

    Aunque la calidad de la evidencia es un espectro continuo, GRADE propone una clasificación en cuatro categorías (Balshem H, 2011):

    Tabla 1. Clasificación de la calidad de la evidencia.
    Alta Confianza alta en que el estimador del efecto disponible en la literatura científica se encuentra muy cercano al efecto real.
    Moderada Es probable que el estimador del efecto se encuentre cercano al efecto real, aunque podrían existir diferencias sustanciales.
    Baja El estimador del efecto puede ser sustancialmente diferente al efecto real.
    Muy baja Es muy probable que el estimador del efecto sea sustancialmente diferente al efecto real.


    En el sistema GRADE, la calidad de la evidencia para un determinado desenlace arranca con el diseño de los estudios: inicialmente considera a los ensayos clínicos aleatorizados (ECA) como fuente de calidad alta, y a los estudios observacionales sin limitaciones importantes como fuente de calidad baja. En las revisiones sistemáticas, la evaluación de los factores que afectan a la calidad de la evidencia debe realizarse sobre el diseño y las características de los estudios que incluye la revisión (ya sea un conjunto de estudios o de un único estudio). Las series de casos son estudios observacionales no controlados en los que la calidad de la evidencia es de entrada baja o muy baja.

    La opinión de experto no se considera un tipo de evidencia científica al que aplicar los factores modificadores de la calidad de la evidencia, sino una ayuda clave para la interpretación de los resultados de la evidencia. No obstante, cuando la evidencia de investigación es limitada, los expertos pueden aportar “evidencia experta” (expert evidence), basada en datos y observaciones sistemáticamente recogidas en su área de especialidad (Schünemann HJ, 2019). Es importante diferenciar esta evidencia proveniente de expertos de la opinión experta: mientras que la evidencia experta proporciona información objetiva y estructurada, la opinión experta incluye juicios subjetivos sobre la evidencia. La evidencia experta debe ser recopilada de forma sistemática y estar disponible para los miembros del panel antes de las reuniones, garantizando que las discusiones estén bien fundamentadas y no se basen únicamente en interpretaciones personales. No obstante, la calidad de este tipo de evidencia suele ser muy baja.

    A partir de este punto inicial (calidad alta para ensayos clínicos y baja para estudios observacionales), se aplican los siguientes factores para bajar o, en algunos casos aumentar, la calidad de la evidencia (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013) (tabla 2):

    Tabla 2. Factores que modifican la calidad de la evidencia.
    Factores que pueden disminuir la calidad de la evidencia
    Limitaciones en el diseño o ejecución de los estudios ↓ 1 o 2 grados
    Inconsistencia entre los resultados de diferentes estudios ↓ 1 o 2 grados
    Ausencia de evidencia directa ↓ 1 o 2 grados
    Imprecisión de los estimadores del efecto ↓ 1 o 2 grados
    Sesgo de publicación ↓ 1 grado
    Factores que permiten aumentar la calidad de la evidencia
    Magnitud del efecto importante ↑ 1 o 2 grados
    Gradiente dosis-respuesta relevante ↑ 1 grado
    Impacto de las variables de confusión plausibles ↑ 1 grado


    No obstante, recientemente GRADE ha integrado la posibilidad de utilizar el instrumento ROBINS-I para evaluar el riesgo de sesgo en estudios observacionales, permitiendo que algunos estudios observacionales rigurosos puedan comenzar con certeza alta en la evaluación de evidencia (Schünemann HJ, 2019). Este cambio reconoce que, cuando éstos estudios están bien diseñados y controlados, pueden ofrecer evidencia de mayor solidez, permitiendo ajustar con mayor precisión la certeza de la evidencia basada en la calidad metodológica específica del estudio.


    Factores que pueden bajar la calidad de la evidencia
    (Balshem H, 2011; Grupo de trabajo sobre GPC, 2016):

    Al valorar la calidad de la evidencia para un desenlace, tanto para los ECA, que de antemano se consideran como calidad alta para evaluar el efecto de diferentes intervenciones, como para los estudios observacionales, que de antemano se consideran como calidad baja, existen factores que pueden disminuir la misma:

    • Limitaciones en el diseño o la ejecución de los estudios (riesgo de sesgo).

    En los ECA se consideran: las limitaciones en la secuencia de aleatorización, limitaciones en el enmascaramiento de investigadores, personal implicado en el estudio o participantes en el estudio, pérdidas de seguimiento importantes y la ausencia de análisis por intención de tratar, descripción selectiva de los resultados u otros sesgos (ensayos interrumpidos prematuramente por beneficio, uso de medidas de resultado no validadas, etc.). En los estudios observacionales se consideran: limitaciones en los criterios de inclusión de los pacientes, limitaciones en la medida de los resultados (como el sesgo de memoria), el control inadecuado de los factores de confusión o el seguimiento incompleto. A la hora de valorar globalmente el riesgo de sesgo de un conjunto de estudios con diferentes limitaciones se debe realizar un juicio global, teniendo en cuenta la contribución de los estudios a la estimación del efecto; los estudios de mayor tamaño contribuirán más y los que tengan un menor riesgo de sesgo tendrán un mayor peso.

    • Inconsistencia entre los resultados provenientes de diferentes estudios.

    La inconsistencia se refiere a la variabilidad o heterogeneidad de los resultados entre los estudios disponibles para un determinado desenlace. Se deben explorar las posibles causas de la variabilidad, principalmente las diferencias en la población, la intervención, los desenlaces o el riesgo de sesgo de los estudios. En los metanálisis, se aconseja revisar de visu la variabilidad, prestando atención a diferencias entre los estimadores de los efectos, así como al grado de solapamiento de los intervalos de confianza. La existencia de heterogeneidad también se puede medir mediante una prueba de contraste de hipótesis (una p <0,10 nos sugiere que los resultados difieren entre sí más de lo que cabría esperar por el mero azar) o mediante el estadístico I2 (adquiere valores entre 0 y 100, mide la magnitud de la heterogeneidad, cuanto mayor sea su valor mayor heterogeneidad). En ocasiones, la diferencia en la variabilidad de los resultados puede explicarse por diferencias entre distintos subgrupos; en estos casos puede ser más adecuado realizar recomendaciones diferenciadas para los subgrupos en lugar de bajar la calidad de la evidencia por inconsistencia.

    • Ausencia de evidencia directa.

    La confianza en un estimador se reduce si se detecta que existen diferencias importantes entre la población donde se aplicará la GPC y la incluida en los estudios (por ejemplo, medio hospitalario vs. atención primaria, o pacientes de alto riesgo vs. bajo riesgo), entre la intervención que se pretende evaluar y la que se practicó en los estudios disponibles (por ejemplo, un programa de deshabituación tabáquica realizada por un equipo multidisciplinar vs. intervención de deshabituación en la consulta). También se debe considerar disminuir la calidad de la evidencia ante la ausencia de comparaciones directas entre las intervenciones de interés o cuando no existen desenlaces claves y la recomendación se base sólo en desenlaces que no son clave.

    • Imprecisión.

    Para evaluar la precisión al estimar el efecto de una intervención para un desenlace, se debe considerar su intervalo de confianza y el umbral que determina la diferencia clínicamente relevante para los pacientes. Si una decisión clínica o recomendación pudiera ser diferente dependiendo de si se tiene en cuenta un extremo u otro del intervalo de confianza como el efecto "real" de una intervención, la confianza (y, por tanto, la calidad) en la estimación del efecto deberían disminuir. Asimismo, incluso con un intervalo de confianza preciso según estos criterios, si el número de sucesos o el número de sujetos evaluados en los diferentes estudios son escasos, se debe considerar la necesidad de disminuir la calidad.

    En las GPC se valora un conjunto de desenlaces de interés y la decisión de bajar la calidad de la evidencia por imprecisión depende del umbral que determina la diferencia mínima relevante para los pacientes y del balance entre efectos deseables e indeseables de la intervención.

    Por ejemplo, si un fármaco anticoagulante para la prevención de episodios vasculares (ictus isquémicos) reduce el riesgo en un 5% (intervalo de confianza del 95% [IC: 95%] del 9 al 1%) en términos absolutos, las repercusiones de esta imprecisión deberían valorarse teniendo en cuenta también los efectos indeseables. Si el fármaco se asociara a un incremento absoluto de las hemorragias graves extracraneales del 4%, podríamos no realizar la misma recomendación en los dos extremos del intervalo de confianza para la reducción de ictus: en el supuesto de una reducción del riesgo de ictus del 1%, los riesgos podrían considerarse superiores a los beneficios, mientras que en el supuesto del 9%, los beneficios podrían compensar los riesgos. En este caso, dada la imprecisión, deberíamos bajar la calidad de la evidencia por imprecisión para el desenlace de ictus.

    • Sesgo de publicación.

    La calidad puede disminuir si se tiene la duda razonable de que no se hayan incluido todos los estudios realizados. La situación más frecuente se produce cuando, en el contexto de una revisión sistemática, se incluyen selectivamente los estudios que han mostrado resultados “positivos” (favorables a la intervención) y se omiten algunos estudios con resultados “negativos”, sobrestimando en su conjunto el efecto de la intervención. Existen pruebas estadísticas y gráficas que pueden orientar a la existencia de un sesgo de publicación, como la revisión de los gráficos de embudo (funnel plots). Esta situación puede llegar a ser más frecuente y difícil de detectar en los estudios observacionales.


    Factores que pueden aumentar la calidad de la evidencia:

    Las situaciones que pueden llevar a incrementar la confianza con los resultados de los estudios son poco comunes y se suelen aplicar sobre todo a estudios observacionales que evalúan el impacto de una intervención. Estos aspectos se deberían evaluar después de constatar que no se encuentra presente ninguna razón adicional que disminuya la calidad de la evidencia debido a un potencial riesgo de sesgo u otros de los factores que se han citado previamente (por ejemplo, imprecisión).

    • Fuerza de la asociación.

    Cuando el efecto observado muestra una asociación fuerte (riesgo relativo u odds ratio >2 ó <0,5) o muy fuerte (riesgo relativo u odds ratio >5 ó <0,2), es más improbable que este efecto sea debido a una sobrestimación debido a los factores de confusión y más probable que el efecto observado sea más cercano al efecto real. En estos casos la calidad puede subir en 1 ó 2 grados. Por ejemplo, una revisión sistemática de estudios observacionales sobre la posición de los lactantes en la cuna a la hora de dormir para evitar el síndrome de muerte súbita mostró una reducción importante del riesgo para la posición boca arriba con un OR de 4,1 (IC: 95% 3,1 a 5,5).

    • Gradiente dosis-respuesta.

    La existencia de un gradiente dosis-respuesta es un factor reconocido para establecer con mayor certidumbre una relación causa-efecto. En estas circunstancias este gradiente puede aumentar nuestra confianza en los resultados.

    • Impacto de las variables de confusión plausibles.

    En los estudios observacionales rigurosos se controlan los factores pronósticos conocidos asociados con el desenlace de interés. No siempre es posible controlar todas las variables de confusión, que pueden reducir o reforzar el impacto de la intervención. Por ejemplo, varios estudios observacionales, en los que el análisis no se ha ajustado por el número de parejas sexuales, han mostrado que el uso del preservativo por parte de varones que tienen sexo con varones reduce el riesgo de infección por VIH comparado con no usarlo. Otros estudios han mostrado que los usuarios de preservativos tienen un mayor número de parejas sexuales que los varones que no los usan. De haberse ajustado por este factor, es posible que la asociación entre uso de preservativo y prevención de infección por VIH fuera mayor (Grupo de trabajo sobre GPC, 2016).

    Estos factores que pueden aumentar o disminuir la calidad de la evidencia no deben tomarse como elementos individuales que puedan sumarse o restarse para obtener una clasificación de la calidad, sino que deben ser considerados en su conjunto. Por ejemplo, a la hora de valorar cuáles son las cifras de control glucémico más adecuadas en pacientes con diabetes tipo 2 (control intensivo vs. habitual), nos encontramos con que, para el desenlace de mortalidad cardiovascular, la calidad de la evidencia se basa en 18 ensayos clínicos sin limitaciones importantes, pero con un intervalo de confianza impreciso (ver tabla 3) y cierta heterogeneidad en los resultados (I2= 37% p= 0,09). Teniendo en cuenta ambos factores, bajamos la calidad de alta a moderada, pero no a baja.

    Una vez evaluada la calidad de la evidencia científica para cada desenlace, se debe realizar una clasificación global de la calidad de la evidencia, lo que implica realizar un juicio general de la calidad entre los desenlaces clave para una determinada pregunta clínica. En este proceso, se deberían considerar priorizar los desenlaces clave. En el caso de los fármacos para la osteoporosis, se consideraría, por ejemplo, la calidad de la evidencia para las fracturas, pero no la de la densidad mineral ósea.

    Presentación de los resultados de la evaluación de la evidencia


    Los perfiles de evidencia son un método para presentar la evidencia disponible y los juicios sobre su calidad para una revisión sistemática. Puede presentarse en forma de perfiles de (Evidence profile) o en forma más resumida (Summary of Findings table). Cada pregunta clínica deber acompañarse además de un resumen redactado de forma narrativa, en el que se describen brevemente los resultados de la búsqueda, la selección de estudios, sus características y resultados de los estudios para los distintos desenlaces.

    La tabla 3 muestra el perfil de la evidencia para la pregunta respecto al uso de heparina frente a no heparina para la profilaxis de la trombosis venosa en pacientes críticos (Schünemann HJ, 2018; y tabla disponible en GRADEpro).

    Tabla 3. Heparina frente a no heparina para la profilaxis de la trombosis venosa en pacientes críticamente enfermos.
    Nº de estudios Diseño Riesgo
    de sesgo
    Inconsistencia Evidencia
    indirecta
    Imprecisión Otras consideraciones Heparina Sin heparina Relativo
    (IC 95%)
    Absoluto (IC 95%) Certeza
    Mortalidad (evaluada con: mortalidad por todas las causas)
    21,2 Ensayos aleatorios No serio No seria No seriaa Seriaa Ninguna 283/1081 (26,2%) 313/1069 (29,3%) RR 0,89 (0,78 a 1,02) 32 menos por 1000 (de 64 menos a 6 más)
    Moderada
    Embolismo pulmonar
    31,2,3 Ensayos aleatorios Serioc No seria No seria No seriad Ninguna 15/1486 (1%) 28/1463 (1,9%) RR 0,53 (0,28 a 0,98) 9 menos por 1000 (de 14 menos a 0 menos)
    Moderada
    Trombosis venosa profunda proximal
    11 Ensayos aleatorios No serio No seria No seria Seriab Ninguna 49/976 (5%) 56/959 (5,8%) RR 0,86 (0,59 a 1,25) 8 menos por 1000 (de 24 menos a 15 más)
    Moderada
    Trombosis venosa profunda distal
    11 Ensayos aleatorios No serio No seria No seria Seriab Ninguna 49/976 (5%) 56/959 (5,8%) RR 0,86 (0,59 a 1,25) 8 menos por 1000 (de 24 menos a 15 más)
    Moderada
    Sangrado mayor
    21,2 Ensayos aleatorios No serio No seria No seria Seriab Ninguna 44/1085 (4,1%) 53/1073 (4,9%) RR 1,01 (0,40 a 2,54) 0 menos por 1000 (de 30 menos a 76 más)
    Moderada
    Trombocitopenia inducida por heparina
    12 Ensayos aleatorios Serioc No seria No seria Seria Ninguna 10/109 (9,2%) 7/114 (6,1%) RR 1,49 (0,59 a 3,78) 30 más por 1000 (de 25 menos a 171 más)
    Baja
    a. Shorr 2009; se realizó en pacientes con sepsis, lo que se refleja en la alta tasa de mortalidad y alto peso en el metanálisis.
    b. El intervalo de confianza incluye beneficios considerables, así como ningún beneficio, cruzando la línea de no efecto.
    c. Riesgo de sesgo serio debido a generación de secuencia aleatoria poco clara, ocultación de la asignación y enmascaramiento.
    d. Intervalo de confianza amplio, pero imprecisión no es seria, ya que el intervalo de confianza en torno al efecto absoluto, basado en el riesgo basal de estudios observacionales, es estrecho.

    Referencias
    1. Shorr AF, Williams M D. Venous thromboembolism in critically ill patients. Observations from a randomized trial in sepsis. Thromb Haemost. 2009;101(1):139-44.
    2. Fraisse F, Holzapfel, L, Coulaud JM, et al. Nadroparin in the prevention of deep vein thrombosis in acute decompensated COPD. Am J Respir Crit Care Med. 2000;161(4 Pt 1):1109-14.
    3. Kapoor M, Kupfer YY, Tessler S. Subcutaneous heparin prophylaxis significantly reduces the incidence of venous thromboembolic events in the critically ill. Crit Care Med. 1999;27(12):A69.


    En este ejemplo, considerando todos los desenlaces, la calidad global de la evidencia sería moderada, observándose una probable disminución de la mortalidad, embolismos pulmonares y trombosis, así como un posible aumento de la trombocitopenia inducida por heparina (Schünemann HJ, 2018).

    • Efectos deseables
    En términos absolutos y relativos, la profilaxis farmacológica probablemente reduce la mortalidad, la embolia pulmonar (EP) y la trombosis venosa profunda (TVP). El RR de mortalidad fue de 0,89 (IC del 95%, 0,78-1,02) y la reducción absoluta del riesgo (RAR) fue de 32 menos por cada 1000 pacientes (IC del 95%, de 64 menos a 6 más por cada 1000). El RR de la EP fue de 0,53 (IC del 95%, 0,28-0,98) y la RAR fue de 2 menos por cada 1000 (IC del 95%, de 0 a 3 menos por cada 1000). El RR de TVP fue de 0,86 (IC del 95%, 0,59-1,25) y la RAR fue de 1 menos por cada 1000 (IC del 95%, de 8 menos a 5 más por cada 1000) para la TVP distal, con un riesgo basal del 2%.
    • Efectos indeseables
    El sangrado mayor probablemente no se incrementa con la heparina no fraccionada o la heparina de bajo peso molecular (RR, 1,01; IC del 95%, 0,40-2,54), y el aumento absoluto del riesgo (AAR) fue de 7 más por cada 1000 pacientes (IC del 95%, de 30 menos a 76 más por cada 1000). Aunque ningún estudio informó sobre la trombocitopenia inducida por heparina, un estudio informó un mayor riesgo de trombocitopenia con el uso de heparina, con un RR de 1,49 (IC del 95%, 0,59-3,78) y un AAR de 30 más por cada 1000 (IC del 95%, de 25 menos a 171 más por cada 1000).

    Formulación de las recomendaciones


    Como se ha señalado anteriormente, la fuerza de una recomendación refleja el grado de certeza de que los efectos deseables de una intervención recomendada superan sus efectos no deseables, o viceversa, en la población de interés. El sistema GRADE considera dos categorías en relación a la fuerza de las recomendaciones (Grupo de trabajo sobre GPC, 2016):

    • Recomendación fuerte: se refiere a una recomendación con confianza en que las consecuencias deseables de la intervención superan a las indeseables (recomendación fuerte a favor), o en que las consecuencias indeseables de la intervención superan las deseables (recomendación fuerte en contra).
    • Recomendación débil: se refiere a una recomendación según la cual las consecuencias deseables probablemente superan las consecuencias no deseables (recomendación débil a favor de una intervención) o las consecuencias no deseables probablemente son mayores que las deseables (recomendación débil en contra de una intervención), pero con una incertidumbre apreciable.

    En la tabla 4 se resumen las implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas (pacientes, clínicos y gestores).

    Tabla 4. Implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas (pacientes, clínicos y gestores).
    Recomendación fuerte Recomendación débil
    Para pacientes La mayoría de las personas estarían de acuerdo con la acción recomendada y sólo una pequeña proporción no lo estaría.

    Las herramientas formales para la toma de decisiones probablemente no serán necesarias para ayudar a las personas a tomar decisiones coherentes con sus valores y preferencias.
    La mayoría de las personas en esta situación estarían de acuerdo con la acción sugerida, pero muchos no lo estarían.

    Las herramientas para la toma de decisiones pueden ser útiles como ayuda para la toma de decisiones coherentes con los valores y preferencias de cada persona.
    Para profesionales sanitarios La mayoría de las personas debería recibir la intervención recomendada. Reconoce que diferentes opciones serán apropiadas para cada paciente individual y que se deberá alentar a que cada paciente alcance una decisión de manejo coherente con sus valores y preferencias.

    Las herramientas para la toma de decisiones pueden ser útiles como ayuda para la toma de decisiones coherentes con los valores y preferencias de cada persona.
    Para decisores/gestores La recomendación puede ser adaptada a la política sanitaria en la mayoría de las situaciones.

    La adherencia a esta recomendación incluida en la guía, puede ser utilizado como un criterio de calidad o indicador de rendimiento.
    El desarrollo de políticas sanitarias requerirá considerables debates y la participación de los diversos grupos de interés.

    La documentación adecuada del proceso de toma de decisiones para una recomendación débil podría utilizarse como una medida de calidad, en particular, si está basada en evidencia de alta calidad.


    De la evidencia a la recomendación: factores a tener en cuenta en la graduación de las recomendaciones
    (Alonso-Coello P, 2018; Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):

    El paso de la evidencia a la recomendación requiere tener en cuenta otros aspectos, además de la calidad de la evidencia sobre el efecto de las intervenciones. Estos aspectos o “juicios” deben reflejarse de forma explícita y transparente. Para estructurar la información y favorecer la transparencia en el paso de la evidencia a las recomendaciones o decisiones, el grupo GRADE ha elaborado una serie de marcos para la formulación de las recomendaciones y otras decisiones denominados marcos de la evidencia a la decisión (Alonso-Coello P, 2018; Alonso-Coello P, 2018 [2]). Para cada una de las preguntas, se debe presentar claramente la pregunta, los subgrupos de población a los que va dirigido, el entorno (ámbito al cual va dirigida la recomendación) y la perspectiva (por ejemplo, poblacional o paciente individual), y los siguientes criterios y consideraciones:

    1. Prioridad del problema: ¿el problema constituye una prioridad? Cuanto más severo es un problema, más probable es que sea una prioridad y que deba formularse una recomendación fuerte.
    2. Efectos deseables e indeseables: ¿cuál es la magnitud de los efectos deseables (beneficios)?¿Cuál es la magnitud de los efectos indeseables (riesgos y carga de tratamiento)? Cuanto más sustanciales sean los efectos deseables y menos los indeseables, es más probable que deba recomendarse una intervención y, por tanto, mayor probabilidad de formular una recomendación fuerte.
    3. Calidad de la evidencia: ¿cuál es la calidad global de la evidencia? (alta, moderada, baja, muy baja, no hay estudios incluidos). Cuanto mayor sea la calidad de la evidencia, mayor probabilidad de realizar una recomendación fuerte.
    4. Importancia de los desenlaces para los pacientes. ¿Existe incertidumbre o variabilidad en cómo los pacientes valoran los desenlaces de interés? Cuanto mayor sea la incertidumbre, menor es la probabilidad de formular una recomendación fuerte. En el caso de la diabetes tipo 2 y el control estricto de la glucemia frente al convencional, existe incertidumbre acerca de cómo los pacientes valorarán la carga de la medicación debida a un control más estricto (posible insulinización, más fármacos orales, más analíticas y consultas), el mayor riesgo de hipoglucemia frente a ligeros beneficios en las complicaciones para la diabetes.
    5. Teniendo en cuenta la magnitud de los beneficios y riesgos y la incertidumbre respecto a cómo los pacientes valoran los distintos desenlaces, el balance entre los efectos deseados e indeseados, ¿favorece a la intervención?
    6. Recursos/Costes. ¿Son altos los costes que se requieren para poner en marcha la intervención?¿Es alta la incertidumbre en torno a los recursos necesarios? Cuanto mayor es el coste, menos probable es que una intervención se recomiende. Cuando el uso de recursos se considera fundamental para una decisión acerca de una recomendación, es aconsejable su evaluación económica mediante métodos formales o la búsqueda de evidencia acerca de su relación entre costes y beneficios.
    7. Teniendo en cuenta el balance entre efectos deseables e indeseables, es decir, el beneficio neto (criterios 2 a 5) y el coste, la relación coste-beneficio, ¿favorece la intervención?
    8. Equidad, aceptabilidad y factibilidad. ¿Cuál es el impacto sobre la equidad?¿Es aceptable la intervención para los grupos de interés clave?¿Es factible implementar la intervención?

    Veamos algunos ejemplos:

    • El tratamiento con corticoides sistémicos en las exacerbaciones en la enfermedad pulmonar obstructiva crónica (EPOC) presenta un balance beneficio-riesgo favorable (reduce el riesgo de fracaso terapéutico, la necesidad de tratamiento adicional, la estancia hospitalaria y aumenta la capacidad funcional, aunque presenta eventos adversos leves). La calidad de la evidencia es moderada. No hay razones para pensar que la mayoría de los pacientes, una vez informados, no aceptarían el tratamiento. Y finalmente, el coste de los corticoides es muy bajo. En conjunto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la estimación del efecto) y no hay otros factores adicionales que nos hagan disminuir nuestra confianza en que el llevar a cabo esta recomendación conllevaría más beneficios que daños. No conlleva problemas de equidad ni de factibilidad. Por tanto, el grupo elaborador de una guía probablemente realizaría una recomendación fuerte a favor del uso de corticoides en las exacerbaciones de la EPOC (National Collaborating Centre for Chronic Conditions, 2004).
    • La prevención del ictus en pacientes con fibrilación auricular de riesgo intermedio (CHADS2= 1) con anticoagulantes orales, bien antagonistas de la vitamina K (warfarina y acenocumarol) o nuevos anticoagulantes orales (NACO) en comparación con aspirina. Warfarina muestra un balance beneficio riesgo favorable (9 ictus menos y 3 sangrados extracraneales no fatales más por cada 1.000 pacientes tratados), siendo la calidad de la evidencia moderada (You JJ, 2012). No se dispone de datos comparativos entre aspirina y nuevos anticoagulantes (aunque sí entre warfarina y NACO, la evidencia para los NACO sería, en todo caso, indirecta). En cuanto a los valores y preferencias, los pacientes asignan, en términos generales, tres veces más importancia a evitar un ictus que a sufrir un sangrado extracraneal grave. No obstante, estas estimaciones de los valores y preferencias son muy variables (MacLean S, 2012). En cuanto al coste, aspirina y warfarina tienen bajo coste. En el caso de los NACO, el coste es mucho más elevado y en nuestro medio su impacto en presupuesto es muy relevante. En conjunto, por tanto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la estimación del efecto) y el coste es bajo para warfarina. El balance entre beneficios y riesgo favorece a warfarina, aunque, debido al riesgo basal relativamente bajo de estos pacientes, es modesto. Los valores y preferencias de los pacientes son variables. Por tanto, hay algunos factores que disminuyen nuestra confianza en que el llevar a cabo esta recomendación conllevaría más beneficios que daños en la mayoría de pacientes. Por tanto, el grupo elaborador de una guía probablemente formularía una recomendación débil a favor de los anticoagulantes antagonistas de la vitamina K, comparados con la aspirina, en esta población (You JJ, 2012). No recomendaría los NACO en esta población, debido sobre todo a la ausencia de evidencia directa y a su alto coste.

    Respecto a la redacción de recomendaciones, GRADE propone la adopción de una terminología específica para reflejar la fuerza, utilizando para ello expresiones como “se recomienda/no se recomienda” o “se debe/no se debe” cuando se habla de recomendaciones fuertes, y “se sugiere/no se sugiere” o “se podría” para recomendaciones débiles.

    Por ejemplo, una recomendación acerca del control glucémico es débil y queda redactada de la siguiente forma (Ezkurra P, 2015):
    “En general se sugieren unas cifras objetivo orientativas menores del 7% de HbA1c. No obstante, el objetivo debería estar basado en la evaluación individualizada teniendo en cuenta el riesgo de complicaciones de la diabetes, comorbilidad, esperanza de vida y preferencias de los pacientes.

    Se sugiere plantear objetivos menos estrictos, entre 7,5%-8%, para los ancianos, pacientes con multimorbilidad o para iniciar la insulinización o la triple terapia. Se puede considerar un tratamiento intensivo con el objeto de reducir las cifras de HbA1c por debajo del 6,5% en pacientes jóvenes o recién diagnosticados sin comorbilidad. Se sugiere implicar a las personas con diabetes tipo 2 en las decisiones sobre su nivel objetivo de HbA1c.”

    En el Instrumento AGREE II (Instrumento AGREE II, 2009) los criterios más relevantes relacionados con la formulación de recomendaciones se recogen en el dominio “rigor en la elaboración”:

    1. Los métodos para formular las recomendaciones, ¿están claramente descritos?
    2. Al formular las recomendaciones, ¿han sido considerados los beneficios de salud, efectos secundarios y riesgos?
    3. ¿Hay una relación clara entre cada una de las recomendaciones y las evidencias en las que se basan?
    El sistema GRADE se adhiere estrechamente a los criterios del dominio de “rigor en la elaboración” del Instrumento AGREE II, proporcionando un marco estructurado y transparente para formular recomendaciones en guías clínicas. GRADE facilita que las guías cumplan estos criterios al ofrecer métodos claramente definidos para evaluar y sintetizar la evidencia, lo que permite una descripción detallada y reproducible del proceso de formulación de recomendaciones.

    Tecnologías para aplicación de GRADE


    El sistema GRADE cuenta con un software para la aplicación del mismo denominado GRADEpro GDT. El software es una propuesta para sintetizar y presentar información para la toma de decisiones en el campo de la salud. GRADEpro GDT permite la elaboración de tablas de resumen de los hallazgos tanto para revisiones sistemáticas como para las evaluaciones de tecnologías, facilitando el desarrollo de GPC y otro tipo de decisiones. Recientemente, ha incorporado una base de datos que incluye un repositorio de este tipo de formatos para su adopción, adaptación o uso en nuevas GPC.

    Para ello se desarrollaron formatos óptimos de presentación y se actualizó el software original de GRADEpro (Kristiansen A, 2015). Sus resultados ya se están implementando en algunas de las instituciones más influyentes en la elaboración de revisiones sistemáticas, la formulación de recomendaciones y toma de decisiones sanitarias como la Colaboración Cochrane, la OMS o la propia NICE. En nuestro entorno ya han sido incorporados en la actualización del manual de elaboración de GPC en el Sistema Nacional de Salud de 2016 (Grupo de trabajo sobre GPC, 2016). Entre los formatos de presentación desarrollados están las tablas interactivas de resumen de los hallazgos (https://isof.epistemonikos.org/#/), las herramientas de apoyo a las decisiones compartidas ligadas a las GPC (Agoritsas T, 2015) o el marco de la evidencia a las decisiones (Alonso Coello P, 2018).

    Existen otros softwares para la aplicación de GRADE. Entre ellos destaca la iniciativa MAGIC (Vandvik, 2013), la cual dispone de MAGIC app, una aplicación para desarrollar GPC electrónicas, síntesis de información y herramientas de apoyo a la toma de decisiones ligada a las GPC. Es un software similar a GRADEpro que destaca por su desarrollo de los aspectos de publicación, simultáneos a los de elaboración.

    Bibliografía

    • Agoritsas T, Heen AF, Brandt L, Alonso-Coello P, Kristiansen A, Akl EA, et al. Decision aids that really promote shared decision making: the pace quickens. BMJ 2015;350:g7624. PubMed PMID: 25670178
    • Alonso-Coello P, Schünemann HJ, Moberg J, et al. Marcos GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones sanitarias bien informadas. 1: Guías de práctica clínica. Gac Sanit. 2018;32(2):166.e1-166.e10. PubMed. PMID: 28822594
    • Alonso-Coello P, Oxman AD, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, et al.; GRADE Working Group. Marcos GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones sanitarias bien informadas. 2: Guías de práctica clínica. Gac Sanit. 2018;32(2):167.e1-167.e10. PubMed. PMID: 28917831
    • Balshem H, Helfand M, Schünemann HJ, Oxman AD, Kunz R, Brozek J, et al. GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol. 2011;64(4):401-6. PubMed PubMed. PMID: 21208779
    • Ezkurra P, Etxeberria A, Idarreta I, Balagué L, Moreno M, Daza P, et al. Protocolo sobre manejo de la diabetes mellitus tipo 2. FMC. 2015;22(Supl. 2):9-40 - Vol. 22 Núm.Supl.2.
    • Grupo de trabajo sobre GPC. Elaboración de Guías de Práctica Clínica en el Sistema Nacional de Salud. Actualización del Manual Metodológico [Internet]. Madrid: Plan Nacional para el SNS del MSC. Instituto Aragonés de Ciencias de la Salud-I+CS; 2016. https://portal.guiasalud.es/wp-content/uploads/2019/01/manual_gpc_completo.pdf
    • Hultcrantz M, Rind D, Akl EA, Treweek S, Mustafa RA, Iorio A, et al. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol. 2017;87:4-13. PubMed PMID: 28529184
    • Instrumento AGREE II. Instrumento para la evaluación de Guías de Práctica Clínica. Traducción a cargo de GuíaSalud. The Agree Research Trust; 2009. http://www.agreetrust.org; versión en español. https://portal.guiasalud.es/wp-content/uploads/2019/01/spanish-agree-ii.pdf
    • MacLean S, Mulla S, Akl EA, Jankowski M, Vandvik PO, Ebrahim S, et al.; American College of Chest Physicians. Patient values and preferences in decision making for antithrombotic therapy: a systematic review: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines. Chest. 2012;141(2 Suppl):e1S-23S. PubMed PMID: 22315262
    • National Collaborating Centre for Chronic Conditions. Chronic obstructive pulmonary disease. National clinical guideline on management of chronic obstructive pulmonary disease in adults in primary and secondary care. Thorax. 2004;59 Suppl 1:1-232. PubMed PMID: 15041752
    • Schünemann H, Brozek J, Guyatt G, Oxman A. [Eds.]. GRADE handbook forgrading quality of evidence and strength of recommendations [Internet]. The GRADE Working Group; 2013. https://book.gradepro.org/
    • Schünemann HJ, Cuello C, Akl EA, Mustafa RA, Meerpohl JJ, Thayer K, et al.; GRADE Working Group. GRADE guidelines: 18. How ROBINS-I and other tools to assess risk of bias in nonrandomized studies should be used to rate the certainty of a body of evidence. J Clin Epidemiol. 2019;111:105–14. PubMed PMID: 29432858
    • Schünemann HJ, Cushman M, Burnett AE, Kahn SR, Beyer-Westendorf J, Spencer FA, et al. American Society of Hematology 2018 guidelines for management of venous thromboembolism: prophylaxis for hospitalized and nonhospitalized medical patients. Blood Adv. 2018;2(22):3198-3225. PubMed PMID: 30482763
    • Schünemann HJ, Zhang Y, Oxman AD; Expert Evidence in Guidelines Group. Distinguishing opinion from evidence in guidelines. BMJ. 2019;366:l4606. PubMed. PMID: 31324659
    • Vandvik PO, Brandt L, Alonso-Coello P, Treweek S, Akl EA, Kristiansen A, et al. Creating clinical practice guidelines we can trust, use, and share: a new era is imminent. Chest. 2013;144(2):381-389. PubMed. PMID 23918106
    • You JJ, Singer DE, Howard PA, Lane DA, Eckman MH, Fang MC, et al.; American College of Chest Physicians. Antithrombotic therapy for atrial fibrillation: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines. Chest. 2012;141 Suppl 2:e531S-75S. PubMed PMID: 22315271

    Autores

    Pablo Alonso Coello Médico Especialista en Medicina Familiar y Comunitaria (1)
    Rafael Rotaeche del Campo Médico Especialista en Medicina Familiar y Comunitaria (2)

    (1) Instituto de Investigación Sant Pau (IR Sant Pau), Barcelona.
    (2) Unidad de investigación AP y OSIS Gipuzkoa. IIS-BIogipuzkoa.

    Infografía


    Nota: Esta infografía complementa la lectura atenta de la Guía.

    Conflicto de intereses
    Los autores declaran no tener ningún conflicto de intereses.
    © Descargado el 21/06/2025 14:25:38 Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright © . Elsevier Inc. Todos los derechos reservados.