Fisterra

    La evaluación de la calidad de la evidencia y la graduación de la fuerza de las recomendaciones: el sistema GRADE

    Características del sistema GRADE


    Las guías de práctica clínica (GPC) han experimentado una enorme transformación durante las últimas dos décadas. El sistema para clasificar la calidad de la evidencia y graduar la fuerza de la recomendación es uno de los aspectos que más se ha modificado.

    La actualización del manual de elaboración de GPC en el Sistema Nacional de Salud de 2016 (Grupo de trabajo sobre GPC, 2016) ya presenta únicamente la metodología desarrollada por el grupo GRADE (Grading the Quality of Evidence and the Assessment of Recomendations) (Alonso-Coello P, 2013; Schünemann H, 2013), para evaluar la calidad de la evidencia y formular las recomendaciones. En dicha actualización ya no se incluye el sistema SIGN (Scottish Intercollegiate Guidelines Network), como en la versión anterior. Progresivamente, por tanto, las guías del Programa de Guías de Práctica Clínica en el Sistema Nacional de Salud (SNS) que ahora utilizan el sistema SIGN serán progresivamente actualizadas con el sistema GRADE.

    Las diferencias más relevantes entre GRADE (http://www.gradeworkinggroup.org) y otros sistemas previos son las siguientes (Grupo de trabajo sobre GPC, 2016):

    • La evaluación de la calidad de la evidencia se centra en el análisis por separado para cada desenlace de interés, que el grupo de trabajo habrá priorizado previamente en la fase de formulación de preguntas clínicas.
    • Se amplía la habitual evaluación del riesgo de sesgo a otros factores como, por ejemplo, la consistencia de los resultados o su precisión.
    • Se separa de forma explícita la definición de la calidad de la evidencia y de la fuerza de las recomendaciones.

    El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la formulación de la pregunta y la selección de los desenlaces de interés, hasta la formulación de las recomendaciones y su redacción (Grupo de trabajo sobre GPC, 2016). En este capítulo desarrollamos con detalle las fases de evaluación de la evidencia y formulación de recomendaciones.

    Al separar explícitamente la calidad de la evidencia y la fuerza de las recomendaciones, GRADE se utiliza también para la evaluación de la calidad de la evidencia en las revisiones sistemáticas; de hecho, la Colaboración Cochrane ha adoptado este sistema.

    Respecto a la formulación de las preguntas clínicas, GRADE propone la clasificación de la importancia de los desenlaces de interés, normalmente desde el punto de vista del paciente o aquellos afectados por las recomendaciones. Los desenlaces más importantes serán los que deben ser considerados a la hora de evaluar su calidad, así como a la hora de formular las recomendaciones.

    El sistema GRADE, tal y como se describe en capítulos previos, clasifica la importancia de los desenlaces en tres categorías, en una escala de 1 a 9.

    • 7-9: desenlace clave (o crítico) para la toma de decisiones.
    • 4-6: desenlace importante pero no clave para la toma de decisiones.
    • 1-3: desenlace no importante. Estos desenlaces no juegan un papel relevante en la formulación de las recomendaciones y no se incluyen en la tabla de evaluación de la calidad o de los resultados.

    Por ejemplo, a la hora de clasificar los desenlaces para la evaluación de la eficacia de bisfosfonatos en mujeres con alto riesgo de fractura, podríamos clasificar como claves la fractura de cadera, la fractura vertebral clínica y la calidad de vida, importante pero no clave la fractura vertebral radiológica, y como no importante la densidad mineral ósea y los marcadores óseos.

    GRADE establece también que las preguntas clínicas deben estar claramente definidas, no solo en los componentes en formato PICO (Paciente, Intervención, Comparación y Desenlace o Outcome), sino también en lo que se refiere al entorno y la perspectiva desde la que se aborda la pregunta (Alonso-Coello P, 2016; Alonso-Coello P, 2016b). La perspectiva de las guías de práctica clínica del Programa de Guías de Práctica Clínica en el Sistema Nacional de Salud (SNS) es, por ejemplo, poblacional. Otras guías como, por ejemplo, muchas de las realizadas por sociedades científicas, pueden preferir no tener esta perspectiva y centrarse únicamente en aspectos relacionados con una perspectiva individual.

    En el Instrumento AGREE II (Instrumento AGREE II, 2009), los criterios más relevantes relacionados con la formulación de recomendaciones se recogen en el dominio “rigor en la elaboración”:

    1. Los métodos para formular las recomendaciones, ¿están claramente descritos?
    2. Al formular las recomendaciones, ¿han sido considerados los beneficios de salud, efectos secundarios y los riesgos?
    3. ¿Hay una relación clara entre cada una de las recomendaciones y las evidencias en las que se basan?

    El sistema GRADE propone las siguientes definiciones (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):

    • Calidad de la evidencia: indica hasta qué punto nuestra confianza en la estimación de un efecto es adecuada para apoyar una recomendación.
    • Fuerza de la recomendación: indica hasta qué punto podemos confiar si poner en práctica la recomendación conllevará más beneficios que riesgos.

    El sistema GRADE puede utilizarse para dar respuesta a distintos tipos de preguntas: sobre tratamiento, diagnóstico, pronóstico, etc. En este curso describiremos fundamentalmente el sistema GRADE referido a preguntas sobre tratamiento, ya que es la parte más utilizada y la más desarrollada por el momento en GRADE. En cualquier caso, la mayoría de los conceptos que se abordan pueden ser aplicados a otro tipo de preguntas, con sus matizaciones. Para profundizar sobre GRADE y su utilización para dar respuesta a otro tipo de preguntas, puede consultarse la bibliografía más extensa (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013).

    Puntos clave
    • El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la formulación de la pregunta y la selección de los desenlaces de interés hasta la formulación de las recomendaciones y su redacción.
    • La calidad de la evidencia refleja la confianza que se puede depositar en los resultados de la literatura científica para apoyar una recomendación en particular.
    • La evaluación de la calidad de la evidencia se realiza para cada desenlace de interés importante para los pacientes. Asimismo, se realiza una evaluación global para todos los desenlaces a fin de informar el proceso de decisión entre la evidencia y la recomendación.
    • La fuerza de la recomendación indica hasta qué punto podemos confiar si poner en práctica la recomendación conllevará más beneficios que riesgos.
    • Para estructurar la información y favorecer la transparencia en el paso de la evidencia a las recomendaciones o decisiones, el grupo GRADE ha elaborado unos marcos denominados marcos de la Evidencia a la Decision (Evidence to Decision (EtD) frameworks).

    Evaluación de la calidad de la evidencia


    La calidad de la evidencia, también denominada confianza o, más recientemente, certidumbre, en las GPC refleja el grado de confianza que tenemos en que la estimación de un efecto es adecuada para apoyar una recomendación y se evalúa para cada uno de los desenlaces de interés (idealmente los claves y, en ausencia de éstos, los importantes).

    Aunque la calidad de la evidencia es un espectro continuo, GRADE propone una clasificación en cuatro categorías (Alonso-Coello P, 2013; Balshem H, 2011):

    Tabla 1. Clasificación de la calidad de la evidencia.
    Alta Confianza alta en que el estimador del efecto disponible en la literatura científica se encuentra muy cercano al efecto real.
    Moderada Es probable que el estimador del efecto se encuentre cercano al efecto real, aunque podrían existir diferencias sustanciales.
    Baja El estimador del efecto puede ser sustancialmente diferente al efecto real.
    Muy baja Es muy probable que el estimador del efecto sea sustancialmente diferente al efecto real.


    En el sistema GRADE, la calidad de la evidencia para un determinado desenlace arranca con el diseño de los estudios: inicialmente considera a los ensayos clínicos aleatorizados (ECA) como fuente de calidad alta, y a los estudios observacionales sin limitaciones importantes como fuente de calidad baja. En las revisiones sistemáticas, la evaluación de los factores que afectan a la calidad de la evidencia debe realizarse sobre el diseño y las características de los estudios que incluye la revisión (ya sea un conjunto de estudios o de un único estudio). Las series de casos son estudios observacionales no controlados en los que la calidad de la evidencia debería bajarse automáticamente de baja a muy baja. La opinión de experto no se considera un tipo de evidencia científica al que aplicar los factores modificadores de la calidad de la evidencia, sino que refleja la interpretación de los resultados de la evidencia, o de la ausencia de ésta, en función de su conocimiento y experiencia.

    A partir de este punto inicial (calidad alta para ensayos clínicos y baja para estudios observacionales), aplica los siguientes factores para bajar o subir la calidad de la evidencia (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013; Alonso-Coello P, 2013) (tabla 2):

    Tabla 2. Factores que modifican la calidad de la evidencia.
    Factores que permiten bajar la calidad de la evidencia
    Limitaciones en el diseño o ejecución de los estudios ↓ 1 o 2 grados
    Inconsistencia entre los resultados de diferentes estudios ↓ 1 o 2 grados
    Disponibilidad de evidencia indirecta ↓ 1 o 2 grados
    Imprecisión de los estimadores del efecto ↓ 1 o 2 grados
    Sesgo de publicación ↓ 1 grado
    Factores que permiten aumentar la calidad de la evidencia
    Magnitud del efecto importante ↑ 1 o 2 grados
    Gradiente dosis-respuesta relevante ↑ 1 grado
    Impacto de las variables de confusión plausibles ↑ 1 grado


    Factores que pueden bajar la calidad de la evidencia
    (Alonso-Coello P, 2013; Balshem H, 2011; Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):

    Al valorar la calidad de la evidencia para un desenlace, tanto para los ECA, que de antemano se consideran como calidad alta para evaluar el efecto de diferentes intervenciones, como para los estudios observacionales, que de antemano se consideran como calidad baja, existen factores que pueden disminuir la calidad en uno o dos grados:

    a) Limitaciones en el diseño o la ejecución de los estudios (riesgo de sesgo).

    En los ECA se consideran: las limitaciones en la secuencia de aleatorización, limitaciones en el enmascaramiento de investigadores, personal implicado en el estudio o participantes en el estudio, pérdidas de seguimiento importantes y la ausencia de análisis por intención de tratar, descripción selectiva de los resultados u otros sesgos (ensayos interrumpidos prematuramente por beneficio, uso de medidas de resultado no validadas, etc.).

    En los estudios observacionales se consideran: limitaciones en los criterios de inclusión de los pacientes, limitaciones en la medida de los resultados (como el sesgo de memoria), el control inadecuado de los factores de confusión o el seguimiento incompleto.

    A la hora de valorar globalmente el riesgo de sesgo de un conjunto de estudios con diferentes limitaciones, se debe realizar un juicio global, teniendo en cuenta la contribución de los estudios a la estimación del efecto (por ejemplo, los estudios de mayor tamaño contribuyen más o dando más peso a los de mejor calidad).

    b) Inconsistencia entre los resultados de diferentes estudios.

    La inconsistencia se refiere a la variabilidad o heterogeneidad de los resultados entre los estudios disponibles para un determinado desenlace. Se deben explorar las posibles causas de la variabilidad, principalmente las diferencias en la población, la intervención, los desenlaces o el riesgo de sesgo de los estudios.

    En los metanálisis, la existencia de heterogeneidad se suele medir mediante una prueba de contraste de hipótesis (una p <0,10 nos sugiere que los resultados difieren entre sí más de lo que cabría esperar por el mero azar) o mediante el estadístico I2 (adquiere valores entre 0 y 100, mide la magnitud de la heterogeneidad, cuanto mayor sea su valor mayor heterogeneidad). En ocasiones, la diferencia en la variabilidad de los resultados puede explicarse por diferencia entre distintos subgrupos; en estos casos puede ser más adecuado realizar recomendaciones diferenciadas para los subgrupos en lugar de bajar la calidad de la evidencia por inconsistencia.

    c) Ausencia de evidencia directa.

    La confianza en un estimador se reduce si se detecta que existen diferencias importantes entre la población donde se aplicará la GPC y la incluida en los estudios (por ejemplo, medio hospitalario vs. atención primaria, o pacientes de alto riesgo vs. bajo riesgo), entre la intervención que se pretende evaluar y la que se practicó en los estudios disponibles (por ejemplo, un programa de deshabituación tabáquica realizada por un equipo multidisciplinar vs. intervención de deshabituación en la consulta). También se debe considerar disminuir la calidad de la evidencia por evidencia indirecta ante la ausencia de comparaciones directas entre las intervenciones de interés o cuando no existen desenlaces claves y la recomendación se basa sólo en desenlaces intermedios.

    d) Imprecisión.

    Para evaluar la precisión al estimar el efecto de una intervención para un desenlace, se debe considerar su intervalo de confianza y el umbral que determina la diferencia clínicamente relevante para los pacientes. Si una decisión clínica o recomendación pudiera ser diferente dependiendo de si se tiene en cuenta un extremo u otro del intervalo de confianza como el efecto "real" de una intervención, la confianza (y, por tanto, la calidad) en la estimación del efecto deberían disminuir. Asimismo, incluso con un intervalo de confianza preciso según estos criterios, si el número de sucesos o el número de sujetos evaluados en los diferentes estudios son escasos, se debe considerar la necesidad de disminuir la calidad.

    En las GPC se valora un conjunto de desenlaces de interés y la decisión de bajar la calidad de la evidencia por imprecisión depende del umbral que determina la diferencia mínima relevante para los pacientes y del balance entre efectos deseables e indeseables de la intervención.

    Por ejemplo, si un fármaco anticoagulante para la prevención de episodios vasculares (ictus isquémicos) reduce el riesgo en un 5% (intervalo de confianza del 95% [IC: 95%] del 9 al 1%) en términos absolutos, las repercusiones de esta imprecisión deberían valorarse teniendo en cuenta también los riesgos. Si el fármaco se asociara a un incremento absoluto de las hemorragias graves extracraneales del 4%, no realizaríamos la misma recomendación en los dos extremos del intervalo de confianza para la reducción de ictus: en el supuesto de una reducción del riesgo de ictus del 1%, los riesgos son superiores a los beneficios, mientras que en el supuesto del 9%, los beneficios podrían compensar los riesgos. En este caso, bajaríamos la calidad de la evidencia por imprecisión para el desenlace de ictus.

    e) Sesgo de publicación.

    La calidad puede disminuir si se tiene la duda razonable de que no se hayan incluido todos los estudios realizados. La situación más frecuente se produce cuando, en el contexto de una revisión sistemática, se incluyen selectivamente los estudios que han mostrado resultados “positivos” (favorables a la intervención) y se omiten algunos estudios con resultados “negativos”, sobrestimando en su conjunto el efecto de la intervención. Existen pruebas estadísticas y gráficas que pueden orientar a la existencia de un sesgo de publicación, como la revisión de los gráficos de embudo (funnelplots). Esta situación puede llegar a ser más frecuente y difícil de detectar en los estudios observacionales.

    Factores que pueden aumentar la calidad de la evidencia:

    Las situaciones que pueden llevar a incrementar la confianza con los resultados de los estudios son poco comunes y se suelen aplicar sobre todo a estudios observacionales que evalúan el impacto de una intervención. Estos aspectos se deberían evaluar después de constatar que no se encuentra presente ninguna condición para disminuir la calidad de la evidencia debido a un potencial riesgo de sesgo u otros factores que se han citado previamente.

    a) Fuerza de la asociación.

    Cuando el efecto observado muestra una asociación fuerte (riesgo relativo u odds ratio >2 ó <0,5) o muy fuerte (riesgo relativo u odds ratio >5 ó <0,2), es más improbable que este efecto sea debido a una sobrestimación debido a los factores de confusión y más probable que el efecto observado sea más cercano al efecto real. En estos casos la calidad puede subir en 1 ó 2 grados. Por ejemplo, una revisión sistemática de estudios observacionales sobre la posición de los lactantes en la cuna a la hora de dormir para evitar el síndrome de muerte súbita mostró una reducción importante del riesgo para la posición boca arriba con un OR de 4,1 (IC: 95% 3,1 a 5,5).

    b) Gradiente dosis-respuesta.

    La existencia de un gradiente dosis-respuesta es un factor reconocido para establecer con mayor certidumbre una relación causa-efecto. En estas circunstancias este gradiente puede aumentar nuestra confianza en los resultados.

    c) Impacto de las variables de confusión plausibles.

    En los estudios observacionales rigurosos se controlan los factores pronósticos conocidos asociados con el desenlace de interés. No siempre es posible controlar todas las variables de confusión, que pueden reducir o reforzar el impacto de la intervención. Por ejemplo, varios estudios observacionales han mostrado que el uso del preservativo por parte de varones que tienen sexo con varones reduce el riesgo de infección por VIH comparado con no usarlo, estudios en los que el análisis no se ha ajustado por el número de parejas sexuales. Otros estudios han mostrado que los usuarios de preservativos tienen un mayor número de parejas sexuales que los varones que no los usan. De haberse ajustado por este factor, es posible que la asociación entre uso de preservativo y prevención de infección por VIH fuera mayor (Grupo de trabajo sobre GPC, 2016).

    Estos factores que pueden aumentar o disminuir la calidad de la evidencia no deben tomarse como elementos individuales que puedan sumarse o restarse para obtener una clasificación de la calidad, sino que deben ser considerados en su conjunto. Por ejemplo, a la hora de valorar cuáles son las cifras de control glucémico más adecuadas en pacientes con diabetes tipo 2 (control intensivo vs. habitual), nos encontramos con que, para el desenlace de mortalidad cardiovascular, la calidad de la evidencia se basa en 18 ensayos clínicos sin limitaciones importantes, pero con un intervalo de confianza impreciso (ver tabla 3) y una cierta heterogeneidad en los resultados (I2= 37% p= 0,09). Teniendo en cuenta ambos factores, bajamos la calidad de alta a moderada, pero no a baja.

    Una vez evaluada la calidad de la evidencia científica para cada desenlace, se debe realizar una clasificación global de la calidad de la evidencia, lo que implica realizar un juicio general de la calidad entre los desenlaces clave para una determinada pregunta clínica. En este proceso, se deberían considerar sólo los desenlaces clave, aunque no siempre existen datos. En el caso de los fármacos para la osteoporosis, se consideraría la calidad de la evidencia para las fracturas, pero no la de la densidad mineral ósea.

    Presentación de los resultados de la evaluación de la evidencia


    Los perfiles de evidencia son un buen método para presentar la evidencia disponible y los juicios sobre su calidad. Puede presentarse en forma de perfiles de GRADE (GRADE evidence profile) o en forma más resumida (Summary of Findings). La tabla 3 muestra el perfil de la evidencia para la pregunta respecto a las cifras objetivo de HbA1c en la diabetes tipo 2 (control estricto vs. convencional de la glucemia).

    Tabla 3. Ejemplo de perfil de evidencia. (Hemmingsen B, 2011)
    Evaluación de la calidad Resumen de los resultados Calidad Importancia
    Nº de pacientes Magnitud del efecto
    Nº de estudios Diseño Riesgo
    de sesgo
    Inconsistencia Evidencia
    indirecta
    Imprecisión Sesgo
    publicación
    Relativa
    (95% CI)
    Desenlace 1: Mortalidad por todas las causas.
    18 ECA Sin limitaciones
    importantes
    No importante
    I2= 40%
    p= 0,08
    No (-1)a Poco
    probable
    29.731 RR 1,01
    (0,9-1,13)

    Moderada
    Clave
    Desenlace 2: Mortalidad cardiovascular.
    18 ECA Sin limitaciones
    importantes
    No importante
    I2= 37%
    p= 0,09
    No (-1)a Poco
    probable
    29.731 RR 1,06
    (0,9-1,26)

    Moderada
    Clave
    Desenlace 3: IAM no fatal.
    12 ECA Sin limitaciones
    importantes
    No importante No (-1)a Poco
    probable
    29.174 RR 0,87
    (0,76-1,0)

    Moderada
    Clave
    Desenlace 4: ACV no fatal.
    11 ECA Sin limitaciones
    importantes
    No importante
    I2= 20%
    p= 0,26
    No Pocos
    eventos
    (-1)a
    Poco
    probable
    28.760 RR 0,96
    (0,8-1,16)

    Moderada
    Clave
    Desenlace 5: Insuficiencia renal terminal.
    7 ECA Sin limitaciones
    importantes
    No importante b No Poco
    probable
    28.075 RR 0,87
    (0,71-1,06)

    Moderada
    Clave
    Desenlace 6: Retinopatía.
    8 ECA Sin limitaciones
    importantes

    I2= 53%
    p= 0,04
    b No Poco
    probable
    10.953 RR 0,79
    (0,68-0,92)

    Moderada
    Importante
    Desenlace 7: Hipoglucemia severa.
    12 ECA Sin limitaciones
    I2= 79%
    p >0,00001
    No No Poco
    probable
    28.127 RR 2,05
    (1,39-3,02)


    Alta
    Clave
    Desenlace 8: Amputaciones (extremidades inferiores).
    6 ECA Sin limitaciones
    importantes
    No importante No (-2)c Poco
    probable
    6.960 RR 0,64
    (0,43 a 0,95)


    Baja
    Clave
    a Desenlace 1, 2 y 3: el análisis secuencial de los ensayos informó que se necesitan más datos.
    Desenlace 7: la heterogeneidad fue considerable, explicable por cómo se define la hipoglucemia. Es improbable que ello cambie el resultado.
    b Variables subrogadas.
    c Pocas amputaciones.


    En este ejemplo, considerando todos los desenlaces, la calidad global de la evidencia sería moderada.

    Cada pregunta clínica deber acompañarse además de un resumen redactado de forma narrativa, en el que se describen brevemente los resultados de la búsqueda, la selección de estudios, sus características y resultados de los estudios para los distintos desenlaces.

    Formulación de las recomendaciones


    La fuerza de una recomendación refleja el grado de certeza de que los efectos deseables de una intervención recomendada superan sus efectos no deseables, o viceversa, en la población de interés. El sistema GRADE considera dos categorías en relación a la fuerza de las recomendaciones (Grupo de trabajo sobre GPC, 2016):

    • Recomendación fuerte: se refiere a una recomendación con confianza en que los efectos deseados de la intervención superan a los indeseables (recomendación fuerte a favor), o en que los efectos indeseados de la intervención superan los deseados (recomendación fuerte en contra).
    • Recomendación débil: se refiere a una recomendación según la cual los efectos deseables probablemente superan los efectos no deseables (recomendación débil a favor de una intervención) o los efectos no deseables probablemente son mayores que los efectos deseables (recomendación débil en contra de una intervención), pero con una incertidumbre apreciable.

    En la tabla 4 se resumen las implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas (pacientes, clínicos y gestores).

    Tabla 4. Implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas (pacientes, clínicos y gestores).
    Recomendación fuerte Recomendación débil
    Para pacientes La mayoría de las personas estarían de acuerdo con la acción recomendada y sólo una pequeña proporción no lo estaría.

    Las herramientas formales para la toma de decisiones probablemente no serán necesarias para ayudar a las personas a tomar decisiones coherentes con sus valores y preferencias.
    La mayoría de las personas en esta situación estarían de acuerdo con la acción sugerida, pero muchos no lo estarían.

    Las herramientas para la toma de decisiones pueden ser útiles como ayuda para la toma de decisiones coherentes con los valores y preferencias de cada persona.
    Para profesionales sanitarios La mayoría de las personas debería recibir la intervención recomendada. Reconoce que diferentes opciones serán apropiadas para cada paciente individual y que se deberá alentar a que cada paciente alcance una decisión de manejo coherente con sus valores y preferencias.

    Las herramientas para la toma de decisiones pueden ser útiles como ayuda para la toma de decisiones coherentes con los valores y preferencias de cada persona.
    Para decisores/gestores La recomendación puede ser adaptada a la política sanitaria en la mayoría de las situaciones.

    La adherencia a esta recomendación incluida en la guía, puede ser utilizado como un criterio de calidad o indicador de rendimiento.
    El desarrollo de políticas sanitarias requerirá considerables debates y la participación de los diversos grupos de interés.

    La documentación adecuada del proceso de toma de decisiones para una recomendación débil podría utilizarse como una medida de calidad, en particular, si está basada en evidencia de alta calidad.


    De la evidencia a la recomendación: factores a tener en cuenta en la graduación de las recomendaciones
    (Alonso-Coello P, 2016; Alonso-Coello P, 2018; Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):

    El paso de la evidencia a la recomendación requiere tener en cuenta otros aspectos, además de la calidad de la evidencia. Estos aspectos o “juicios” deben reflejarse de forma explícita y transparente. Para estructurar la información y favorecer la transparencia en el paso de la evidencia a las recomendaciones o decisiones, el grupo GRADE ha elaborado una serie de marcos para la formulación de las recomendaciones y otras decisiones denominado Evidence to Decision (EtD) frameworks (Alonso-Coello P, 2018 [1]; Alonso-Coello P, 2018 [2]). Para cada una de las preguntas, se debe presentar claramente la pregunta, los subgrupos de población a los que va dirigido, el entorno (ámbito al cual va dirigida la recomendación) y la perspectiva (por ejemplo, poblacional o paciente individual), y los siguientes criterios y consideraciones:

    1. Prioridad del problema: ¿el problema constituye una prioridad? Cuanto más severo es un problema, más probable es que sea una prioridad y que deba formularse una recomendación fuerte.
    2. Efectos deseables e indeseables: ¿cuál es la magnitud de los efectos deseables (beneficios)?¿Cuál es la magnitud de los efectos indeseables (riesgos y carga de tratamiento)? Cuanto más sustanciales sean los efectos deseables y menos los indeseables, es más probable que deba recomendarse una intervención y, por tanto, mayor probabilidad de formular una recomendación fuerte.
    3. Calidad de la evidencia: ¿cuál es la calidad global de la evidencia? (alta, moderada, baja, muy baja, no hay estudios incluidos). Cuanto mayor sea la calidad de la evidencia, mayor probabilidad de realizar una recomendación fuerte.
    4. Importancia de los desenlaces para los pacientes. ¿Existe incertidumbre o variabilidad en cómo los pacientes valoran los desenlaces de interés? Cuanto mayor sea la incertidumbre, menor es la probabilidad de formular una recomendación fuerte. En el caso de la diabetes tipo 2 y el control estricto de la glucemia frente al convencional, existe incertidumbre acerca de cómo los pacientes valorarán la carga de la medicación debida a un control más estricto (posible insulinización, más fármacos orales, más analíticas y consultas), el mayor riesgo de hipoglucemia frente a ligeros beneficios en las complicaciones para la diabetes.
    5. Teniendo en cuenta la magnitud de los beneficios y riesgos y la incertidumbre respecto a cómo los pacientes valoran los distintos desenlaces, el balance entre los efectos deseados e indeseados, ¿favorece a la intervención? En el caso del control glucémico, el balance entre beneficios y riesgos es muy ajustado: puede mejorar alguna de las complicaciones de la diabetes en pequeña magnitud a costa de un mayor riesgo de hipoglucemia severa y de mayor carga del tratamiento, con incertidumbre acerca de cómo los pacientes pueden valorar estos resultados. Todo ello hace más probable que la recomendación sea débil, a pesar de que la calidad de la evidencia sea moderada.
      Desenlaces:
      1. Mortalidad por todas las causas: sin efecto.
      2. Mortalidad cardiovascular: sin efecto.
      3. IAM no fatal: poco beneficio.
      4. ACV no fatal: sin efecto.
      5. Nefropatía: sin efecto.
      6. Retinopatía: poco beneficio.
      7. Hipoglucemia: riesgos/inconv. importantes/modestos.
      8. Amputaciones: poco beneficio.
    6. Recursos/Costes. ¿Son altos los costes que se requieren para poner en marcha la intervención?¿Es alta la incertidumbre en torno a los recursos necesarios? Cuanto mayor es el coste, menos probable es que una intervención se recomiende. Cuando el uso de recursos se considera fundamental para una decisión acerca de una recomendación, es aconsejable su evaluación económica mediante métodos formales o la búsqueda de evidencia acerca de su relación entre costes y beneficios.
    7. Teniendo en cuenta el balance entre efectos deseables e indeseables, es decir, el beneficio neto (criterios 2 a 5) y el coste, la relación coste-beneficio, ¿favorece la intervención?
    8. Equidad, aceptabilidad y factibilidad. ¿Cuál es el impacto sobre la equidad?¿Es aceptable la intervención para los grupos de interés clave?¿Es factible implementar la intervención?

    Otros ejemplos:

    • El tratamiento con corticoides sistémicos en las exacerbaciones en la enfermedad pulmonar obstructiva crónica (EPOC) presenta un balance beneficio-riesgo favorable (reduce el riesgo de fracaso terapéutico, la necesidad de tratamiento adicional, la estancia hospitalaria y aumenta la capacidad funcional, aunque presenta eventos adversos leves). La calidad de la evidencia es moderada. No hay razones para pensar que la mayoría de los pacientes, una vez informados, no aceptarían el tratamiento. Y finalmente, el coste de los corticoides es muy bajo. En conjunto, por tanto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la estimación del efecto) y no hay otros factores adicionales que nos hagan disminuir nuestra confianza en que el llevar a cabo esta recomendación conllevaría más beneficios que daños. No conlleva problemas de equidad ni de factibilidad. Por tanto, el grupo elaborador de una guía probablemente realizaría una recomendación fuerte a favor del uso de corticoides en las exacerbaciones de la EPOC (National Collaborating Centre for Chronic Conditions, 2004).
    • La prevención del ictus en pacientes con fibrilación auricular de riesgo intermedio (CHADS2= 1) con anticoagulantes orales, bien antagonistas de la vitamina K (warfarina y acenocumarol) o nuevos anticoagulantes orales (NACO) en comparación con aspirina. Warfarina muestra un balance beneficio riesgo favorable (9 ictus menos y 3 sangrados extracraneales no fatales más por cada 1.000 pacientes tratados), siendo la calidad de la evidencia moderada (You JJ, 2012). No se dispone de datos comparativos entre aspirina y nuevos anticoagulantes (aunque sí entre warfarina y NACO, la evidencia para los NACO sería, en todo caso, indirecta). En cuanto a los valores y preferencias, los pacientes asignan, en términos generales, tres veces más importancia a evitar un ictus que a sufrir un sangrado extracraneal grave. No obstante, estas estimaciones de los valores y preferencias son muy variables (MacLean S, 2012). En cuanto al coste, aspirina y warfarina tienen bajo coste. En el caso de los NACO, el coste es mucho más elevado y en nuestro medio su impacto en presupuesto es muy relevante. En conjunto, por tanto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la estimación del efecto) y el coste es bajo para warfarina. El balance entre beneficios y riesgo favorece a warfarina, aunque, debido al riesgo basal relativamente bajo de estos pacientes, es modesto. Los valores y preferencias de los pacientes son variables. Por tanto, hay algunos factores que disminuyen nuestra confianza en que el llevar a cabo esta recomendación conllevaría más beneficios que daños en la mayoría de pacientes. Por tanto, el grupo elaborador de una guía probablemente formularía una recomendación débil a favor de los anticoagulantes antagonistas de la vitamina K, comparados con la aspirina, en esta población (You JJ, 2012). No recomendaría los NACO en esta población, debido sobre todo a la ausencia de evidencia directa y a su alto coste.

    Respecto a la redacción de recomendaciones, GRADE propone la adopción de una terminología específica para reflejar la fuerza, utilizando para ello expresiones como “se recomienda/no se recomienda” o “se debe/no se debe” cuando se habla de recomendaciones fuertes, y “se sugiere/no se sugiere” o “se podría” para recomendaciones débiles.

    La recomendación acerca del control glucémico sería débil y quedaría redactada de la siguiente forma (Ezkurra P, 2015):

    “En general se sugieren unas cifras objetivo orientativas menores del 7% de HbA1c. No obstante, el objetivo debería estar basado en la evaluación individualizada teniendo en cuenta el riesgo de complicaciones de la diabetes, comorbilidad, esperanza de vida y preferencias de los pacientes.

    Se sugiere plantear objetivos menos estrictos, entre 7,5%-8%, para los ancianos, pacientes con multimorbilidad o para iniciar la insulinización o la triple terapia.

    Se puede considerar un tratamiento intensivo con el objeto de reducir las cifras de HbA1c por debajo del 6,5% en pacientes jóvenes o recién diagnosticados sin comorbilidad.

    Se sugiere implicar a las personas con diabetes tipo 2 en las decisiones sobre su nivel objetivo de HbA1c.”

    Tecnologías para aplicación de GRADE


    El sistema GRADE cuenta con un software para la aplicación del mismo denominado GRADEpro GDT. El software es una propuesta para sintetizar y presentar información para la toma de decisiones en el campo de la salud. GRADEpro GDT permite la elaboración de tablas de resumen de los hallazgos tanto para revisiones sistemáticas como para las evaluaciones de tecnologías, facilitando el desarrollo de GPC y otro tipo de decisiones. Recientemente, ha incorporado una base de datos que incluye un repositorio de este tipo de formatos para su adopción, adaptación o uso en nuevas GPC. GRADEpro GDT, así como algunos de los formatos de presentación, han sido desarrollados gracias al proyecto DECIDE (Developing and Evaluating Communication Strategies to Support Informed Decisions and Practice Based on Evidence) (Treweek S, 2013).

    DECIDE es un proyecto Europeo impulsado por el grupo GRADE que tuvo como objetivo mejorar la diseminación de las recomendaciones en salud para diferentes grupos de interés (profesionales sanitarios, ciudadanos, pacientes y gestores). Para ello se desarrollaron formatos óptimos de presentación y se actualizó el software original de GRADEpro (Kristiansen, 2015). Sus resultados ya se están implementando en algunas de las instituciones más influyentes en la elaboración de revisiones sistemáticas, la formulación de recomendaciones y toma de decisiones sanitarias como la Colaboración Cochrane, la OMS o la propia NICE. En nuestro entorno ya han sido incorporados en la actualización del manual de elaboración de GPC en el Sistema Nacional de Salud de 2016 (Grupo de trabajo sobre GPC, 2016). Entre los formatos de presentación desarrollados están las tablas interactivas de resumen de los hallazgos (https://isof.epistemonikos.org/#/), las herramientas de apoyo a las decisiones compartidas ligadas a las GPC (Agoritsas T, 2015) o el marco de la evidencia a las decisiones (Alonso Coello P, 2016).

    Existen otros softwares para la aplicación de GRADE. Entre ellos destaca la iniciativa MAGIC (Vandvik, 2013), la cual dispone de MAGIC app, una aplicación para desarrollar GPC electrónicas, síntesis de información y herramientas de apoyo a la toma de decisiones ligada a las GPC. La iniciativa colaboró junto al grupo GRADE en el desarrollo de los formatos de presentación resultado del proyecto DECIDE mencionado anteriormente. Es un software similar a GRADEpro que destaca por su desarrollo de los aspectos de publicación, simultáneos a los de elaboración.

    La evaluación de estos nuevos formatos de presentación electrónicas de las GPC han sido favorables entre los profesionales a los que van dirigidas las GPC (Brandt, 2017).

    Bibliografía

    • Agoritsas T, Heen AF, Brandt L, Alonso-Coello P, Kristiansen A, Akl EA, et al. Decision aids that really promote shared decision making: the pace quickens. BMJ 2015;350:g7624. Texto completo
    • Alonso-Coello P, Schünemann HJ, Moberg J, et al. Marcos GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones sanitarias bien informadas. 1: Guías de práctica clínica. Gac Sanit. 2018;32(2):166.e1-166.e10. PMID: 28822594. Texto completo
    • Alonso-Coello P, Oxman AD, Moberg J, et al. Marcos GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones sanitarias bien informadas. 2: Guías de práctica clínica. Gac Sanit. 2018;32(2):167.e1-167.e10. PMID: 28917831. Texto completo
    • Alonso-Coello P, Rigau D, Solà I, Martínez García L. La formulación de recomendaciones en salud: el sistema GRADE. MedClin (Barc). 2013;140(8):366-73. Texto completo
    • Alonso-Coello P, Schünemann HJ, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, Treweek S, Mustafa RA, Rada G, Rosenbaum S, Morelli A, Guyatt GH, Oxman AD; GRADE Working Group. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed healthcare choices. 1: Introduction. BMJ. 2016 Jun 28;353:i2016. PubMed PMID: 27353417. Texto completo
    • Alonso-Coello P, Oxman AD, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, Treweek S, Mustafa RA, Vandvik PO, Meerpohl J, Guyatt GH, Schünemann HJ; GRADE Working Group. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed healthcare choices. 2: Clinical practice guidelines. BMJ. 2016 Jun 30;353:i2089. PubMed PMID: 27365494. Texto completo
    • Balshem H, Helfand M, Schünemann HJ, Oxman AD, Kunz R, Brozek J, Vist GE, Falck-Ytter Y, Meerpohl J, Norris S, Guyatt GH. GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol. 2011 Apr;64(4):401-6. PubMed PMID: 21208779. Texto completo
    • Brandt L, Vandvik PO, Alonso-Coello P, Akl EA, Thornton J, Rigau D, et al. Multilayered and digitally structured presentation formats of trustworthy recommendations: a combined survey and randomised trial. BMJ Open. 2017 Feb 10;7(2):e011569. PMID: 28188149. Texto completo
    • Ezkurra P, Etxeberria A, Idarreta I, Balagué L, Moreno M, Daza P, Villa I, Etxeandia I. Protocolo sobre manejo de la diabetes mellitus tipo 2. FMC. 2015;22(Supl. 2):9-40 - Vol. 22 Núm.Supl.2.
    • Grupo de trabajo sobre GPC. Elaboración de Guías de Práctica Clínica en el Sistema Nacional de Salud. Actualización del Manual Metodológico [Internet]. Madrid: Plan Nacional para el SNS del MSC. Instituto Aragonés de Ciencias de la Salud-I+CS; 2016. [consultado: septiembre 2016]. Disponible en: https://portal.guiasalud.es/wp-content/uploads/2019/01/manual_gpc_completo.pdf
    • Hemmingsen B, Lund SS, Gluud C, Vaag A, Almdal T, Hemmingsen C, Wetterslev J. Targeting intensive glycaemic control versus targeting conventional glycaemic control for type 2 diabetes mellitus. Cochrane Database Syst Rev. 2011 Jun 15;(6):CD008143. PubMed PMID: 21678374
    • Instrumento AGREE II. Instrumento para la evaluación de Guías de Práctica Clínica. Traducción a cargo de Guía Salud. The Agree Research Trust; 2009. En: http://www.agreetrust.org; Versión en español: https://portal.guiasalud.es/wp-content/uploads/2019/01/spanish-agree-ii.pdf
    • Kristiansen A, Brandt L, Alonso-Coello P, Agoritsas T, Akl EA, Conboy T, et al. Development of a novel multilayered presentation format for clinical practice guidelines. Chest. 2015;147(3):754-63. PubMed PMID: 25317597. Texto completo
    • MacLean S, Mulla S, Akl EA, Jankowski M, Vandvik PO, Ebrahim S, McLeod S, Bhatnagar N, Guyatt GH; American College of Chest Physicians. Patient values and preferences in decision making for antithrombotic therapy: a systematic review: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines. Chest. 2012 Feb;141(2 Suppl):e1S-23S. PubMed PMID: 22315262. Texto completo
    • National Collaborating Centre for Chronic Conditions. Chronic obstructive pulmonary disease. National clinical guideline on management of chronic obstructive pulmonary disease in adults in primary and secondary care. Thorax. 2004 Feb;59 Suppl 1:1-232. PubMed PMID: 15041752. Texto completo
    • Schünemann H, Brozek J, Guyatt G, Oxman A, editores. GRADE handbook forgrading quality of evidence and strength of recommendations [Internet]. The GRADE Working Group, 2013 [consultado: 07/10/2016]. Disponible en: http://gdt.guidelinedevelopment.org/central_prod/_design/client/handbook/handbook.html
    • Treweek S, Oxman AD, Alderson P, Bossuyt PM, Brandt L, Brozek J, et al. DECIDE Consortium. Developing and Evaluating Communication Strategies to Support Informed Decisions and Practice Based on Evidence (DECIDE): protocol and preliminary results. Implement Sci. 2013;8:6. Texto completo
    • Vandvik PO, Brandt L, Alonso-Coello P, et al. Creating clinical practice guidelines we can trust, use, and share: a new era is imminent. Chest. 2013;144(2):381-389. PMID 23918106. Texto completo
    • You JJ, Singer DE, Howard PA, Lane DA, Eckman MH, Fang MC, Hylek EM, Schulman S, Go AS, Hughes M, Spencer FA, Manning WJ, Halperin JL, Lip GY; American College of Chest Physicians. Antithrombotic therapy for atrial fibrillation: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines. Chest. 2012 Feb;141(2 Suppl):e531S-75S. PubMed PMID: 22315271. Texto completo

    Autores

    Pablo Alonso Coello Médico Especialista en Medicina Familiar y Comunitaria (1)
    Rafael Rotaeche del Campo Médico Especialista en Medicina Familiar y Comunitaria (2)
    David Rigau Médico Especialista en Farmacología Clínica (1)
    Arritxu Etxeberria Agirre Farmacéutica de Atención Primaria (3)
    Laura Martínez Médico Especialista en Medicina Preventiva y Salud Pública (1)

    (1) Centro Cochrane Iberoamericano, Instituto de Investigación Biomédica (IIB-Sant Pau), Barcelona.
    (2) Equipo de Atención Primaria de Alza. Servicio Vasco de Salud (Osakidetza). País Vasco.
    (3) OSI Donostialdea. Servicio Vasco de Salud (Osakidetza). País Vasco.

    Conflicto de intereses
    No disponible.

    La evaluación de la calidad de la evidencia y la graduación de la fuerza de las recomendaciones: el sistema GRADE

    Fecha de revisión: 20/09/2021
    • Guía
    Índice de contenidos

    Características del sistema GRADE


    Las guías de práctica clínica (GPC) han experimentado una enorme transformación durante las últimas dos décadas. El sistema para clasificar la calidad de la evidencia y graduar la fuerza de la recomendación es uno de los aspectos que más se ha modificado.

    La actualización del manual de elaboración de GPC en el Sistema Nacional de Salud de 2016 (Grupo de trabajo sobre GPC, 2016) ya presenta únicamente la metodología desarrollada por el grupo GRADE (Grading the Quality of Evidence and the Assessment of Recomendations) (Alonso-Coello P, 2013; Schünemann H, 2013), para evaluar la calidad de la evidencia y formular las recomendaciones. En dicha actualización ya no se incluye el sistema SIGN (Scottish Intercollegiate Guidelines Network), como en la versión anterior. Progresivamente, por tanto, las guías del Programa de Guías de Práctica Clínica en el Sistema Nacional de Salud (SNS) que ahora utilizan el sistema SIGN serán progresivamente actualizadas con el sistema GRADE.

    Las diferencias más relevantes entre GRADE (http://www.gradeworkinggroup.org) y otros sistemas previos son las siguientes (Grupo de trabajo sobre GPC, 2016):

    • La evaluación de la calidad de la evidencia se centra en el análisis por separado para cada desenlace de interés, que el grupo de trabajo habrá priorizado previamente en la fase de formulación de preguntas clínicas.
    • Se amplía la habitual evaluación del riesgo de sesgo a otros factores como, por ejemplo, la consistencia de los resultados o su precisión.
    • Se separa de forma explícita la definición de la calidad de la evidencia y de la fuerza de las recomendaciones.

    El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la formulación de la pregunta y la selección de los desenlaces de interés, hasta la formulación de las recomendaciones y su redacción (Grupo de trabajo sobre GPC, 2016). En este capítulo desarrollamos con detalle las fases de evaluación de la evidencia y formulación de recomendaciones.

    Al separar explícitamente la calidad de la evidencia y la fuerza de las recomendaciones, GRADE se utiliza también para la evaluación de la calidad de la evidencia en las revisiones sistemáticas; de hecho, la Colaboración Cochrane ha adoptado este sistema.

    Respecto a la formulación de las preguntas clínicas, GRADE propone la clasificación de la importancia de los desenlaces de interés, normalmente desde el punto de vista del paciente o aquellos afectados por las recomendaciones. Los desenlaces más importantes serán los que deben ser considerados a la hora de evaluar su calidad, así como a la hora de formular las recomendaciones.

    El sistema GRADE, tal y como se describe en capítulos previos, clasifica la importancia de los desenlaces en tres categorías, en una escala de 1 a 9.

    • 7-9: desenlace clave (o crítico) para la toma de decisiones.
    • 4-6: desenlace importante pero no clave para la toma de decisiones.
    • 1-3: desenlace no importante. Estos desenlaces no juegan un papel relevante en la formulación de las recomendaciones y no se incluyen en la tabla de evaluación de la calidad o de los resultados.

    Por ejemplo, a la hora de clasificar los desenlaces para la evaluación de la eficacia de bisfosfonatos en mujeres con alto riesgo de fractura, podríamos clasificar como claves la fractura de cadera, la fractura vertebral clínica y la calidad de vida, importante pero no clave la fractura vertebral radiológica, y como no importante la densidad mineral ósea y los marcadores óseos.

    GRADE establece también que las preguntas clínicas deben estar claramente definidas, no solo en los componentes en formato PICO (Paciente, Intervención, Comparación y Desenlace o Outcome), sino también en lo que se refiere al entorno y la perspectiva desde la que se aborda la pregunta (Alonso-Coello P, 2016; Alonso-Coello P, 2016b). La perspectiva de las guías de práctica clínica del Programa de Guías de Práctica Clínica en el Sistema Nacional de Salud (SNS) es, por ejemplo, poblacional. Otras guías como, por ejemplo, muchas de las realizadas por sociedades científicas, pueden preferir no tener esta perspectiva y centrarse únicamente en aspectos relacionados con una perspectiva individual.

    En el Instrumento AGREE II (Instrumento AGREE II, 2009), los criterios más relevantes relacionados con la formulación de recomendaciones se recogen en el dominio “rigor en la elaboración”:

    1. Los métodos para formular las recomendaciones, ¿están claramente descritos?
    2. Al formular las recomendaciones, ¿han sido considerados los beneficios de salud, efectos secundarios y los riesgos?
    3. ¿Hay una relación clara entre cada una de las recomendaciones y las evidencias en las que se basan?

    El sistema GRADE propone las siguientes definiciones (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):

    • Calidad de la evidencia: indica hasta qué punto nuestra confianza en la estimación de un efecto es adecuada para apoyar una recomendación.
    • Fuerza de la recomendación: indica hasta qué punto podemos confiar si poner en práctica la recomendación conllevará más beneficios que riesgos.

    El sistema GRADE puede utilizarse para dar respuesta a distintos tipos de preguntas: sobre tratamiento, diagnóstico, pronóstico, etc. En este curso describiremos fundamentalmente el sistema GRADE referido a preguntas sobre tratamiento, ya que es la parte más utilizada y la más desarrollada por el momento en GRADE. En cualquier caso, la mayoría de los conceptos que se abordan pueden ser aplicados a otro tipo de preguntas, con sus matizaciones. Para profundizar sobre GRADE y su utilización para dar respuesta a otro tipo de preguntas, puede consultarse la bibliografía más extensa (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013).

    Puntos clave
    • El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la formulación de la pregunta y la selección de los desenlaces de interés hasta la formulación de las recomendaciones y su redacción.
    • La calidad de la evidencia refleja la confianza que se puede depositar en los resultados de la literatura científica para apoyar una recomendación en particular.
    • La evaluación de la calidad de la evidencia se realiza para cada desenlace de interés importante para los pacientes. Asimismo, se realiza una evaluación global para todos los desenlaces a fin de informar el proceso de decisión entre la evidencia y la recomendación.
    • La fuerza de la recomendación indica hasta qué punto podemos confiar si poner en práctica la recomendación conllevará más beneficios que riesgos.
    • Para estructurar la información y favorecer la transparencia en el paso de la evidencia a las recomendaciones o decisiones, el grupo GRADE ha elaborado unos marcos denominados marcos de la Evidencia a la Decision (Evidence to Decision (EtD) frameworks).

    Evaluación de la calidad de la evidencia


    La calidad de la evidencia, también denominada confianza o, más recientemente, certidumbre, en las GPC refleja el grado de confianza que tenemos en que la estimación de un efecto es adecuada para apoyar una recomendación y se evalúa para cada uno de los desenlaces de interés (idealmente los claves y, en ausencia de éstos, los importantes).

    Aunque la calidad de la evidencia es un espectro continuo, GRADE propone una clasificación en cuatro categorías (Alonso-Coello P, 2013; Balshem H, 2011):

    Tabla 1. Clasificación de la calidad de la evidencia.
    Alta Confianza alta en que el estimador del efecto disponible en la literatura científica se encuentra muy cercano al efecto real.
    Moderada Es probable que el estimador del efecto se encuentre cercano al efecto real, aunque podrían existir diferencias sustanciales.
    Baja El estimador del efecto puede ser sustancialmente diferente al efecto real.
    Muy baja Es muy probable que el estimador del efecto sea sustancialmente diferente al efecto real.


    En el sistema GRADE, la calidad de la evidencia para un determinado desenlace arranca con el diseño de los estudios: inicialmente considera a los ensayos clínicos aleatorizados (ECA) como fuente de calidad alta, y a los estudios observacionales sin limitaciones importantes como fuente de calidad baja. En las revisiones sistemáticas, la evaluación de los factores que afectan a la calidad de la evidencia debe realizarse sobre el diseño y las características de los estudios que incluye la revisión (ya sea un conjunto de estudios o de un único estudio). Las series de casos son estudios observacionales no controlados en los que la calidad de la evidencia debería bajarse automáticamente de baja a muy baja. La opinión de experto no se considera un tipo de evidencia científica al que aplicar los factores modificadores de la calidad de la evidencia, sino que refleja la interpretación de los resultados de la evidencia, o de la ausencia de ésta, en función de su conocimiento y experiencia.

    A partir de este punto inicial (calidad alta para ensayos clínicos y baja para estudios observacionales), aplica los siguientes factores para bajar o subir la calidad de la evidencia (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013; Alonso-Coello P, 2013) (tabla 2):

    Tabla 2. Factores que modifican la calidad de la evidencia.
    Factores que permiten bajar la calidad de la evidencia
    Limitaciones en el diseño o ejecución de los estudios ↓ 1 o 2 grados
    Inconsistencia entre los resultados de diferentes estudios ↓ 1 o 2 grados
    Disponibilidad de evidencia indirecta ↓ 1 o 2 grados
    Imprecisión de los estimadores del efecto ↓ 1 o 2 grados
    Sesgo de publicación ↓ 1 grado
    Factores que permiten aumentar la calidad de la evidencia
    Magnitud del efecto importante ↑ 1 o 2 grados
    Gradiente dosis-respuesta relevante ↑ 1 grado
    Impacto de las variables de confusión plausibles ↑ 1 grado


    Factores que pueden bajar la calidad de la evidencia
    (Alonso-Coello P, 2013; Balshem H, 2011; Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):

    Al valorar la calidad de la evidencia para un desenlace, tanto para los ECA, que de antemano se consideran como calidad alta para evaluar el efecto de diferentes intervenciones, como para los estudios observacionales, que de antemano se consideran como calidad baja, existen factores que pueden disminuir la calidad en uno o dos grados:

    a) Limitaciones en el diseño o la ejecución de los estudios (riesgo de sesgo).

    En los ECA se consideran: las limitaciones en la secuencia de aleatorización, limitaciones en el enmascaramiento de investigadores, personal implicado en el estudio o participantes en el estudio, pérdidas de seguimiento importantes y la ausencia de análisis por intención de tratar, descripción selectiva de los resultados u otros sesgos (ensayos interrumpidos prematuramente por beneficio, uso de medidas de resultado no validadas, etc.).

    En los estudios observacionales se consideran: limitaciones en los criterios de inclusión de los pacientes, limitaciones en la medida de los resultados (como el sesgo de memoria), el control inadecuado de los factores de confusión o el seguimiento incompleto.

    A la hora de valorar globalmente el riesgo de sesgo de un conjunto de estudios con diferentes limitaciones, se debe realizar un juicio global, teniendo en cuenta la contribución de los estudios a la estimación del efecto (por ejemplo, los estudios de mayor tamaño contribuyen más o dando más peso a los de mejor calidad).

    b) Inconsistencia entre los resultados de diferentes estudios.

    La inconsistencia se refiere a la variabilidad o heterogeneidad de los resultados entre los estudios disponibles para un determinado desenlace. Se deben explorar las posibles causas de la variabilidad, principalmente las diferencias en la población, la intervención, los desenlaces o el riesgo de sesgo de los estudios.

    En los metanálisis, la existencia de heterogeneidad se suele medir mediante una prueba de contraste de hipótesis (una p <0,10 nos sugiere que los resultados difieren entre sí más de lo que cabría esperar por el mero azar) o mediante el estadístico I2 (adquiere valores entre 0 y 100, mide la magnitud de la heterogeneidad, cuanto mayor sea su valor mayor heterogeneidad). En ocasiones, la diferencia en la variabilidad de los resultados puede explicarse por diferencia entre distintos subgrupos; en estos casos puede ser más adecuado realizar recomendaciones diferenciadas para los subgrupos en lugar de bajar la calidad de la evidencia por inconsistencia.

    c) Ausencia de evidencia directa.

    La confianza en un estimador se reduce si se detecta que existen diferencias importantes entre la población donde se aplicará la GPC y la incluida en los estudios (por ejemplo, medio hospitalario vs. atención primaria, o pacientes de alto riesgo vs. bajo riesgo), entre la intervención que se pretende evaluar y la que se practicó en los estudios disponibles (por ejemplo, un programa de deshabituación tabáquica realizada por un equipo multidisciplinar vs. intervención de deshabituación en la consulta). También se debe considerar disminuir la calidad de la evidencia por evidencia indirecta ante la ausencia de comparaciones directas entre las intervenciones de interés o cuando no existen desenlaces claves y la recomendación se basa sólo en desenlaces intermedios.

    d) Imprecisión.

    Para evaluar la precisión al estimar el efecto de una intervención para un desenlace, se debe considerar su intervalo de confianza y el umbral que determina la diferencia clínicamente relevante para los pacientes. Si una decisión clínica o recomendación pudiera ser diferente dependiendo de si se tiene en cuenta un extremo u otro del intervalo de confianza como el efecto "real" de una intervención, la confianza (y, por tanto, la calidad) en la estimación del efecto deberían disminuir. Asimismo, incluso con un intervalo de confianza preciso según estos criterios, si el número de sucesos o el número de sujetos evaluados en los diferentes estudios son escasos, se debe considerar la necesidad de disminuir la calidad.

    En las GPC se valora un conjunto de desenlaces de interés y la decisión de bajar la calidad de la evidencia por imprecisión depende del umbral que determina la diferencia mínima relevante para los pacientes y del balance entre efectos deseables e indeseables de la intervención.

    Por ejemplo, si un fármaco anticoagulante para la prevención de episodios vasculares (ictus isquémicos) reduce el riesgo en un 5% (intervalo de confianza del 95% [IC: 95%] del 9 al 1%) en términos absolutos, las repercusiones de esta imprecisión deberían valorarse teniendo en cuenta también los riesgos. Si el fármaco se asociara a un incremento absoluto de las hemorragias graves extracraneales del 4%, no realizaríamos la misma recomendación en los dos extremos del intervalo de confianza para la reducción de ictus: en el supuesto de una reducción del riesgo de ictus del 1%, los riesgos son superiores a los beneficios, mientras que en el supuesto del 9%, los beneficios podrían compensar los riesgos. En este caso, bajaríamos la calidad de la evidencia por imprecisión para el desenlace de ictus.

    e) Sesgo de publicación.

    La calidad puede disminuir si se tiene la duda razonable de que no se hayan incluido todos los estudios realizados. La situación más frecuente se produce cuando, en el contexto de una revisión sistemática, se incluyen selectivamente los estudios que han mostrado resultados “positivos” (favorables a la intervención) y se omiten algunos estudios con resultados “negativos”, sobrestimando en su conjunto el efecto de la intervención. Existen pruebas estadísticas y gráficas que pueden orientar a la existencia de un sesgo de publicación, como la revisión de los gráficos de embudo (funnelplots). Esta situación puede llegar a ser más frecuente y difícil de detectar en los estudios observacionales.

    Factores que pueden aumentar la calidad de la evidencia:

    Las situaciones que pueden llevar a incrementar la confianza con los resultados de los estudios son poco comunes y se suelen aplicar sobre todo a estudios observacionales que evalúan el impacto de una intervención. Estos aspectos se deberían evaluar después de constatar que no se encuentra presente ninguna condición para disminuir la calidad de la evidencia debido a un potencial riesgo de sesgo u otros factores que se han citado previamente.

    a) Fuerza de la asociación.

    Cuando el efecto observado muestra una asociación fuerte (riesgo relativo u odds ratio >2 ó <0,5) o muy fuerte (riesgo relativo u odds ratio >5 ó <0,2), es más improbable que este efecto sea debido a una sobrestimación debido a los factores de confusión y más probable que el efecto observado sea más cercano al efecto real. En estos casos la calidad puede subir en 1 ó 2 grados. Por ejemplo, una revisión sistemática de estudios observacionales sobre la posición de los lactantes en la cuna a la hora de dormir para evitar el síndrome de muerte súbita mostró una reducción importante del riesgo para la posición boca arriba con un OR de 4,1 (IC: 95% 3,1 a 5,5).

    b) Gradiente dosis-respuesta.

    La existencia de un gradiente dosis-respuesta es un factor reconocido para establecer con mayor certidumbre una relación causa-efecto. En estas circunstancias este gradiente puede aumentar nuestra confianza en los resultados.

    c) Impacto de las variables de confusión plausibles.

    En los estudios observacionales rigurosos se controlan los factores pronósticos conocidos asociados con el desenlace de interés. No siempre es posible controlar todas las variables de confusión, que pueden reducir o reforzar el impacto de la intervención. Por ejemplo, varios estudios observacionales han mostrado que el uso del preservativo por parte de varones que tienen sexo con varones reduce el riesgo de infección por VIH comparado con no usarlo, estudios en los que el análisis no se ha ajustado por el número de parejas sexuales. Otros estudios han mostrado que los usuarios de preservativos tienen un mayor número de parejas sexuales que los varones que no los usan. De haberse ajustado por este factor, es posible que la asociación entre uso de preservativo y prevención de infección por VIH fuera mayor (Grupo de trabajo sobre GPC, 2016).

    Estos factores que pueden aumentar o disminuir la calidad de la evidencia no deben tomarse como elementos individuales que puedan sumarse o restarse para obtener una clasificación de la calidad, sino que deben ser considerados en su conjunto. Por ejemplo, a la hora de valorar cuáles son las cifras de control glucémico más adecuadas en pacientes con diabetes tipo 2 (control intensivo vs. habitual), nos encontramos con que, para el desenlace de mortalidad cardiovascular, la calidad de la evidencia se basa en 18 ensayos clínicos sin limitaciones importantes, pero con un intervalo de confianza impreciso (ver tabla 3) y una cierta heterogeneidad en los resultados (I2= 37% p= 0,09). Teniendo en cuenta ambos factores, bajamos la calidad de alta a moderada, pero no a baja.

    Una vez evaluada la calidad de la evidencia científica para cada desenlace, se debe realizar una clasificación global de la calidad de la evidencia, lo que implica realizar un juicio general de la calidad entre los desenlaces clave para una determinada pregunta clínica. En este proceso, se deberían considerar sólo los desenlaces clave, aunque no siempre existen datos. En el caso de los fármacos para la osteoporosis, se consideraría la calidad de la evidencia para las fracturas, pero no la de la densidad mineral ósea.

    Presentación de los resultados de la evaluación de la evidencia


    Los perfiles de evidencia son un buen método para presentar la evidencia disponible y los juicios sobre su calidad. Puede presentarse en forma de perfiles de GRADE (GRADE evidence profile) o en forma más resumida (Summary of Findings). La tabla 3 muestra el perfil de la evidencia para la pregunta respecto a las cifras objetivo de HbA1c en la diabetes tipo 2 (control estricto vs. convencional de la glucemia).

    Tabla 3. Ejemplo de perfil de evidencia. (Hemmingsen B, 2011)
    Evaluación de la calidad Resumen de los resultados Calidad Importancia
    Nº de pacientes Magnitud del efecto
    Nº de estudios Diseño Riesgo
    de sesgo
    Inconsistencia Evidencia
    indirecta
    Imprecisión Sesgo
    publicación
    Relativa
    (95% CI)
    Desenlace 1: Mortalidad por todas las causas.
    18 ECA Sin limitaciones
    importantes
    No importante
    I2= 40%
    p= 0,08
    No (-1)a Poco
    probable
    29.731 RR 1,01
    (0,9-1,13)

    Moderada
    Clave
    Desenlace 2: Mortalidad cardiovascular.
    18 ECA Sin limitaciones
    importantes
    No importante
    I2= 37%
    p= 0,09
    No (-1)a Poco
    probable
    29.731 RR 1,06
    (0,9-1,26)

    Moderada
    Clave
    Desenlace 3: IAM no fatal.
    12 ECA Sin limitaciones
    importantes
    No importante No (-1)a Poco
    probable
    29.174 RR 0,87
    (0,76-1,0)

    Moderada
    Clave
    Desenlace 4: ACV no fatal.
    11 ECA Sin limitaciones
    importantes
    No importante
    I2= 20%
    p= 0,26
    No Pocos
    eventos
    (-1)a
    Poco
    probable
    28.760 RR 0,96
    (0,8-1,16)

    Moderada
    Clave
    Desenlace 5: Insuficiencia renal terminal.
    7 ECA Sin limitaciones
    importantes
    No importante b No Poco
    probable
    28.075 RR 0,87
    (0,71-1,06)

    Moderada
    Clave
    Desenlace 6: Retinopatía.
    8 ECA Sin limitaciones
    importantes

    I2= 53%
    p= 0,04
    b No Poco
    probable
    10.953 RR 0,79
    (0,68-0,92)

    Moderada
    Importante
    Desenlace 7: Hipoglucemia severa.
    12 ECA Sin limitaciones
    I2= 79%
    p >0,00001
    No No Poco
    probable
    28.127 RR 2,05
    (1,39-3,02)


    Alta
    Clave
    Desenlace 8: Amputaciones (extremidades inferiores).
    6 ECA Sin limitaciones
    importantes
    No importante No (-2)c Poco
    probable
    6.960 RR 0,64
    (0,43 a 0,95)


    Baja
    Clave
    a Desenlace 1, 2 y 3: el análisis secuencial de los ensayos informó que se necesitan más datos.
    Desenlace 7: la heterogeneidad fue considerable, explicable por cómo se define la hipoglucemia. Es improbable que ello cambie el resultado.
    b Variables subrogadas.
    c Pocas amputaciones.


    En este ejemplo, considerando todos los desenlaces, la calidad global de la evidencia sería moderada.

    Cada pregunta clínica deber acompañarse además de un resumen redactado de forma narrativa, en el que se describen brevemente los resultados de la búsqueda, la selección de estudios, sus características y resultados de los estudios para los distintos desenlaces.

    Formulación de las recomendaciones


    La fuerza de una recomendación refleja el grado de certeza de que los efectos deseables de una intervención recomendada superan sus efectos no deseables, o viceversa, en la población de interés. El sistema GRADE considera dos categorías en relación a la fuerza de las recomendaciones (Grupo de trabajo sobre GPC, 2016):

    • Recomendación fuerte: se refiere a una recomendación con confianza en que los efectos deseados de la intervención superan a los indeseables (recomendación fuerte a favor), o en que los efectos indeseados de la intervención superan los deseados (recomendación fuerte en contra).
    • Recomendación débil: se refiere a una recomendación según la cual los efectos deseables probablemente superan los efectos no deseables (recomendación débil a favor de una intervención) o los efectos no deseables probablemente son mayores que los efectos deseables (recomendación débil en contra de una intervención), pero con una incertidumbre apreciable.

    En la tabla 4 se resumen las implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas (pacientes, clínicos y gestores).

    Tabla 4. Implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas (pacientes, clínicos y gestores).
    Recomendación fuerte Recomendación débil
    Para pacientes La mayoría de las personas estarían de acuerdo con la acción recomendada y sólo una pequeña proporción no lo estaría.

    Las herramientas formales para la toma de decisiones probablemente no serán necesarias para ayudar a las personas a tomar decisiones coherentes con sus valores y preferencias.
    La mayoría de las personas en esta situación estarían de acuerdo con la acción sugerida, pero muchos no lo estarían.

    Las herramientas para la toma de decisiones pueden ser útiles como ayuda para la toma de decisiones coherentes con los valores y preferencias de cada persona.
    Para profesionales sanitarios La mayoría de las personas debería recibir la intervención recomendada. Reconoce que diferentes opciones serán apropiadas para cada paciente individual y que se deberá alentar a que cada paciente alcance una decisión de manejo coherente con sus valores y preferencias.

    Las herramientas para la toma de decisiones pueden ser útiles como ayuda para la toma de decisiones coherentes con los valores y preferencias de cada persona.
    Para decisores/gestores La recomendación puede ser adaptada a la política sanitaria en la mayoría de las situaciones.

    La adherencia a esta recomendación incluida en la guía, puede ser utilizado como un criterio de calidad o indicador de rendimiento.
    El desarrollo de políticas sanitarias requerirá considerables debates y la participación de los diversos grupos de interés.

    La documentación adecuada del proceso de toma de decisiones para una recomendación débil podría utilizarse como una medida de calidad, en particular, si está basada en evidencia de alta calidad.


    De la evidencia a la recomendación: factores a tener en cuenta en la graduación de las recomendaciones
    (Alonso-Coello P, 2016; Alonso-Coello P, 2018; Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):

    El paso de la evidencia a la recomendación requiere tener en cuenta otros aspectos, además de la calidad de la evidencia. Estos aspectos o “juicios” deben reflejarse de forma explícita y transparente. Para estructurar la información y favorecer la transparencia en el paso de la evidencia a las recomendaciones o decisiones, el grupo GRADE ha elaborado una serie de marcos para la formulación de las recomendaciones y otras decisiones denominado Evidence to Decision (EtD) frameworks (Alonso-Coello P, 2018 [1]; Alonso-Coello P, 2018 [2]). Para cada una de las preguntas, se debe presentar claramente la pregunta, los subgrupos de población a los que va dirigido, el entorno (ámbito al cual va dirigida la recomendación) y la perspectiva (por ejemplo, poblacional o paciente individual), y los siguientes criterios y consideraciones:

    1. Prioridad del problema: ¿el problema constituye una prioridad? Cuanto más severo es un problema, más probable es que sea una prioridad y que deba formularse una recomendación fuerte.
    2. Efectos deseables e indeseables: ¿cuál es la magnitud de los efectos deseables (beneficios)?¿Cuál es la magnitud de los efectos indeseables (riesgos y carga de tratamiento)? Cuanto más sustanciales sean los efectos deseables y menos los indeseables, es más probable que deba recomendarse una intervención y, por tanto, mayor probabilidad de formular una recomendación fuerte.
    3. Calidad de la evidencia: ¿cuál es la calidad global de la evidencia? (alta, moderada, baja, muy baja, no hay estudios incluidos). Cuanto mayor sea la calidad de la evidencia, mayor probabilidad de realizar una recomendación fuerte.
    4. Importancia de los desenlaces para los pacientes. ¿Existe incertidumbre o variabilidad en cómo los pacientes valoran los desenlaces de interés? Cuanto mayor sea la incertidumbre, menor es la probabilidad de formular una recomendación fuerte. En el caso de la diabetes tipo 2 y el control estricto de la glucemia frente al convencional, existe incertidumbre acerca de cómo los pacientes valorarán la carga de la medicación debida a un control más estricto (posible insulinización, más fármacos orales, más analíticas y consultas), el mayor riesgo de hipoglucemia frente a ligeros beneficios en las complicaciones para la diabetes.
    5. Teniendo en cuenta la magnitud de los beneficios y riesgos y la incertidumbre respecto a cómo los pacientes valoran los distintos desenlaces, el balance entre los efectos deseados e indeseados, ¿favorece a la intervención? En el caso del control glucémico, el balance entre beneficios y riesgos es muy ajustado: puede mejorar alguna de las complicaciones de la diabetes en pequeña magnitud a costa de un mayor riesgo de hipoglucemia severa y de mayor carga del tratamiento, con incertidumbre acerca de cómo los pacientes pueden valorar estos resultados. Todo ello hace más probable que la recomendación sea débil, a pesar de que la calidad de la evidencia sea moderada.
      Desenlaces:
      1. Mortalidad por todas las causas: sin efecto.
      2. Mortalidad cardiovascular: sin efecto.
      3. IAM no fatal: poco beneficio.
      4. ACV no fatal: sin efecto.
      5. Nefropatía: sin efecto.
      6. Retinopatía: poco beneficio.
      7. Hipoglucemia: riesgos/inconv. importantes/modestos.
      8. Amputaciones: poco beneficio.
    6. Recursos/Costes. ¿Son altos los costes que se requieren para poner en marcha la intervención?¿Es alta la incertidumbre en torno a los recursos necesarios? Cuanto mayor es el coste, menos probable es que una intervención se recomiende. Cuando el uso de recursos se considera fundamental para una decisión acerca de una recomendación, es aconsejable su evaluación económica mediante métodos formales o la búsqueda de evidencia acerca de su relación entre costes y beneficios.
    7. Teniendo en cuenta el balance entre efectos deseables e indeseables, es decir, el beneficio neto (criterios 2 a 5) y el coste, la relación coste-beneficio, ¿favorece la intervención?
    8. Equidad, aceptabilidad y factibilidad. ¿Cuál es el impacto sobre la equidad?¿Es aceptable la intervención para los grupos de interés clave?¿Es factible implementar la intervención?

    Otros ejemplos:

    • El tratamiento con corticoides sistémicos en las exacerbaciones en la enfermedad pulmonar obstructiva crónica (EPOC) presenta un balance beneficio-riesgo favorable (reduce el riesgo de fracaso terapéutico, la necesidad de tratamiento adicional, la estancia hospitalaria y aumenta la capacidad funcional, aunque presenta eventos adversos leves). La calidad de la evidencia es moderada. No hay razones para pensar que la mayoría de los pacientes, una vez informados, no aceptarían el tratamiento. Y finalmente, el coste de los corticoides es muy bajo. En conjunto, por tanto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la estimación del efecto) y no hay otros factores adicionales que nos hagan disminuir nuestra confianza en que el llevar a cabo esta recomendación conllevaría más beneficios que daños. No conlleva problemas de equidad ni de factibilidad. Por tanto, el grupo elaborador de una guía probablemente realizaría una recomendación fuerte a favor del uso de corticoides en las exacerbaciones de la EPOC (National Collaborating Centre for Chronic Conditions, 2004).
    • La prevención del ictus en pacientes con fibrilación auricular de riesgo intermedio (CHADS2= 1) con anticoagulantes orales, bien antagonistas de la vitamina K (warfarina y acenocumarol) o nuevos anticoagulantes orales (NACO) en comparación con aspirina. Warfarina muestra un balance beneficio riesgo favorable (9 ictus menos y 3 sangrados extracraneales no fatales más por cada 1.000 pacientes tratados), siendo la calidad de la evidencia moderada (You JJ, 2012). No se dispone de datos comparativos entre aspirina y nuevos anticoagulantes (aunque sí entre warfarina y NACO, la evidencia para los NACO sería, en todo caso, indirecta). En cuanto a los valores y preferencias, los pacientes asignan, en términos generales, tres veces más importancia a evitar un ictus que a sufrir un sangrado extracraneal grave. No obstante, estas estimaciones de los valores y preferencias son muy variables (MacLean S, 2012). En cuanto al coste, aspirina y warfarina tienen bajo coste. En el caso de los NACO, el coste es mucho más elevado y en nuestro medio su impacto en presupuesto es muy relevante. En conjunto, por tanto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la estimación del efecto) y el coste es bajo para warfarina. El balance entre beneficios y riesgo favorece a warfarina, aunque, debido al riesgo basal relativamente bajo de estos pacientes, es modesto. Los valores y preferencias de los pacientes son variables. Por tanto, hay algunos factores que disminuyen nuestra confianza en que el llevar a cabo esta recomendación conllevaría más beneficios que daños en la mayoría de pacientes. Por tanto, el grupo elaborador de una guía probablemente formularía una recomendación débil a favor de los anticoagulantes antagonistas de la vitamina K, comparados con la aspirina, en esta población (You JJ, 2012). No recomendaría los NACO en esta población, debido sobre todo a la ausencia de evidencia directa y a su alto coste.

    Respecto a la redacción de recomendaciones, GRADE propone la adopción de una terminología específica para reflejar la fuerza, utilizando para ello expresiones como “se recomienda/no se recomienda” o “se debe/no se debe” cuando se habla de recomendaciones fuertes, y “se sugiere/no se sugiere” o “se podría” para recomendaciones débiles.

    La recomendación acerca del control glucémico sería débil y quedaría redactada de la siguiente forma (Ezkurra P, 2015):

    “En general se sugieren unas cifras objetivo orientativas menores del 7% de HbA1c. No obstante, el objetivo debería estar basado en la evaluación individualizada teniendo en cuenta el riesgo de complicaciones de la diabetes, comorbilidad, esperanza de vida y preferencias de los pacientes.

    Se sugiere plantear objetivos menos estrictos, entre 7,5%-8%, para los ancianos, pacientes con multimorbilidad o para iniciar la insulinización o la triple terapia.

    Se puede considerar un tratamiento intensivo con el objeto de reducir las cifras de HbA1c por debajo del 6,5% en pacientes jóvenes o recién diagnosticados sin comorbilidad.

    Se sugiere implicar a las personas con diabetes tipo 2 en las decisiones sobre su nivel objetivo de HbA1c.”

    Tecnologías para aplicación de GRADE


    El sistema GRADE cuenta con un software para la aplicación del mismo denominado GRADEpro GDT. El software es una propuesta para sintetizar y presentar información para la toma de decisiones en el campo de la salud. GRADEpro GDT permite la elaboración de tablas de resumen de los hallazgos tanto para revisiones sistemáticas como para las evaluaciones de tecnologías, facilitando el desarrollo de GPC y otro tipo de decisiones. Recientemente, ha incorporado una base de datos que incluye un repositorio de este tipo de formatos para su adopción, adaptación o uso en nuevas GPC. GRADEpro GDT, así como algunos de los formatos de presentación, han sido desarrollados gracias al proyecto DECIDE (Developing and Evaluating Communication Strategies to Support Informed Decisions and Practice Based on Evidence) (Treweek S, 2013).

    DECIDE es un proyecto Europeo impulsado por el grupo GRADE que tuvo como objetivo mejorar la diseminación de las recomendaciones en salud para diferentes grupos de interés (profesionales sanitarios, ciudadanos, pacientes y gestores). Para ello se desarrollaron formatos óptimos de presentación y se actualizó el software original de GRADEpro (Kristiansen, 2015). Sus resultados ya se están implementando en algunas de las instituciones más influyentes en la elaboración de revisiones sistemáticas, la formulación de recomendaciones y toma de decisiones sanitarias como la Colaboración Cochrane, la OMS o la propia NICE. En nuestro entorno ya han sido incorporados en la actualización del manual de elaboración de GPC en el Sistema Nacional de Salud de 2016 (Grupo de trabajo sobre GPC, 2016). Entre los formatos de presentación desarrollados están las tablas interactivas de resumen de los hallazgos (https://isof.epistemonikos.org/#/), las herramientas de apoyo a las decisiones compartidas ligadas a las GPC (Agoritsas T, 2015) o el marco de la evidencia a las decisiones (Alonso Coello P, 2016).

    Existen otros softwares para la aplicación de GRADE. Entre ellos destaca la iniciativa MAGIC (Vandvik, 2013), la cual dispone de MAGIC app, una aplicación para desarrollar GPC electrónicas, síntesis de información y herramientas de apoyo a la toma de decisiones ligada a las GPC. La iniciativa colaboró junto al grupo GRADE en el desarrollo de los formatos de presentación resultado del proyecto DECIDE mencionado anteriormente. Es un software similar a GRADEpro que destaca por su desarrollo de los aspectos de publicación, simultáneos a los de elaboración.

    La evaluación de estos nuevos formatos de presentación electrónicas de las GPC han sido favorables entre los profesionales a los que van dirigidas las GPC (Brandt, 2017).

    Bibliografía

    • Agoritsas T, Heen AF, Brandt L, Alonso-Coello P, Kristiansen A, Akl EA, et al. Decision aids that really promote shared decision making: the pace quickens. BMJ 2015;350:g7624. Texto completo
    • Alonso-Coello P, Schünemann HJ, Moberg J, et al. Marcos GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones sanitarias bien informadas. 1: Guías de práctica clínica. Gac Sanit. 2018;32(2):166.e1-166.e10. PMID: 28822594. Texto completo
    • Alonso-Coello P, Oxman AD, Moberg J, et al. Marcos GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones sanitarias bien informadas. 2: Guías de práctica clínica. Gac Sanit. 2018;32(2):167.e1-167.e10. PMID: 28917831. Texto completo
    • Alonso-Coello P, Rigau D, Solà I, Martínez García L. La formulación de recomendaciones en salud: el sistema GRADE. MedClin (Barc). 2013;140(8):366-73. Texto completo
    • Alonso-Coello P, Schünemann HJ, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, Treweek S, Mustafa RA, Rada G, Rosenbaum S, Morelli A, Guyatt GH, Oxman AD; GRADE Working Group. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed healthcare choices. 1: Introduction. BMJ. 2016 Jun 28;353:i2016. PubMed PMID: 27353417. Texto completo
    • Alonso-Coello P, Oxman AD, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, Treweek S, Mustafa RA, Vandvik PO, Meerpohl J, Guyatt GH, Schünemann HJ; GRADE Working Group. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed healthcare choices. 2: Clinical practice guidelines. BMJ. 2016 Jun 30;353:i2089. PubMed PMID: 27365494. Texto completo
    • Balshem H, Helfand M, Schünemann HJ, Oxman AD, Kunz R, Brozek J, Vist GE, Falck-Ytter Y, Meerpohl J, Norris S, Guyatt GH. GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol. 2011 Apr;64(4):401-6. PubMed PMID: 21208779. Texto completo
    • Brandt L, Vandvik PO, Alonso-Coello P, Akl EA, Thornton J, Rigau D, et al. Multilayered and digitally structured presentation formats of trustworthy recommendations: a combined survey and randomised trial. BMJ Open. 2017 Feb 10;7(2):e011569. PMID: 28188149. Texto completo
    • Ezkurra P, Etxeberria A, Idarreta I, Balagué L, Moreno M, Daza P, Villa I, Etxeandia I. Protocolo sobre manejo de la diabetes mellitus tipo 2. FMC. 2015;22(Supl. 2):9-40 - Vol. 22 Núm.Supl.2.
    • Grupo de trabajo sobre GPC. Elaboración de Guías de Práctica Clínica en el Sistema Nacional de Salud. Actualización del Manual Metodológico [Internet]. Madrid: Plan Nacional para el SNS del MSC. Instituto Aragonés de Ciencias de la Salud-I+CS; 2016. [consultado: septiembre 2016]. Disponible en: https://portal.guiasalud.es/wp-content/uploads/2019/01/manual_gpc_completo.pdf
    • Hemmingsen B, Lund SS, Gluud C, Vaag A, Almdal T, Hemmingsen C, Wetterslev J. Targeting intensive glycaemic control versus targeting conventional glycaemic control for type 2 diabetes mellitus. Cochrane Database Syst Rev. 2011 Jun 15;(6):CD008143. PubMed PMID: 21678374
    • Instrumento AGREE II. Instrumento para la evaluación de Guías de Práctica Clínica. Traducción a cargo de Guía Salud. The Agree Research Trust; 2009. En: http://www.agreetrust.org; Versión en español: https://portal.guiasalud.es/wp-content/uploads/2019/01/spanish-agree-ii.pdf
    • Kristiansen A, Brandt L, Alonso-Coello P, Agoritsas T, Akl EA, Conboy T, et al. Development of a novel multilayered presentation format for clinical practice guidelines. Chest. 2015;147(3):754-63. PubMed PMID: 25317597. Texto completo
    • MacLean S, Mulla S, Akl EA, Jankowski M, Vandvik PO, Ebrahim S, McLeod S, Bhatnagar N, Guyatt GH; American College of Chest Physicians. Patient values and preferences in decision making for antithrombotic therapy: a systematic review: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines. Chest. 2012 Feb;141(2 Suppl):e1S-23S. PubMed PMID: 22315262. Texto completo
    • National Collaborating Centre for Chronic Conditions. Chronic obstructive pulmonary disease. National clinical guideline on management of chronic obstructive pulmonary disease in adults in primary and secondary care. Thorax. 2004 Feb;59 Suppl 1:1-232. PubMed PMID: 15041752. Texto completo
    • Schünemann H, Brozek J, Guyatt G, Oxman A, editores. GRADE handbook forgrading quality of evidence and strength of recommendations [Internet]. The GRADE Working Group, 2013 [consultado: 07/10/2016]. Disponible en: http://gdt.guidelinedevelopment.org/central_prod/_design/client/handbook/handbook.html
    • Treweek S, Oxman AD, Alderson P, Bossuyt PM, Brandt L, Brozek J, et al. DECIDE Consortium. Developing and Evaluating Communication Strategies to Support Informed Decisions and Practice Based on Evidence (DECIDE): protocol and preliminary results. Implement Sci. 2013;8:6. Texto completo
    • Vandvik PO, Brandt L, Alonso-Coello P, et al. Creating clinical practice guidelines we can trust, use, and share: a new era is imminent. Chest. 2013;144(2):381-389. PMID 23918106. Texto completo
    • You JJ, Singer DE, Howard PA, Lane DA, Eckman MH, Fang MC, Hylek EM, Schulman S, Go AS, Hughes M, Spencer FA, Manning WJ, Halperin JL, Lip GY; American College of Chest Physicians. Antithrombotic therapy for atrial fibrillation: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines. Chest. 2012 Feb;141(2 Suppl):e531S-75S. PubMed PMID: 22315271. Texto completo

    Autores

    Pablo Alonso Coello Médico Especialista en Medicina Familiar y Comunitaria (1)
    Rafael Rotaeche del Campo Médico Especialista en Medicina Familiar y Comunitaria (2)
    David Rigau Médico Especialista en Farmacología Clínica (1)
    Arritxu Etxeberria Agirre Farmacéutica de Atención Primaria (3)
    Laura Martínez Médico Especialista en Medicina Preventiva y Salud Pública (1)

    (1) Centro Cochrane Iberoamericano, Instituto de Investigación Biomédica (IIB-Sant Pau), Barcelona.
    (2) Equipo de Atención Primaria de Alza. Servicio Vasco de Salud (Osakidetza). País Vasco.
    (3) OSI Donostialdea. Servicio Vasco de Salud (Osakidetza). País Vasco.

    Conflicto de intereses
    No disponible.

    La evaluación de la calidad de la evidencia y la graduación de la fuerza de las recomendaciones: el sistema GRADE

    Fecha de revisión: 20/09/2021

    Características del sistema GRADE


    Las guías de práctica clínica (GPC) han experimentado una enorme transformación durante las últimas dos décadas. El sistema para clasificar la calidad de la evidencia y graduar la fuerza de la recomendación es uno de los aspectos que más se ha modificado.

    La actualización del manual de elaboración de GPC en el Sistema Nacional de Salud de 2016 (Grupo de trabajo sobre GPC, 2016) ya presenta únicamente la metodología desarrollada por el grupo GRADE (Grading the Quality of Evidence and the Assessment of Recomendations) (Alonso-Coello P, 2013; Schünemann H, 2013), para evaluar la calidad de la evidencia y formular las recomendaciones. En dicha actualización ya no se incluye el sistema SIGN (Scottish Intercollegiate Guidelines Network), como en la versión anterior. Progresivamente, por tanto, las guías del Programa de Guías de Práctica Clínica en el Sistema Nacional de Salud (SNS) que ahora utilizan el sistema SIGN serán progresivamente actualizadas con el sistema GRADE.

    Las diferencias más relevantes entre GRADE (http://www.gradeworkinggroup.org) y otros sistemas previos son las siguientes (Grupo de trabajo sobre GPC, 2016):

    • La evaluación de la calidad de la evidencia se centra en el análisis por separado para cada desenlace de interés, que el grupo de trabajo habrá priorizado previamente en la fase de formulación de preguntas clínicas.
    • Se amplía la habitual evaluación del riesgo de sesgo a otros factores como, por ejemplo, la consistencia de los resultados o su precisión.
    • Se separa de forma explícita la definición de la calidad de la evidencia y de la fuerza de las recomendaciones.

    El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la formulación de la pregunta y la selección de los desenlaces de interés, hasta la formulación de las recomendaciones y su redacción (Grupo de trabajo sobre GPC, 2016). En este capítulo desarrollamos con detalle las fases de evaluación de la evidencia y formulación de recomendaciones.

    Al separar explícitamente la calidad de la evidencia y la fuerza de las recomendaciones, GRADE se utiliza también para la evaluación de la calidad de la evidencia en las revisiones sistemáticas; de hecho, la Colaboración Cochrane ha adoptado este sistema.

    Respecto a la formulación de las preguntas clínicas, GRADE propone la clasificación de la importancia de los desenlaces de interés, normalmente desde el punto de vista del paciente o aquellos afectados por las recomendaciones. Los desenlaces más importantes serán los que deben ser considerados a la hora de evaluar su calidad, así como a la hora de formular las recomendaciones.

    El sistema GRADE, tal y como se describe en capítulos previos, clasifica la importancia de los desenlaces en tres categorías, en una escala de 1 a 9.

    • 7-9: desenlace clave (o crítico) para la toma de decisiones.
    • 4-6: desenlace importante pero no clave para la toma de decisiones.
    • 1-3: desenlace no importante. Estos desenlaces no juegan un papel relevante en la formulación de las recomendaciones y no se incluyen en la tabla de evaluación de la calidad o de los resultados.

    Por ejemplo, a la hora de clasificar los desenlaces para la evaluación de la eficacia de bisfosfonatos en mujeres con alto riesgo de fractura, podríamos clasificar como claves la fractura de cadera, la fractura vertebral clínica y la calidad de vida, importante pero no clave la fractura vertebral radiológica, y como no importante la densidad mineral ósea y los marcadores óseos.

    GRADE establece también que las preguntas clínicas deben estar claramente definidas, no solo en los componentes en formato PICO (Paciente, Intervención, Comparación y Desenlace o Outcome), sino también en lo que se refiere al entorno y la perspectiva desde la que se aborda la pregunta (Alonso-Coello P, 2016; Alonso-Coello P, 2016b). La perspectiva de las guías de práctica clínica del Programa de Guías de Práctica Clínica en el Sistema Nacional de Salud (SNS) es, por ejemplo, poblacional. Otras guías como, por ejemplo, muchas de las realizadas por sociedades científicas, pueden preferir no tener esta perspectiva y centrarse únicamente en aspectos relacionados con una perspectiva individual.

    En el Instrumento AGREE II (Instrumento AGREE II, 2009), los criterios más relevantes relacionados con la formulación de recomendaciones se recogen en el dominio “rigor en la elaboración”:

    1. Los métodos para formular las recomendaciones, ¿están claramente descritos?
    2. Al formular las recomendaciones, ¿han sido considerados los beneficios de salud, efectos secundarios y los riesgos?
    3. ¿Hay una relación clara entre cada una de las recomendaciones y las evidencias en las que se basan?

    El sistema GRADE propone las siguientes definiciones (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):

    • Calidad de la evidencia: indica hasta qué punto nuestra confianza en la estimación de un efecto es adecuada para apoyar una recomendación.
    • Fuerza de la recomendación: indica hasta qué punto podemos confiar si poner en práctica la recomendación conllevará más beneficios que riesgos.

    El sistema GRADE puede utilizarse para dar respuesta a distintos tipos de preguntas: sobre tratamiento, diagnóstico, pronóstico, etc. En este curso describiremos fundamentalmente el sistema GRADE referido a preguntas sobre tratamiento, ya que es la parte más utilizada y la más desarrollada por el momento en GRADE. En cualquier caso, la mayoría de los conceptos que se abordan pueden ser aplicados a otro tipo de preguntas, con sus matizaciones. Para profundizar sobre GRADE y su utilización para dar respuesta a otro tipo de preguntas, puede consultarse la bibliografía más extensa (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013).

    Puntos clave
    • El sistema GRADE abarca la mayoría de las etapas de elaboración de una GPC, desde la formulación de la pregunta y la selección de los desenlaces de interés hasta la formulación de las recomendaciones y su redacción.
    • La calidad de la evidencia refleja la confianza que se puede depositar en los resultados de la literatura científica para apoyar una recomendación en particular.
    • La evaluación de la calidad de la evidencia se realiza para cada desenlace de interés importante para los pacientes. Asimismo, se realiza una evaluación global para todos los desenlaces a fin de informar el proceso de decisión entre la evidencia y la recomendación.
    • La fuerza de la recomendación indica hasta qué punto podemos confiar si poner en práctica la recomendación conllevará más beneficios que riesgos.
    • Para estructurar la información y favorecer la transparencia en el paso de la evidencia a las recomendaciones o decisiones, el grupo GRADE ha elaborado unos marcos denominados marcos de la Evidencia a la Decision (Evidence to Decision (EtD) frameworks).

    Evaluación de la calidad de la evidencia


    La calidad de la evidencia, también denominada confianza o, más recientemente, certidumbre, en las GPC refleja el grado de confianza que tenemos en que la estimación de un efecto es adecuada para apoyar una recomendación y se evalúa para cada uno de los desenlaces de interés (idealmente los claves y, en ausencia de éstos, los importantes).

    Aunque la calidad de la evidencia es un espectro continuo, GRADE propone una clasificación en cuatro categorías (Alonso-Coello P, 2013; Balshem H, 2011):

    Tabla 1. Clasificación de la calidad de la evidencia.
    Alta Confianza alta en que el estimador del efecto disponible en la literatura científica se encuentra muy cercano al efecto real.
    Moderada Es probable que el estimador del efecto se encuentre cercano al efecto real, aunque podrían existir diferencias sustanciales.
    Baja El estimador del efecto puede ser sustancialmente diferente al efecto real.
    Muy baja Es muy probable que el estimador del efecto sea sustancialmente diferente al efecto real.


    En el sistema GRADE, la calidad de la evidencia para un determinado desenlace arranca con el diseño de los estudios: inicialmente considera a los ensayos clínicos aleatorizados (ECA) como fuente de calidad alta, y a los estudios observacionales sin limitaciones importantes como fuente de calidad baja. En las revisiones sistemáticas, la evaluación de los factores que afectan a la calidad de la evidencia debe realizarse sobre el diseño y las características de los estudios que incluye la revisión (ya sea un conjunto de estudios o de un único estudio). Las series de casos son estudios observacionales no controlados en los que la calidad de la evidencia debería bajarse automáticamente de baja a muy baja. La opinión de experto no se considera un tipo de evidencia científica al que aplicar los factores modificadores de la calidad de la evidencia, sino que refleja la interpretación de los resultados de la evidencia, o de la ausencia de ésta, en función de su conocimiento y experiencia.

    A partir de este punto inicial (calidad alta para ensayos clínicos y baja para estudios observacionales), aplica los siguientes factores para bajar o subir la calidad de la evidencia (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013; Alonso-Coello P, 2013) (tabla 2):

    Tabla 2. Factores que modifican la calidad de la evidencia.
    Factores que permiten bajar la calidad de la evidencia
    Limitaciones en el diseño o ejecución de los estudios ↓ 1 o 2 grados
    Inconsistencia entre los resultados de diferentes estudios ↓ 1 o 2 grados
    Disponibilidad de evidencia indirecta ↓ 1 o 2 grados
    Imprecisión de los estimadores del efecto ↓ 1 o 2 grados
    Sesgo de publicación ↓ 1 grado
    Factores que permiten aumentar la calidad de la evidencia
    Magnitud del efecto importante ↑ 1 o 2 grados
    Gradiente dosis-respuesta relevante ↑ 1 grado
    Impacto de las variables de confusión plausibles ↑ 1 grado


    Factores que pueden bajar la calidad de la evidencia
    (Alonso-Coello P, 2013; Balshem H, 2011; Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):

    Al valorar la calidad de la evidencia para un desenlace, tanto para los ECA, que de antemano se consideran como calidad alta para evaluar el efecto de diferentes intervenciones, como para los estudios observacionales, que de antemano se consideran como calidad baja, existen factores que pueden disminuir la calidad en uno o dos grados:

    a) Limitaciones en el diseño o la ejecución de los estudios (riesgo de sesgo).

    En los ECA se consideran: las limitaciones en la secuencia de aleatorización, limitaciones en el enmascaramiento de investigadores, personal implicado en el estudio o participantes en el estudio, pérdidas de seguimiento importantes y la ausencia de análisis por intención de tratar, descripción selectiva de los resultados u otros sesgos (ensayos interrumpidos prematuramente por beneficio, uso de medidas de resultado no validadas, etc.).

    En los estudios observacionales se consideran: limitaciones en los criterios de inclusión de los pacientes, limitaciones en la medida de los resultados (como el sesgo de memoria), el control inadecuado de los factores de confusión o el seguimiento incompleto.

    A la hora de valorar globalmente el riesgo de sesgo de un conjunto de estudios con diferentes limitaciones, se debe realizar un juicio global, teniendo en cuenta la contribución de los estudios a la estimación del efecto (por ejemplo, los estudios de mayor tamaño contribuyen más o dando más peso a los de mejor calidad).

    b) Inconsistencia entre los resultados de diferentes estudios.

    La inconsistencia se refiere a la variabilidad o heterogeneidad de los resultados entre los estudios disponibles para un determinado desenlace. Se deben explorar las posibles causas de la variabilidad, principalmente las diferencias en la población, la intervención, los desenlaces o el riesgo de sesgo de los estudios.

    En los metanálisis, la existencia de heterogeneidad se suele medir mediante una prueba de contraste de hipótesis (una p <0,10 nos sugiere que los resultados difieren entre sí más de lo que cabría esperar por el mero azar) o mediante el estadístico I2 (adquiere valores entre 0 y 100, mide la magnitud de la heterogeneidad, cuanto mayor sea su valor mayor heterogeneidad). En ocasiones, la diferencia en la variabilidad de los resultados puede explicarse por diferencia entre distintos subgrupos; en estos casos puede ser más adecuado realizar recomendaciones diferenciadas para los subgrupos en lugar de bajar la calidad de la evidencia por inconsistencia.

    c) Ausencia de evidencia directa.

    La confianza en un estimador se reduce si se detecta que existen diferencias importantes entre la población donde se aplicará la GPC y la incluida en los estudios (por ejemplo, medio hospitalario vs. atención primaria, o pacientes de alto riesgo vs. bajo riesgo), entre la intervención que se pretende evaluar y la que se practicó en los estudios disponibles (por ejemplo, un programa de deshabituación tabáquica realizada por un equipo multidisciplinar vs. intervención de deshabituación en la consulta). También se debe considerar disminuir la calidad de la evidencia por evidencia indirecta ante la ausencia de comparaciones directas entre las intervenciones de interés o cuando no existen desenlaces claves y la recomendación se basa sólo en desenlaces intermedios.

    d) Imprecisión.

    Para evaluar la precisión al estimar el efecto de una intervención para un desenlace, se debe considerar su intervalo de confianza y el umbral que determina la diferencia clínicamente relevante para los pacientes. Si una decisión clínica o recomendación pudiera ser diferente dependiendo de si se tiene en cuenta un extremo u otro del intervalo de confianza como el efecto "real" de una intervención, la confianza (y, por tanto, la calidad) en la estimación del efecto deberían disminuir. Asimismo, incluso con un intervalo de confianza preciso según estos criterios, si el número de sucesos o el número de sujetos evaluados en los diferentes estudios son escasos, se debe considerar la necesidad de disminuir la calidad.

    En las GPC se valora un conjunto de desenlaces de interés y la decisión de bajar la calidad de la evidencia por imprecisión depende del umbral que determina la diferencia mínima relevante para los pacientes y del balance entre efectos deseables e indeseables de la intervención.

    Por ejemplo, si un fármaco anticoagulante para la prevención de episodios vasculares (ictus isquémicos) reduce el riesgo en un 5% (intervalo de confianza del 95% [IC: 95%] del 9 al 1%) en términos absolutos, las repercusiones de esta imprecisión deberían valorarse teniendo en cuenta también los riesgos. Si el fármaco se asociara a un incremento absoluto de las hemorragias graves extracraneales del 4%, no realizaríamos la misma recomendación en los dos extremos del intervalo de confianza para la reducción de ictus: en el supuesto de una reducción del riesgo de ictus del 1%, los riesgos son superiores a los beneficios, mientras que en el supuesto del 9%, los beneficios podrían compensar los riesgos. En este caso, bajaríamos la calidad de la evidencia por imprecisión para el desenlace de ictus.

    e) Sesgo de publicación.

    La calidad puede disminuir si se tiene la duda razonable de que no se hayan incluido todos los estudios realizados. La situación más frecuente se produce cuando, en el contexto de una revisión sistemática, se incluyen selectivamente los estudios que han mostrado resultados “positivos” (favorables a la intervención) y se omiten algunos estudios con resultados “negativos”, sobrestimando en su conjunto el efecto de la intervención. Existen pruebas estadísticas y gráficas que pueden orientar a la existencia de un sesgo de publicación, como la revisión de los gráficos de embudo (funnelplots). Esta situación puede llegar a ser más frecuente y difícil de detectar en los estudios observacionales.

    Factores que pueden aumentar la calidad de la evidencia:

    Las situaciones que pueden llevar a incrementar la confianza con los resultados de los estudios son poco comunes y se suelen aplicar sobre todo a estudios observacionales que evalúan el impacto de una intervención. Estos aspectos se deberían evaluar después de constatar que no se encuentra presente ninguna condición para disminuir la calidad de la evidencia debido a un potencial riesgo de sesgo u otros factores que se han citado previamente.

    a) Fuerza de la asociación.

    Cuando el efecto observado muestra una asociación fuerte (riesgo relativo u odds ratio >2 ó <0,5) o muy fuerte (riesgo relativo u odds ratio >5 ó <0,2), es más improbable que este efecto sea debido a una sobrestimación debido a los factores de confusión y más probable que el efecto observado sea más cercano al efecto real. En estos casos la calidad puede subir en 1 ó 2 grados. Por ejemplo, una revisión sistemática de estudios observacionales sobre la posición de los lactantes en la cuna a la hora de dormir para evitar el síndrome de muerte súbita mostró una reducción importante del riesgo para la posición boca arriba con un OR de 4,1 (IC: 95% 3,1 a 5,5).

    b) Gradiente dosis-respuesta.

    La existencia de un gradiente dosis-respuesta es un factor reconocido para establecer con mayor certidumbre una relación causa-efecto. En estas circunstancias este gradiente puede aumentar nuestra confianza en los resultados.

    c) Impacto de las variables de confusión plausibles.

    En los estudios observacionales rigurosos se controlan los factores pronósticos conocidos asociados con el desenlace de interés. No siempre es posible controlar todas las variables de confusión, que pueden reducir o reforzar el impacto de la intervención. Por ejemplo, varios estudios observacionales han mostrado que el uso del preservativo por parte de varones que tienen sexo con varones reduce el riesgo de infección por VIH comparado con no usarlo, estudios en los que el análisis no se ha ajustado por el número de parejas sexuales. Otros estudios han mostrado que los usuarios de preservativos tienen un mayor número de parejas sexuales que los varones que no los usan. De haberse ajustado por este factor, es posible que la asociación entre uso de preservativo y prevención de infección por VIH fuera mayor (Grupo de trabajo sobre GPC, 2016).

    Estos factores que pueden aumentar o disminuir la calidad de la evidencia no deben tomarse como elementos individuales que puedan sumarse o restarse para obtener una clasificación de la calidad, sino que deben ser considerados en su conjunto. Por ejemplo, a la hora de valorar cuáles son las cifras de control glucémico más adecuadas en pacientes con diabetes tipo 2 (control intensivo vs. habitual), nos encontramos con que, para el desenlace de mortalidad cardiovascular, la calidad de la evidencia se basa en 18 ensayos clínicos sin limitaciones importantes, pero con un intervalo de confianza impreciso (ver tabla 3) y una cierta heterogeneidad en los resultados (I2= 37% p= 0,09). Teniendo en cuenta ambos factores, bajamos la calidad de alta a moderada, pero no a baja.

    Una vez evaluada la calidad de la evidencia científica para cada desenlace, se debe realizar una clasificación global de la calidad de la evidencia, lo que implica realizar un juicio general de la calidad entre los desenlaces clave para una determinada pregunta clínica. En este proceso, se deberían considerar sólo los desenlaces clave, aunque no siempre existen datos. En el caso de los fármacos para la osteoporosis, se consideraría la calidad de la evidencia para las fracturas, pero no la de la densidad mineral ósea.

    Presentación de los resultados de la evaluación de la evidencia


    Los perfiles de evidencia son un buen método para presentar la evidencia disponible y los juicios sobre su calidad. Puede presentarse en forma de perfiles de GRADE (GRADE evidence profile) o en forma más resumida (Summary of Findings). La tabla 3 muestra el perfil de la evidencia para la pregunta respecto a las cifras objetivo de HbA1c en la diabetes tipo 2 (control estricto vs. convencional de la glucemia).

    Tabla 3. Ejemplo de perfil de evidencia. (Hemmingsen B, 2011)
    Evaluación de la calidad Resumen de los resultados Calidad Importancia
    Nº de pacientes Magnitud del efecto
    Nº de estudios Diseño Riesgo
    de sesgo
    Inconsistencia Evidencia
    indirecta
    Imprecisión Sesgo
    publicación
    Relativa
    (95% CI)
    Desenlace 1: Mortalidad por todas las causas.
    18 ECA Sin limitaciones
    importantes
    No importante
    I2= 40%
    p= 0,08
    No (-1)a Poco
    probable
    29.731 RR 1,01
    (0,9-1,13)

    Moderada
    Clave
    Desenlace 2: Mortalidad cardiovascular.
    18 ECA Sin limitaciones
    importantes
    No importante
    I2= 37%
    p= 0,09
    No (-1)a Poco
    probable
    29.731 RR 1,06
    (0,9-1,26)

    Moderada
    Clave
    Desenlace 3: IAM no fatal.
    12 ECA Sin limitaciones
    importantes
    No importante No (-1)a Poco
    probable
    29.174 RR 0,87
    (0,76-1,0)

    Moderada
    Clave
    Desenlace 4: ACV no fatal.
    11 ECA Sin limitaciones
    importantes
    No importante
    I2= 20%
    p= 0,26
    No Pocos
    eventos
    (-1)a
    Poco
    probable
    28.760 RR 0,96
    (0,8-1,16)

    Moderada
    Clave
    Desenlace 5: Insuficiencia renal terminal.
    7 ECA Sin limitaciones
    importantes
    No importante b No Poco
    probable
    28.075 RR 0,87
    (0,71-1,06)

    Moderada
    Clave
    Desenlace 6: Retinopatía.
    8 ECA Sin limitaciones
    importantes

    I2= 53%
    p= 0,04
    b No Poco
    probable
    10.953 RR 0,79
    (0,68-0,92)

    Moderada
    Importante
    Desenlace 7: Hipoglucemia severa.
    12 ECA Sin limitaciones
    I2= 79%
    p >0,00001
    No No Poco
    probable
    28.127 RR 2,05
    (1,39-3,02)


    Alta
    Clave
    Desenlace 8: Amputaciones (extremidades inferiores).
    6 ECA Sin limitaciones
    importantes
    No importante No (-2)c Poco
    probable
    6.960 RR 0,64
    (0,43 a 0,95)


    Baja
    Clave
    a Desenlace 1, 2 y 3: el análisis secuencial de los ensayos informó que se necesitan más datos.
    Desenlace 7: la heterogeneidad fue considerable, explicable por cómo se define la hipoglucemia. Es improbable que ello cambie el resultado.
    b Variables subrogadas.
    c Pocas amputaciones.


    En este ejemplo, considerando todos los desenlaces, la calidad global de la evidencia sería moderada.

    Cada pregunta clínica deber acompañarse además de un resumen redactado de forma narrativa, en el que se describen brevemente los resultados de la búsqueda, la selección de estudios, sus características y resultados de los estudios para los distintos desenlaces.

    Formulación de las recomendaciones


    La fuerza de una recomendación refleja el grado de certeza de que los efectos deseables de una intervención recomendada superan sus efectos no deseables, o viceversa, en la población de interés. El sistema GRADE considera dos categorías en relación a la fuerza de las recomendaciones (Grupo de trabajo sobre GPC, 2016):

    • Recomendación fuerte: se refiere a una recomendación con confianza en que los efectos deseados de la intervención superan a los indeseables (recomendación fuerte a favor), o en que los efectos indeseados de la intervención superan los deseados (recomendación fuerte en contra).
    • Recomendación débil: se refiere a una recomendación según la cual los efectos deseables probablemente superan los efectos no deseables (recomendación débil a favor de una intervención) o los efectos no deseables probablemente son mayores que los efectos deseables (recomendación débil en contra de una intervención), pero con una incertidumbre apreciable.

    En la tabla 4 se resumen las implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas (pacientes, clínicos y gestores).

    Tabla 4. Implicaciones de la fuerza de las recomendaciones desde diferentes perspectivas (pacientes, clínicos y gestores).
    Recomendación fuerte Recomendación débil
    Para pacientes La mayoría de las personas estarían de acuerdo con la acción recomendada y sólo una pequeña proporción no lo estaría.

    Las herramientas formales para la toma de decisiones probablemente no serán necesarias para ayudar a las personas a tomar decisiones coherentes con sus valores y preferencias.
    La mayoría de las personas en esta situación estarían de acuerdo con la acción sugerida, pero muchos no lo estarían.

    Las herramientas para la toma de decisiones pueden ser útiles como ayuda para la toma de decisiones coherentes con los valores y preferencias de cada persona.
    Para profesionales sanitarios La mayoría de las personas debería recibir la intervención recomendada. Reconoce que diferentes opciones serán apropiadas para cada paciente individual y que se deberá alentar a que cada paciente alcance una decisión de manejo coherente con sus valores y preferencias.

    Las herramientas para la toma de decisiones pueden ser útiles como ayuda para la toma de decisiones coherentes con los valores y preferencias de cada persona.
    Para decisores/gestores La recomendación puede ser adaptada a la política sanitaria en la mayoría de las situaciones.

    La adherencia a esta recomendación incluida en la guía, puede ser utilizado como un criterio de calidad o indicador de rendimiento.
    El desarrollo de políticas sanitarias requerirá considerables debates y la participación de los diversos grupos de interés.

    La documentación adecuada del proceso de toma de decisiones para una recomendación débil podría utilizarse como una medida de calidad, en particular, si está basada en evidencia de alta calidad.


    De la evidencia a la recomendación: factores a tener en cuenta en la graduación de las recomendaciones
    (Alonso-Coello P, 2016; Alonso-Coello P, 2018; Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):

    El paso de la evidencia a la recomendación requiere tener en cuenta otros aspectos, además de la calidad de la evidencia. Estos aspectos o “juicios” deben reflejarse de forma explícita y transparente. Para estructurar la información y favorecer la transparencia en el paso de la evidencia a las recomendaciones o decisiones, el grupo GRADE ha elaborado una serie de marcos para la formulación de las recomendaciones y otras decisiones denominado Evidence to Decision (EtD) frameworks (Alonso-Coello P, 2018 [1]; Alonso-Coello P, 2018 [2]). Para cada una de las preguntas, se debe presentar claramente la pregunta, los subgrupos de población a los que va dirigido, el entorno (ámbito al cual va dirigida la recomendación) y la perspectiva (por ejemplo, poblacional o paciente individual), y los siguientes criterios y consideraciones:

    1. Prioridad del problema: ¿el problema constituye una prioridad? Cuanto más severo es un problema, más probable es que sea una prioridad y que deba formularse una recomendación fuerte.
    2. Efectos deseables e indeseables: ¿cuál es la magnitud de los efectos deseables (beneficios)?¿Cuál es la magnitud de los efectos indeseables (riesgos y carga de tratamiento)? Cuanto más sustanciales sean los efectos deseables y menos los indeseables, es más probable que deba recomendarse una intervención y, por tanto, mayor probabilidad de formular una recomendación fuerte.
    3. Calidad de la evidencia: ¿cuál es la calidad global de la evidencia? (alta, moderada, baja, muy baja, no hay estudios incluidos). Cuanto mayor sea la calidad de la evidencia, mayor probabilidad de realizar una recomendación fuerte.
    4. Importancia de los desenlaces para los pacientes. ¿Existe incertidumbre o variabilidad en cómo los pacientes valoran los desenlaces de interés? Cuanto mayor sea la incertidumbre, menor es la probabilidad de formular una recomendación fuerte. En el caso de la diabetes tipo 2 y el control estricto de la glucemia frente al convencional, existe incertidumbre acerca de cómo los pacientes valorarán la carga de la medicación debida a un control más estricto (posible insulinización, más fármacos orales, más analíticas y consultas), el mayor riesgo de hipoglucemia frente a ligeros beneficios en las complicaciones para la diabetes.
    5. Teniendo en cuenta la magnitud de los beneficios y riesgos y la incertidumbre respecto a cómo los pacientes valoran los distintos desenlaces, el balance entre los efectos deseados e indeseados, ¿favorece a la intervención? En el caso del control glucémico, el balance entre beneficios y riesgos es muy ajustado: puede mejorar alguna de las complicaciones de la diabetes en pequeña magnitud a costa de un mayor riesgo de hipoglucemia severa y de mayor carga del tratamiento, con incertidumbre acerca de cómo los pacientes pueden valorar estos resultados. Todo ello hace más probable que la recomendación sea débil, a pesar de que la calidad de la evidencia sea moderada.
      Desenlaces:
      1. Mortalidad por todas las causas: sin efecto.
      2. Mortalidad cardiovascular: sin efecto.
      3. IAM no fatal: poco beneficio.
      4. ACV no fatal: sin efecto.
      5. Nefropatía: sin efecto.
      6. Retinopatía: poco beneficio.
      7. Hipoglucemia: riesgos/inconv. importantes/modestos.
      8. Amputaciones: poco beneficio.
    6. Recursos/Costes. ¿Son altos los costes que se requieren para poner en marcha la intervención?¿Es alta la incertidumbre en torno a los recursos necesarios? Cuanto mayor es el coste, menos probable es que una intervención se recomiende. Cuando el uso de recursos se considera fundamental para una decisión acerca de una recomendación, es aconsejable su evaluación económica mediante métodos formales o la búsqueda de evidencia acerca de su relación entre costes y beneficios.
    7. Teniendo en cuenta el balance entre efectos deseables e indeseables, es decir, el beneficio neto (criterios 2 a 5) y el coste, la relación coste-beneficio, ¿favorece la intervención?
    8. Equidad, aceptabilidad y factibilidad. ¿Cuál es el impacto sobre la equidad?¿Es aceptable la intervención para los grupos de interés clave?¿Es factible implementar la intervención?

    Otros ejemplos:

    • El tratamiento con corticoides sistémicos en las exacerbaciones en la enfermedad pulmonar obstructiva crónica (EPOC) presenta un balance beneficio-riesgo favorable (reduce el riesgo de fracaso terapéutico, la necesidad de tratamiento adicional, la estancia hospitalaria y aumenta la capacidad funcional, aunque presenta eventos adversos leves). La calidad de la evidencia es moderada. No hay razones para pensar que la mayoría de los pacientes, una vez informados, no aceptarían el tratamiento. Y finalmente, el coste de los corticoides es muy bajo. En conjunto, por tanto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la estimación del efecto) y no hay otros factores adicionales que nos hagan disminuir nuestra confianza en que el llevar a cabo esta recomendación conllevaría más beneficios que daños. No conlleva problemas de equidad ni de factibilidad. Por tanto, el grupo elaborador de una guía probablemente realizaría una recomendación fuerte a favor del uso de corticoides en las exacerbaciones de la EPOC (National Collaborating Centre for Chronic Conditions, 2004).
    • La prevención del ictus en pacientes con fibrilación auricular de riesgo intermedio (CHADS2= 1) con anticoagulantes orales, bien antagonistas de la vitamina K (warfarina y acenocumarol) o nuevos anticoagulantes orales (NACO) en comparación con aspirina. Warfarina muestra un balance beneficio riesgo favorable (9 ictus menos y 3 sangrados extracraneales no fatales más por cada 1.000 pacientes tratados), siendo la calidad de la evidencia moderada (You JJ, 2012). No se dispone de datos comparativos entre aspirina y nuevos anticoagulantes (aunque sí entre warfarina y NACO, la evidencia para los NACO sería, en todo caso, indirecta). En cuanto a los valores y preferencias, los pacientes asignan, en términos generales, tres veces más importancia a evitar un ictus que a sufrir un sangrado extracraneal grave. No obstante, estas estimaciones de los valores y preferencias son muy variables (MacLean S, 2012). En cuanto al coste, aspirina y warfarina tienen bajo coste. En el caso de los NACO, el coste es mucho más elevado y en nuestro medio su impacto en presupuesto es muy relevante. En conjunto, por tanto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la estimación del efecto) y el coste es bajo para warfarina. El balance entre beneficios y riesgo favorece a warfarina, aunque, debido al riesgo basal relativamente bajo de estos pacientes, es modesto. Los valores y preferencias de los pacientes son variables. Por tanto, hay algunos factores que disminuyen nuestra confianza en que el llevar a cabo esta recomendación conllevaría más beneficios que daños en la mayoría de pacientes. Por tanto, el grupo elaborador de una guía probablemente formularía una recomendación débil a favor de los anticoagulantes antagonistas de la vitamina K, comparados con la aspirina, en esta población (You JJ, 2012). No recomendaría los NACO en esta población, debido sobre todo a la ausencia de evidencia directa y a su alto coste.

    Respecto a la redacción de recomendaciones, GRADE propone la adopción de una terminología específica para reflejar la fuerza, utilizando para ello expresiones como “se recomienda/no se recomienda” o “se debe/no se debe” cuando se habla de recomendaciones fuertes, y “se sugiere/no se sugiere” o “se podría” para recomendaciones débiles.

    La recomendación acerca del control glucémico sería débil y quedaría redactada de la siguiente forma (Ezkurra P, 2015):

    “En general se sugieren unas cifras objetivo orientativas menores del 7% de HbA1c. No obstante, el objetivo debería estar basado en la evaluación individualizada teniendo en cuenta el riesgo de complicaciones de la diabetes, comorbilidad, esperanza de vida y preferencias de los pacientes.

    Se sugiere plantear objetivos menos estrictos, entre 7,5%-8%, para los ancianos, pacientes con multimorbilidad o para iniciar la insulinización o la triple terapia.

    Se puede considerar un tratamiento intensivo con el objeto de reducir las cifras de HbA1c por debajo del 6,5% en pacientes jóvenes o recién diagnosticados sin comorbilidad.

    Se sugiere implicar a las personas con diabetes tipo 2 en las decisiones sobre su nivel objetivo de HbA1c.”

    Tecnologías para aplicación de GRADE


    El sistema GRADE cuenta con un software para la aplicación del mismo denominado GRADEpro GDT. El software es una propuesta para sintetizar y presentar información para la toma de decisiones en el campo de la salud. GRADEpro GDT permite la elaboración de tablas de resumen de los hallazgos tanto para revisiones sistemáticas como para las evaluaciones de tecnologías, facilitando el desarrollo de GPC y otro tipo de decisiones. Recientemente, ha incorporado una base de datos que incluye un repositorio de este tipo de formatos para su adopción, adaptación o uso en nuevas GPC. GRADEpro GDT, así como algunos de los formatos de presentación, han sido desarrollados gracias al proyecto DECIDE (Developing and Evaluating Communication Strategies to Support Informed Decisions and Practice Based on Evidence) (Treweek S, 2013).

    DECIDE es un proyecto Europeo impulsado por el grupo GRADE que tuvo como objetivo mejorar la diseminación de las recomendaciones en salud para diferentes grupos de interés (profesionales sanitarios, ciudadanos, pacientes y gestores). Para ello se desarrollaron formatos óptimos de presentación y se actualizó el software original de GRADEpro (Kristiansen, 2015). Sus resultados ya se están implementando en algunas de las instituciones más influyentes en la elaboración de revisiones sistemáticas, la formulación de recomendaciones y toma de decisiones sanitarias como la Colaboración Cochrane, la OMS o la propia NICE. En nuestro entorno ya han sido incorporados en la actualización del manual de elaboración de GPC en el Sistema Nacional de Salud de 2016 (Grupo de trabajo sobre GPC, 2016). Entre los formatos de presentación desarrollados están las tablas interactivas de resumen de los hallazgos (https://isof.epistemonikos.org/#/), las herramientas de apoyo a las decisiones compartidas ligadas a las GPC (Agoritsas T, 2015) o el marco de la evidencia a las decisiones (Alonso Coello P, 2016).

    Existen otros softwares para la aplicación de GRADE. Entre ellos destaca la iniciativa MAGIC (Vandvik, 2013), la cual dispone de MAGIC app, una aplicación para desarrollar GPC electrónicas, síntesis de información y herramientas de apoyo a la toma de decisiones ligada a las GPC. La iniciativa colaboró junto al grupo GRADE en el desarrollo de los formatos de presentación resultado del proyecto DECIDE mencionado anteriormente. Es un software similar a GRADEpro que destaca por su desarrollo de los aspectos de publicación, simultáneos a los de elaboración.

    La evaluación de estos nuevos formatos de presentación electrónicas de las GPC han sido favorables entre los profesionales a los que van dirigidas las GPC (Brandt, 2017).

    Bibliografía

    • Agoritsas T, Heen AF, Brandt L, Alonso-Coello P, Kristiansen A, Akl EA, et al. Decision aids that really promote shared decision making: the pace quickens. BMJ 2015;350:g7624. Texto completo
    • Alonso-Coello P, Schünemann HJ, Moberg J, et al. Marcos GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones sanitarias bien informadas. 1: Guías de práctica clínica. Gac Sanit. 2018;32(2):166.e1-166.e10. PMID: 28822594. Texto completo
    • Alonso-Coello P, Oxman AD, Moberg J, et al. Marcos GRADE de la evidencia a la decisión (EtD): un enfoque sistemático y transparente para tomar decisiones sanitarias bien informadas. 2: Guías de práctica clínica. Gac Sanit. 2018;32(2):167.e1-167.e10. PMID: 28917831. Texto completo
    • Alonso-Coello P, Rigau D, Solà I, Martínez García L. La formulación de recomendaciones en salud: el sistema GRADE. MedClin (Barc). 2013;140(8):366-73. Texto completo
    • Alonso-Coello P, Schünemann HJ, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, Treweek S, Mustafa RA, Rada G, Rosenbaum S, Morelli A, Guyatt GH, Oxman AD; GRADE Working Group. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed healthcare choices. 1: Introduction. BMJ. 2016 Jun 28;353:i2016. PubMed PMID: 27353417. Texto completo
    • Alonso-Coello P, Oxman AD, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, Treweek S, Mustafa RA, Vandvik PO, Meerpohl J, Guyatt GH, Schünemann HJ; GRADE Working Group. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed healthcare choices. 2: Clinical practice guidelines. BMJ. 2016 Jun 30;353:i2089. PubMed PMID: 27365494. Texto completo
    • Balshem H, Helfand M, Schünemann HJ, Oxman AD, Kunz R, Brozek J, Vist GE, Falck-Ytter Y, Meerpohl J, Norris S, Guyatt GH. GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol. 2011 Apr;64(4):401-6. PubMed PMID: 21208779. Texto completo
    • Brandt L, Vandvik PO, Alonso-Coello P, Akl EA, Thornton J, Rigau D, et al. Multilayered and digitally structured presentation formats of trustworthy recommendations: a combined survey and randomised trial. BMJ Open. 2017 Feb 10;7(2):e011569. PMID: 28188149. Texto completo
    • Ezkurra P, Etxeberria A, Idarreta I, Balagué L, Moreno M, Daza P, Villa I, Etxeandia I. Protocolo sobre manejo de la diabetes mellitus tipo 2. FMC. 2015;22(Supl. 2):9-40 - Vol. 22 Núm.Supl.2.
    • Grupo de trabajo sobre GPC. Elaboración de Guías de Práctica Clínica en el Sistema Nacional de Salud. Actualización del Manual Metodológico [Internet]. Madrid: Plan Nacional para el SNS del MSC. Instituto Aragonés de Ciencias de la Salud-I+CS; 2016. [consultado: septiembre 2016]. Disponible en: https://portal.guiasalud.es/wp-content/uploads/2019/01/manual_gpc_completo.pdf
    • Hemmingsen B, Lund SS, Gluud C, Vaag A, Almdal T, Hemmingsen C, Wetterslev J. Targeting intensive glycaemic control versus targeting conventional glycaemic control for type 2 diabetes mellitus. Cochrane Database Syst Rev. 2011 Jun 15;(6):CD008143. PubMed PMID: 21678374
    • Instrumento AGREE II. Instrumento para la evaluación de Guías de Práctica Clínica. Traducción a cargo de Guía Salud. The Agree Research Trust; 2009. En: http://www.agreetrust.org; Versión en español: https://portal.guiasalud.es/wp-content/uploads/2019/01/spanish-agree-ii.pdf
    • Kristiansen A, Brandt L, Alonso-Coello P, Agoritsas T, Akl EA, Conboy T, et al. Development of a novel multilayered presentation format for clinical practice guidelines. Chest. 2015;147(3):754-63. PubMed PMID: 25317597. Texto completo
    • MacLean S, Mulla S, Akl EA, Jankowski M, Vandvik PO, Ebrahim S, McLeod S, Bhatnagar N, Guyatt GH; American College of Chest Physicians. Patient values and preferences in decision making for antithrombotic therapy: a systematic review: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines. Chest. 2012 Feb;141(2 Suppl):e1S-23S. PubMed PMID: 22315262. Texto completo
    • National Collaborating Centre for Chronic Conditions. Chronic obstructive pulmonary disease. National clinical guideline on management of chronic obstructive pulmonary disease in adults in primary and secondary care. Thorax. 2004 Feb;59 Suppl 1:1-232. PubMed PMID: 15041752. Texto completo
    • Schünemann H, Brozek J, Guyatt G, Oxman A, editores. GRADE handbook forgrading quality of evidence and strength of recommendations [Internet]. The GRADE Working Group, 2013 [consultado: 07/10/2016]. Disponible en: http://gdt.guidelinedevelopment.org/central_prod/_design/client/handbook/handbook.html
    • Treweek S, Oxman AD, Alderson P, Bossuyt PM, Brandt L, Brozek J, et al. DECIDE Consortium. Developing and Evaluating Communication Strategies to Support Informed Decisions and Practice Based on Evidence (DECIDE): protocol and preliminary results. Implement Sci. 2013;8:6. Texto completo
    • Vandvik PO, Brandt L, Alonso-Coello P, et al. Creating clinical practice guidelines we can trust, use, and share: a new era is imminent. Chest. 2013;144(2):381-389. PMID 23918106. Texto completo
    • You JJ, Singer DE, Howard PA, Lane DA, Eckman MH, Fang MC, Hylek EM, Schulman S, Go AS, Hughes M, Spencer FA, Manning WJ, Halperin JL, Lip GY; American College of Chest Physicians. Antithrombotic therapy for atrial fibrillation: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines. Chest. 2012 Feb;141(2 Suppl):e531S-75S. PubMed PMID: 22315271. Texto completo

    Autores

    Pablo Alonso Coello Médico Especialista en Medicina Familiar y Comunitaria (1)
    Rafael Rotaeche del Campo Médico Especialista en Medicina Familiar y Comunitaria (2)
    David Rigau Médico Especialista en Farmacología Clínica (1)
    Arritxu Etxeberria Agirre Farmacéutica de Atención Primaria (3)
    Laura Martínez Médico Especialista en Medicina Preventiva y Salud Pública (1)

    (1) Centro Cochrane Iberoamericano, Instituto de Investigación Biomédica (IIB-Sant Pau), Barcelona.
    (2) Equipo de Atención Primaria de Alza. Servicio Vasco de Salud (Osakidetza). País Vasco.
    (3) OSI Donostialdea. Servicio Vasco de Salud (Osakidetza). País Vasco.

    Conflicto de intereses
    No disponible.
    © Descargado el 27/11/2022 12:25:06 Para uso personal exclusivamente. No se permiten otros usos sin autorización. Copyright © . Elsevier Inc. Todos los derechos reservados.