夏君教授：循证医学指南的制定方法GRADE方法学

编者按

证据是循证医学的核心要素之一，在临床实践中，对证据的内部效度（internal validity）和外部效度（external validity，即研究结果适用于各种临床实践环境和情形的程度）进行严格评估是必不可少的，其中证据的内部效度评价尤为关键。包括世界卫生组织（WHO）在内的19个国家和国际机构的研究者共同成立了“推荐分级的评价、制定与评估”（Grades of Recommendations Assessment, Development and Evaluation，简称GRADE）工作组，并正式推出了GRADE证据把握度分级和指南推荐强度分级系统，此举在证据医学发展史上是一个重要的里程碑。近日，宁波诺丁汉GRADE中心、中国临床实践指南联盟（GUIDANCE）夏君教授详细介绍了GRADE的方法学，本刊特整理如下，供读者参考。

循证医学指南非常重要的环节之一就是临床研究证据，证据的金字塔已经沿用近20年（图1），从塔底到塔尖呈现了越来越高的证据质量，即对证据所提示的结论把握度越来越高。从研究设计的角度来讲，塔尖证据的研究设计对混杂和偏倚的控制能力更强，得出来的结果就更加可靠和可信，研究的内部效度更强。

图1. 证据质量金字塔

（引自讲者幻灯）

牛津表格

1998年由Bob Philips，Chris Ball，David Sackett等多位临床流行病学和循证医学专家联合制定，形成牛津大学循证医学中心医学证据推荐强度分级标准。证据级别的划分基于临床问题的类型，比如干预措施有效性和安全性这类问题，必须有对照研究才能知道相对效果。在1998版表格的第二列和第三列，1a级证据随着临床问题的变化而变化，当预后或诊断时，1a级别的证据就不再是纳入随机对照试验（RCT）的系统评价了，而是纳入队列研究或横断面研究的系统评价，所以RCT不是永远的“金”标准证据。只有当研究干预措施的有效性和安全性问题时，才是高级别的证据。

2000年，包括来自WHO在内的19个国家和国际组织的研究人员共同成立了GRADE工作组。GRADE工作组认为研究设计和执行处于两个不同层面，“金”标准的研究设计如果在执行过程中出现各种各样的漏洞和不足，比如执行不严格，统计方法不恰当等也会导致其研究结果不可靠。建议判断证据的把握度和内部效度时，需要从5个方面再确认，包括偏倚风险、不一致性、不精确性、间接性和发表偏倚。

牛津的最新版表格也接纳了这方面的理念并进行了调整，形成了2011版的证据表格（图2）。新版表格强调由于研究质量、不精确性、间接性（研究PICO与问题PICO不匹配）、研究之间的不一致性或绝对效应量非常小，可能会降低水平；如果有很大或非常大的效应量，水平可能会被分级。2011版表格传递的信息与GRADE统一，无论牛津还是GRADE，都要从设计和执行两方面去考虑证据的质量并来提示把握度。

图2. 修订后的牛津证据等级表格

（引自讲者幻灯）

GRADE-证据全貌分析

GRADE更强调对证据的全貌进行评价，下面举例说明。

对于有早产风险的孕妇，医生建议尝试短期的激素治疗，避免新生儿出生之后的一系列不良事件或病死风险。因为针对干预措施有效性和安全性这一类问题，最好的临床研究证据就是RCT，所以对于这条建议的循证需要找到RCT研究。1972年的一项RCT纳入了有早产风险的孕妇[1]，分为激素使用组和对照组，以干预后的新生儿病死为观察指标，进行了产前糖皮质激素治疗预防早产儿呼吸窘迫综合征的研究。激素组入组532人，干预之后有36例新生儿病死，对照组入组538人，干预后60例病死。用干预组事件发生风险除以对照组事件发生风险，得出两组间的相对风险度（RR）为0.61（95%CI）。同理，研究者将其他6个研究也按以上方式计算RR并汇总展示（图3）。

图3. 多个研究结果的相对风险汇总

（引自讲者幻灯）

在传统共识的制作中，2个研究提示激素起到了保护作用，5个研究提示两组之间没有差异。然而，当用系统评价的方式对这些证据进行整合时，发现其实干预措施是有效的，分析整合结果明确显示激素对新生儿出生之后的病死和不良事件起到了明显的保护作用。传统共识和系统评价方式得到了完全不同的结果，这就是因为传统共识制作时专家往往仅看单个研究的阴阳性结果，这很容易引导错误的结论。而系统评价将数据整合，得到了数据全貌，可以更完整地进行统计分析，所以最终的结论是短期的激素治疗对预防新生儿早产的病死有效。最终这个结果也被指南所采纳[2-3]，在全球范围内改变了这一类患者所接受的干预措施，挽救了更多生命。

所以，在循证时GRADE要求对证据的全貌进行评价，只有进行了系统性检索，并把这些研究证据用系统评价或Meta分析进行整合的前提下，才可以得到全貌。GRADE在评价证据把握度时对证据体的5个方面进行评价，评价后可以知道证据体的质量级别（即把握度），高质量的证据提示研究结果相对比较可靠，有干预措施的真实干预效应，基本上在研究所显示的范围之内，将来的研究也不太可能会改变这个结论。如果一个指南的专家组要基于这个结论去做推荐意见，很有可能是强推荐或强反对。

GRADE决策框架

GRADE的第2个工具是Evidence to Decision Framework（EtD），下面举例说明。

由于癌症患者的静脉血栓和肺栓塞（VTE）事件的发生风险升高，所以临床上会考虑一些预防性措施，比如服用阿司匹林或肝素等降低VTE事件的发生风险。这个临床问题的人群是癌症患者，干预措施是使用肝素，并用对照组来观察一系列的出血事件和VTE发生风险。这是干预类的问题，所以最高级别的证据是纳入RCT系统评价。经检索查询，找到满足要求的文献[4]，文献中系统评价一共纳入了9个研究，5979例患者。整体研究结果显示，相对于不使用肝素，使用肝素后VTE事件的发生风险会降低43%。43%的风险降低以及高质量证据说明对效果很有把握，看上去意味着所有患者都应该被给予肝素，但事实并非如此。

一方面证据显示干预措施带来获益，降低了重大不良事件的发生风险；临床认可这个措施并可执行，倾向于推荐。另一方面，它同时带来一些不良事件，在服用肝素之后，可能有大大小小的出血事件，有时甚至非常危险，并且部分患者会因害怕所以不接受肝素治疗；指南在全国范围内执行，费用高昂医保负担重，不倾向于推荐。两方面互相博弈，很难形成有效决策。

这时需要借助GRADE的证据决策框架，把决策中所有的重要指标逐个讨论（图4），引导专家组先逐一达成专项共识。专项共识达成之后就形成了决策图谱，基于决策图谱，就可以形成推荐意见，综合考虑推荐还是反对肝素的使用，或者某些特定的条件下才推荐使用肝素等，所以GRADE证据质量和推荐强度相互关联。

图4. 癌症患者是否使用肝素的证据决策框

（引自讲者幻灯）

GRADE的第一个工具对证据的质量（把握度）进行了评级，分为高、中、低和极低4个水平，然后基于证据的把握度对推荐意见进行强弱分级。通常来讲，高把握度或中等把握度的研究证据可以支持强推荐或强反对。那么相反，低级或极低级证据把握度说明其干预效果的把握度不高，可能在观察值的范围内，也可能相反。这种情况之下，在指南当中做出强推荐的情况很少。

但是在一些特殊情况下，低质量的证据也能形成强推荐或强反对。第一，威胁生命的情况下，有低质量的证据显示干预措施可能降低病死率。新冠初期没有RCT类高质量的证据，可是在当时的特殊情况下，观察性的经验、个案队列等提示干预措施可能会有一些效应保护作用，而此时的对立面是威胁生命的病死情况，后果非常严重，所以在这种情况下，低质量的证据显示的获益也可以形成强推荐。第二，低质量证据显示干预措施不确定获益，但有高质量证据显示该措施有害，对获益没有把握，但对损害很有把握，这时低质量的证据也可以形成强反对。第三，低质量证据显示备选干预措施获益大小相似，但有高质量证据显示其中一种危害更小或成本更低。第四，高质量证据明确显示治疗措施有相似的高获益，但其中一种可能危害更大或成本更高。第五，干预方案不确定是否获益，但可能存在巨大损害，也可以形成强反对。

参考文献：

[1] Liggins GC, Howie RN. Pediatrics. 1972; 50:515-25.

[2] S J Stock, A J Thomson, S Papworth, et al. BJOG. 2022 Jul;129(8): e35-e60.

[3] Preterm labour and birth. Quality standard [QS135] Published: 19 October 2016 Last updated: 02 August 2019. Quality statement 5: Corticosteroids for women between 24+0 and 33+6 weeks of pregnancy.

[4] Elie A. Akl, M.D., M.P.H., et al. N Engl J Med 2012;366:661-662

夏君教授

宁波诺丁汉GRADE中心、中国临床实践指南联盟（GUIDANCE）

公共卫生副教授，博士生导师

宁波诺丁汉GRADE中心，诺丁汉大学（中国|英国）主任

Cochrane Collaboration中国网络、宁波诺丁汉大学分支主任

英国伦敦国王学院特聘高级研究员

中国临床实践指南联盟（GUIDANCE）方法学组主任委员

GRADE理事会理事

INGUIDE 国际顾问委员会委员

美国胃肠内镜外科医师学会（SAGES）医学指南方法学/证据整合顾问

Cochrane精神分裂症组、皮肤病专业组编委

Clinical and Public Health Guideline杂志编委

2021年入选为全球2%顶尖科学家。主要从事循证医学证据整合，包括系统评价、meta分析、卫生技术评估、临床实践指南。发表SCI论文100余篇（BMJ、Lancet Psychiatry），参编书籍四部。参与制作6个WHO 的全球临床指南，主持数十部中国本土的循证医学指南；教学视频在Youtube上有20万次点播。