荟萃分析(Meta-analysis)是对已发表的和未发表的资料进行综合分析、评价,并用正规的统计学方法综合各研究的结果,是一种对已有的资料进行最佳利用的方法。荟萃分析主要用于临床随机对照研究(rct)结果的综合分析,因为该类型研究的结果最可信。但rct研究样本一般都太小,以至于不易发现对照组与治疗组实际上存在的差异。荟萃分析合并资料后,样本增大,把握度提高,可以防止由于样本太小带来的偏差。例如综述(overview)习惯上也可指传统的文献综述,而汇总(pooling)意指源数据合并。最近这一词被列入医学主题词表和国家医学图书馆的Medline检索系统中。系统性综述是指应用避免偏差的策略的和针对资料和方法部分的任何形式的回顾。系统性回顾可以包括也可以不包括正式的荟萃分析。目前,Meta分析是循证医学(Evidence-based Medicine) 大量文献分析的核心方法,几乎成了循证医学的代名词1-2。河南中医学院第一附属医院风湿科黄云台
1.荟萃分析的历史
荟萃分析估计一种治疗措施的有效性,最早见于1955年。这种治疗为一种安慰剂,对各种差异非常大的条件如术后伤口痛、咳嗽和心绞痛等应用安慰剂的有效性的平均值进行了计算,安慰剂对35%的病人有显著效果。然而,在十九世纪七十年代在社会科学,尤其在教育研究工作中发展了更成熟的统计学技术。荟萃分析这一术语由心理学家Glass3在1976年杜撰。荟萃分析被心血管病、肿瘤学、围产期保健领域中的医学研究者重新发现并用于随机化临床试验研究分析。出现对观测研究的荟萃分析及交叉设计合成。
Cochrane合作组(以医学干预评价领域的先驱Archie Cochrane的名字命名)的宗旨是准备、维护和发布医疗保健疗效的综合性系统的回顾。自从1992年Cochrane中心在牛津建立以来,这种研究便迅速发展起来,在欧洲、北美洲和拉丁美洲、非洲和澳洲建立了15个中心以,又有数以百计的遍布世界各地的个人参与合作。
它虽然是一项引起争议的技术。但一些人认为“一旦有可能荟萃分析就应取代传统的单主题的回顾性文章”,其他的人则把它看作是一个“新的祸根”,为一种“不受欢迎的统计病态面孔”和“应该把它扼杀在摇篮里”。这种接受性的巨大反差并不奇怪。从临床的角度来看,合并一组具体研究的结果也许并不适合,因为它生成一个群体“平均”治疗效果,而临床医师想要了解怎样才能最佳医治他或她的具体病人。对同一问题的荟萃分析可以得出截然相反的结论,如对低分子量肝素防止手术前后血栓形成的评估。及对二线抗风湿病药物治疗风湿性关节炎的评估。但事情很明显,为了从先前的研究中获得最大的收获,正确的文献回顾策略应越来越普及及予以高度重视。
2.荟萃分析的质量控制
临床实验被引用的频率与他们所得出的结果有关,与流行观点相一致的研究比观点不一致的研究被引用得更频繁。一旦收集好一组研究,传统的对研究结果综述的方法是计算从各方面支持该一论点的研究的数目,并选择得到最多认同的观点。这个步骤无疑是有缺陷的,因为它忽视了样本大小、作用大小和研究设计。因此难怪应用传统的方法的分析家们常常得出截然相反的结论,并且往往忽略了微小的,但可能有重要意义的差别。临床医学饱受相反结论之苦,而评论家似乎应有责任去平息这些争论。然而,在争论中,从同一证据实体得出的相反的结论可能与评论家的专业有关而不是数据本身。通过整合实际证据,荟萃分在被检查的总数为136个的115个试验中析可以有更客观的评价,因此当遇到原始研究、传统的综述和编辑意见相左时, 荟萃分析可能帮助解决不确定性。
3.荟萃分析的局限性
一个试验可能显示无显著疗效,然而事实上疗效确实存在,因而可能产生假阴性结果。这是一种II型误差,对某一治疗效果、样本大小和显著意义水平的差异,这种误差的出现的概率可能被计算出。通常I型误差较好识别――当一个试验随机产生显著差异时,这种误差的概率反映在P值。一个对报道在试验组和对照组之间治疗无显著差异的临床试验的调查显示,在临床研究中出现II型误差相当普遍:对一个临床疗效的差异, 在被检查的总数为136个的115个试验中遗漏这一作用的先验概率超过20%。临床试验中所包含的病人数常常不够充分,这种情况在新近的几年中几乎没有改变。在某些情况下,那些必须的样本大小仍然很难达到。例如有一种药物,它能使心肌梗塞的致死风险减少10%,而仅在英国每年就可以延长成千上万病人的生命。要想测出这种药物效应并具有90%的确定性,那么一个治疗组就需1万多个病人。
同样,荟萃分析有助于估计研究结果的普遍性。某些具体研究的发现可能只有在与该研究人群具有相同特性的病人群体中才有效。如果在不同的病人群体的实验发现具有类似结果,那么可以得出结论这种干预的效果具有普遍性。通过集中所有可获得的数据,荟萃分析比单个试验能更好地回答关于一个总体研究结果是否在各个亚群中(如男性病人、女性病人或疾病的严重程度不同的对象)存在差异。随着这一系列文章的讨论的展开,这些问题将加以阐明和分析,往往可以比单纯的结合性效果评估方法获得更深的见解。
4.荟萃分析的调查
临床中大量的诊疗研究还未纳入荟萃分析,许多疾病的治疗尚无法定论甚至结论互相矛盾。也有一些研究常常难以开展随机对照试验,如临床中许多预防而非治疗的研究、有关少见病和疑难病病原学、诊断学及预后的研究等4-6。荟萃分析不但包括数据结合,而且包括结果的流行病学探索和评价――结果流行病学,以原始研究的发现取代个体作为分析实体。在单个研究中未能提出的一些新的假说在荟萃分析中能得到检验。然而,尽管所包括的研究可能为对照试验,荟萃分析本身仍面临着很多观测研究的内在偏差。即使如此,荟萃分析仍然能够引导人们识别最有希望或最紧迫的研究问题,而且可以较精确地计算出今后研究所需的样本大小。一个关于比较分娩时监测胎儿的不同方法四个试验的早期荟萃分析证明了上述观点。荟萃分析推导出这样一种假说,与间歇性听诊相比连续监测胎儿的心脏能减少新生儿发生疾病的风险。后来这个假说在一个规模相当于先前的四次联合研究七倍的单个随机实验中得到证实。
5.荟萃分析的评价
对各独立研究的数据结果合并进行荟萃分析时, 假定各独立研究的结果是同质的, 即它们反映的是同一个真实现象, 各研究间现有结果的不同仅仅是由于抽样误差造成的。在传统的叙述性回顾中结论如何从被检验数据中得出往往不够清楚。在一个表述充分的荟萃分析中读者可以复制论点的有关定量部分。因此,充分提供荟萃分析所覆盖的数据或允许感兴趣的读者访问这些数据是很有价值的。
当一致性检验存在明显异质性时, 进行合并分析必须慎重。荟萃分析所需的越来越大的公开性导致用再生的数值代替一些无用的描述词。而且实施荟萃分析可能导致评论家们超越作者在论文摘要中提出的结论,并对实际数据进行全面检验。随着荟萃分析成为一个标准程序,可贵的客观性有望得以恢复。
6.讨论
荟萃分析在医学领域的应用 ,为医学实践和科研提供了新的理论和方法。但类似的情形也见于β阻滞剂在心肌梗塞二级预防方面。在1981年,尽管人们提出β阻滞剂能减少心律失常和心脏负担以及缩小梗塞区大小,但经过了差不多20多年的临床实验,我们仍然没有明确的证据证明他们能改善长期的生存率。然而荟萃分析表明,在1977年此疗法就显示了重要效益,并在1981年显示了其联合效益的临床重要性及高度的显著意义。
提示一旦对已前较小实验作荟萃分析已表明有显著的疗效,那么如果再作大量病人的实验,即使并非不道德,也是最大的奢侈和浪费。然而,有些其他的荟萃分析的例子表明,一些荟萃分析认为具有统计学重要效益和临床重要性的结论却与以后一些大的随机实验的结论发生冲突。荟萃分析作为一种临床研究和保健技术评估工具,明显优于传统的叙述性回顾,具有相当优势。然而,荟萃分析属于描述性二次分析,存在混杂偏倚、文献报道偏倚以及分析方法本身的一些缺点,在医学实践和科研中应该正确认识和合理应用荟萃分析方法。
相关文章