食管癌新辅助放化疗后残留病变检测的准确性:系统综述与Meta分析
万欣
王*
医院
食管癌新辅助治疗的价值已被广泛研究。经过这种治疗,1/3的患者为病理完全缓解(pCR),定义为通过常规组织病理学检查,在切除的原发肿瘤部位和区域淋巴结中没有存活的肿瘤细胞。这些患者可能本不需要暴露在手术风险中,因为大规模医学中心的围术期死亡率为1%~5%,术后并发症概率相对高,对健康生活质量有影响。因此问题就产生了,nCRT术后是否有必要对所有患者进行标准的食管切除术,或者是否可以确定哪些患者可能受益于延期手术甚至不必手术。因为nCRT后的主动监测,而不是标准的食管切除术,被认为也是一种新的治疗选择。在这种保留器官的方法中,手术切除仅适用于有证据或高度怀疑nCRT后局部残留或复发而无远处转移的患者,但只有nCRT后没有局部残留病灶和远处转移的患者才应有资格接受主动监测方案。为了确定nCRT后局部残留病变的患者,应在临床反应评估(CREs)期间把局部残留和/或转移性疾病的患者与nCRT后(接近)完全缓解的患者区分开来。在目前的临床实践中,内镜活检、内镜超声(EUS)和18F-FDGPET(-CT)常用于CREs的预处理分期和再分期。本研究目的是对其检测nCRT术后残余病变的准确性进行系统回顾和meta分析。
文献检索
文献检索仅限于英语和人类研究。在Embase、Medline、Cochrane和WebofScience数据库检索到年2月。完整搜索方法见表1。对纳入研究的参考文献和类似受试者的综述进行相关性筛选。
研究选择
如果(1)研究人群包括食管或食管胃交界处的腺癌或鳞状细胞癌患者;(2)研究内镜活检、EUS和/或18F-FDGPET(-CT),则认为研究合格;(3)测试指标评估了原发肿瘤部位或区域淋巴结nCRT后残留病变;(4)手术切除标本的组织病理学检查作为参考标准;(5)研究包含了足够的数据,可用于构建2×2列表格。如果研究没有足够的数据来构建2×2列表格,则会通过电子邮件联系每项研究的相关作者3次,以提供缺失或不完整的数据。颈段食管癌的研究被排除在外,因为目前治疗的标准是根治性放化疗。
尾注文献检索的结果在参考管理软件X7.5版(纽约州纽约市托马斯路透社)中收集和管理。重复记录被删除。如果在正式筛选过程中发现重复,则只包括最早公布的研究。
数据提取
从每项研究或作者提供的额外数据中提取真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)的值,以构建2×2列表格。如果研究调查一个指标检测模式的多个阈值,则选择最佳cutoff点的TP、FP、TN和FN值进行数据提取。为进行数据比较,统一病理反应标准。采用类似于病理学完全缓解与不完全缓解的病理反应标准重新定义研究,即存活肿瘤细胞百分比(0%vs0%),根据美国联合委员会关于癌症的TNM分期(T0vsTt,N0vsNt,T0N0vsTtNt)、肿瘤消退分级Mandard和改良Mandard分类法(TRG1vsTRG2-4)、日本食管协会反应评价标准(3级vs0-2级)、Schneider组织形态学分级(IV级vsI-III级)、WHO和RECIST标准(完全缓解vs非完全缓解)。同样,重新定义可归类为10%和10%,33.3%和33.3%的残留病变。
质量评估
纳入的研究质量由两位作者(BE和BO)根据修订的诊断质量评估(QUADAS-2)工具进行独立评估。分歧以协商一致的方式解决。关于病人选择,在同步放化疗前使用诱导化疗被认为是低偏倚风险。在指标检验方面,如果之前没有验证过这些临界值,使用非预先设定的临界值则被视为高偏差风险。如果没有预先设定,使用二分法结果测量或验证临界值不被视为偏倚风险。只有在对切除标本的病理学报告应用指标检测结果进行复查时,根据对参考标准结果的了解才会被视为存在偏倚的风险。关于参考标准,由于病理检查是一个独立的步骤,因此病理检查没有对指标进行盲法检测,不被视为潜在的偏倚风险。在流程和时间方面,指标检测和手术之间的时间间隔4周被认为是高偏倚风险,因为较长的时间间隔增加了指标检测和病理结果变化的可能性。
统计分析
略
删除重复数据后,系统文献检索发现了条记录。份记录的标题和摘要符合纳入标准。在全文回顾之后,包括一个或多个指标检测的65篇文章被纳入定性分析(图1)。44项研究被纳入定量综合分析。
内镜活检
共有名患者参与了12项研究,评估了内镜活检对原发肿瘤部位病变残留的检测结果,分别为活检阳性和活检阴性。12项研究中只有2项报告了活检的次数,中位数为4次。活检的位置没有报道。在6项评估内镜检查和活检的研究中,存在较高的偏倚风险。其中一项研究在两个方面有很高的偏倚风险。
活检阳性和阴性在原发肿瘤部位检测任何残留疾变的敏感性和特异性分别为0.11到0.59和0.77到1.00。总体包括0.33(95%CI,0.24–0.43)的混合敏感性和0.95(95%CI,0.88–0.98)的混合特异性。敏感性的变异性高于特异性。森林图和SROC图中95%的预测区域显示了研究之间的明显异质性。计算的PPV为0.92(95%CI,0.83–0.97),NPV为0.42(95%CI,0.39–0.45)。对于评估内镜活检在原发肿瘤部位检测任何残留病变的研究,组织学(80%腺癌vs80%鳞状细胞癌)和pCR定义(ypT0vsypT0N0)对诊断情况没有显著影响。
EUS
对于EUS检查,定量合成表里包括13项研究。在7项对原发肿瘤部位进行EUS评估的研究中,以及7项对区域淋巴结进行EUS评估的研究中,存在较高的偏倚风险。所有这些都不存在一个以上方面的高偏差风险。
EUS-uTt与uT0定性检测原发肿瘤部位残留病灶的敏感性和特异性分别为0.55-1.00和0.00-0.56。总体包括0.96(95%CI,0.89–0.99)的联合敏感性和0.08(95%CI,0.03–0.24)的联合特异性。森林图和SROC图中95%的预测区间表明研究之间存在很大的异质性。计算的PPV为0.67(95%CI,0.65–0.70),NPV为0.51(95%CI,0.19–0.85)。对评估原发肿瘤部位EUS定性的研究,组织学对诊断性能无显著影响。
EUS-uNt与uN0定性检测所有残留淋巴结病变的敏感性和特异性分别为0.26到0.94和0.23到1.00。总体包括0.68(95%CI,0.54–0.80)的混合敏感性和0.57(95%CI,0.43–0.70)的混合特异性。森林图和SROC图中95%的预测区域显示了研究之间的显著异质性。计算的PPV为0.75(95%CI,0.71–0.79),NPV为0.48(95%CI,0.41–0.55)。对于评估残留淋巴结病灶的EUS定性研究,组织学对敏感性有显著影响(P=0.)。腺癌占比80%的研究敏感性为0.52(95%CI,0.35–0.69),鳞状细胞癌占比80%的研究敏感性为0.81(95%CI,0.67–0.90)。
PET(-CT)
对于PET(-CT),定量合成表中包括24项研究。其中,共有名患者参与了14项研究,对原发肿瘤区域残留病灶的PET定性评估为代谢不完全缓解与代谢完全缓解(mCR)。另外8项研究(共名患者)使用PET最大标准化摄取值(SUVmax)定量评估原发肿瘤区域,7项研究(共名患者)采用SUVmax下降百分比(%SUVmax)。在7项PET定性评估的研究中存在较高偏倚风险,其中两项研究在2个方面存在偏倚风险。在评估PETSUVmax的7项研究中存在高偏倚风险,其中四项研究在2个方面有偏倚的风险。在评估PET-%SUVmax的4项研究中存在高偏倚风险,其中有三项研究在两个方面存在偏倚风险。
PET定性为代谢不完全缓解与mCR检测原发肿瘤部位残留病变的敏感性和特异性分别为0.42到0.93和0.14到0.78。总体包括0.74(95%CI,0.68–0.79)的混合敏感性和0.52(95%CI,0.44–0.60)的混合特异性。森林图和SROC图中95%的预测区间显示了研究之间的显著异质性。计算结果PPV为0.75(95%CI,0.70–0.79),NPV为0.51(95%CI,0.43–0.58)。
PETSUVmax定量检测原发肿瘤部位残留病灶的敏感性和特异性分别为0.62-0.80和0.25-0.86。cutoff值在2.5到6.0之间。总体包括0.69(95%CI,0.64–0.74)的混合敏感性和0.72(95%CI,0.64–0.78)的混合特异性。敏感性和特异性的变异性相对较低。除了Kim等研究的特异性,森林图显示了研究之间的低异质性。低异质性导致95%置信度和95%预测区间相一致。计算的PPV为0.83(95%CI,0.79–0.86),NPV为0.55(95%CI,0.50–0.60)。定量PET-%SUVmax检测原发肿瘤部位残留病灶的敏感性和特异性分别为0.42-0.94和0.32-0.81。cutoff值从52%到79.3%不等。总体包括0.73(95%CI,0.57–0.85)的混合敏感性和0.63(95%CI,0.51–0.74)的混合特异性。敏感性的变异性高于特异性。森林图和SROC图中95%的预测区间显示了研究之间的显著异质性。计算的PPV为0.79(95%CI,0.74–0.84),NPV为0.55(95%CI,0.42–0.67)。对于PET-%SUVmax定量评估检测原发肿瘤部位残留病灶的研究,组织学对敏感性有显著影响(P=0.)。腺癌占比80%的研究敏感性为0.43(95%CI,0.34-0.51),鳞状细胞癌占比80%的研究敏感性为0.80(95%CI,0.64-0.90)。腺癌占比80%的研究的相对特异性为0.58(95%CI,0.40–0.74),鳞状细胞癌占比80%的研究的相对特异性为0.57(95%CI,0.44–0.70),但无显著差异(P=0.)。对于其他PET模式,亚组对诊断情况没有显著影响。
系统回顾和荟萃分析表明,内镜活检、定性EUS检查、定性PET(-CT)和定量PET(-CT)以SUVmax或%SUVmax为单一模式,能够正确识别nCRT后食管癌原发肿瘤部位残留病变的总敏感性分别为33%、96%、74%、69%和73%,正确识别完全缓解的总体特异性分别为95%、8%、52%、72%和63%。定性EUS检查能正确识别nCRT后残留淋巴结病变,敏感性为68%,特异性为57%。
对于主动监测方案,敏感性是一个重要的诊断参数,因为FN(假阴性)结果会导致推迟发现残留病灶。这种推迟会纵容肿瘤生长和潜在的远处转移,危及安全性。然而,相应的特异性也有其重要作用。随着FP(假阳性)数值的增加和特异性的降低,更多的患者将被错误地归类为有残留病灶。因此主动监测计划中的患者可能不必要地暴露于手术风险中。考虑到这一点,内镜活检、EUS、定性PET(-CT)和定量PET(-CT)联合SUVmax或%SUVmax似乎不够准确,无法单独检测nCRT后原发肿瘤部位的残留。以uN0作为临床反应标准的EUS检查在检测残留淋巴结疾病方面似乎也不够准确。
在定量综合方面,本研究仅以病理完全缓解为病理反应标准,反映了检验指标的实际准确性。然而,要安全地执行主动监测策略,指标检测的准确度应该有多高仍有争议。虽然理想情况下应检测到最小数量的残留病灶,但在目前的临床实践中,在术前临床反应评估中,显微镜下的残留常常被忽略。现有的研究表明,对于那些在nCRT后接受类似诊断试验(即内镜活检和PET(-CT)而不是标准的食管切除术)的积极监测的患者,肿瘤预后没有下降。这可能是由于在积极的监测过程中,即使显微镜下残留的疾病重新生长为可测量病灶,但仍可切除,从而产生类似于立即切除的肿瘤结果。此外,在考虑主动监测策略时,应考虑到食管切除术后相关健康生活质量的降低以及术后的高并发症概率和死亡率。离散选择试验表明,在假设的前提下,食管癌患者愿意以16%的5年总生存率换取将食管切除术的风险从%(nCRT后的标准手术治疗)降低到35%(nCRT后cCR的主动监测)。此外,还应考虑患者是鳞癌还是腺癌。手术后,鳞癌患者局部复发的风险高于腺癌患者,这可能意味着在鳞癌患者中检测残留病灶的误差水平需要降得更低一些。相反,鳞状细胞癌对nCRT的反应往往比腺癌好,如果患者先接受nCRT治疗然后再进行手术治疗,则会得到相似的局部复发率。例如,根据CROSS方案接受nCRT的患者中,腺癌的pCR率为23%,而鳞状细胞癌的pCR率为49%,这些鳞状细胞癌患者可能比腺癌患者更受益于器官保留方案。此外鳞状细胞癌nCRT后,TRG3–4级残留的患者较少。因此可以认为,对于未达到TRG3~4级肿瘤残存的鳞癌患者误差水平可能更高。仅提供一项精确的误差标准来检测nCRT后的残余病灶是有缺点的,只有设计良好的前瞻性试验,将nCRT后cCR患者立即手术与主动监测进行比较,并考虑所有这些问题,才能为这一复杂情况可接受的误差水平提供更多依据。
对于内镜活检、EUS和PET(-CT),分别有1、6和23项研究的临床缓解标准被排除在定量合成之外。有趣的是,一些被排除在定量合成之外的研究显示了有希望的结果。一项研究将EUS测量量化为nCRT(yMTT)后的最大肿瘤厚度。虽然该方法的可行性尚待证实,但具有良好的敏感性(0.86)和特异性(0.64)。nCRT前后肿瘤最大厚度比值(yMTT/MTT)也显示出良好的敏感性(0.79)和特异性(0.82)。另外,一些定量的PET测量也显示了很有希望的结果。肿瘤长度减少百分比(敏感性0.92,特异性0.90),肿瘤体积标准化摄取值减少百分比(敏感性0.70,特异性0.95),PET面积减少百分比(敏感性0.93,特异性0.68),肿瘤面积标准化摄取值减少百分比(敏感性1.00,特异性0.68),肿瘤直径减少百分比(敏感性0.89,特异性0.91),直径缩小率乘以肿瘤面积标准化摄取值的临界值为56%(灵敏度分别为0.93和0.91),均显示出良好的准确性。但结果应该进一步得到证实,因为医院进行的,队列重叠。
纳入的研究中存在一些局限性。根据QUADAS-2工具,大多数研究质量较低。多数是回顾性研究,统计效能不足。此外大多数研究并没有确定反应评价的最佳组合,而是分别研究了不同指标。此外,临床研究的目的也不是检测残留病变,以区分可能受益于主动监测的患者和可能不受益于主动监测的患者。由于缺乏临床操作人员的临床