诊断准确性试验中的STARD报告规范:来自系统评价员的观点-北京物流信息联盟

编者按

规范论文写作一直是学术界老生常谈的问题，规范学术论文撰写的呼声从未中断。STARD报告规范于2003年一经发布，便轰动了学术界，引起广泛重视。时隔12年，2015年底STARD报告推出了更新版，在2003版的基础上“大刀阔斧”、甚至是伤筋动骨的修改，系统总结了十余年来STARD报告规范在实施过程中的经验教训，最终形成了30个报告条目。

在Annals of Translational Medicine杂志的Associate Editor-in-Chief Prof. Giuseppe Lippi和Executive Editor Dr. Zhi-De Hu精心组织下，我们邀请了包括三大检验医学杂志主编共议STARD： Clinical Chemistry and Laboratory Medicine的主编Mario Plebani、Clinica Chimica Acta的主编Alan H. Wu和威名远扬的实验室循证医学家Robert H. Christenson、Clinical Biochemistry的主编Peter Kavsak，发表对STARD 2015的看法。同时，身为2014年美国临床化学协会（AACC）Patient Safety Award得主Prof. Lippi 作为客座编辑，为这场STARD论坛作了一篇高瞻远瞩的序言。

作者|胡志德，济南军区总医院实验诊断科

客座编辑|Prof. Giuseppe Lippi

Section of Clinical Biochemistry, University of Verona, Verona, Italy.

2015年12月16日，我以“diagnostic[TI]”作为检索词检索了PubMed数据库，发现相关的文献数量逐年增多，如图1所示。值得注意的是，从2000年开始，标题中带有diagnostic一词的论文的数量大幅增长。从2003年STARD文件(1)发布到2015年STARD文件更新，在PubMed中大约有48341篇标题中带有diagnostic一词的论文。在这些论文中，我浏览了2015年发表的100篇论文，发现其中有28篇是诊断准确性试验类论著。这就意味着，从2003年到2015年，被PubMed大约收录了13500篇诊断准确性试验论文。接下来，我用谷歌学术搜索检索了STARD报告规范的原始文献被引用的频次，发现所有版本的STARD规范总共被引用了3088次。在Web of Science数据库中，STARD的所有版本被引用了2291次。

图1 标题中带有diagnostic一词的文献在PubMed中的增长趋势

我们假定所有遵循了STARD报告规范的诊断准确性试验论文都会引用2003年发布的那篇STARD报告规范的文献。这些结果就说明，在过去的数十年来，诊断准确性试验论文大幅增长，但是仅有约20%的研究报告遵循了STARD规范。的确，很多研究者也发现引入STARD报告规范并没有显著改善诊断准确性试验的报告质量(2), 或者仅仅轻微地改善了报告的质量(3, 4)。这是一个十分严重的问题，因为不规范的报告论文可能会导致读者错误地评估研究的质量和结论的适用范围。

在过去几年间，笔者和同事发表一些关于诊断标志物的系统评价(5, 6)。当我们在采用诊断准确性试验质量评价工具（QUADAS）(7, 8),对纳入系统评价的研究进行质量评估时，我们发现很多作者在撰写论文时并没有遵循STARD报告规范，以至于我们无法对研究存在的偏倚和研究结论的适用范围进行判断。比如，很多研究评价了骨桥蛋白诊断卵巢癌的效率，但多数研究没有在报告中交代研究的纳入和排除标准，以及当初是如何招募这些研究对象的 (5)。这些作者仅仅报告了他们招募到了几种需要鉴别的疾病，每种疾病的病例数是多少。因此，我们无法得知在作者研究的人群中，其发病率是否与真实世界的发病率是一致的。而研究人群中疾病的发病率是一个十分重要的概念，因为他可以影响诊断试验的诊断效能(9)。此外，由于作者并未报道纳入和排除标准，因此我们也无法得知研究结论适用的目标人群。

最近，STARD报告规范更新了(10)。与2003年的版本相比，添加了一下新的条目，比如样本量估计、注册和基金支持。此外，也对2003版本的一些条目进行了修改或删除。比如，2003版本的第10个条目（内容偏倚），在2015年的版本中就删除了。总体上，我认为STARD 2015年的版本将极大地改善诊断准确性试验的报告质量，同时也便于读者更加透彻地了解研究的细节。

众所周知，诊断试验设计不当就会引入偏倚(11)。在诊断准确性试验中，偏倚分为很多种，比如疾病进展偏倚、部分证实偏倚、不同证实偏倚、内容偏倚等。我们注意到，如果作者在撰写报告论文时遵循了STARD报告规范，多数偏倚都很容易被识别出来（表1）。但是，在新版的STARD报告规范中，似乎没有涉及不同证实偏倚的条目。不同证实偏倚是指部分病人的最终诊断是通过不同的金标准确定的(9, 11)。当疾病诊断的金标准是侵入性检查手段时（比如恶性肿瘤），这种偏倚尤为常见。

表1 STARD 清单与QUADAS-2的联系

QUADAS-2中的问题	STARD条目
2015	2003
病人选择模块
所有的病人或样本都是连续或随机招募的吗？	9	5
是否避免了病例-对照设计？	6, 7	4, 5
是否避免了不恰当的排除标准？	6, 7	4, 5
待评价试验模块
金标准是否对待评价试验结果的解读者设盲？	13a	11
如果采用了阈值，是预先设定的吗？	12a, 17	9
金标准模块
金标准是否能准确地区分疾病状态？	11, 12b	7
金标准在执行过程中是否参考了带评价试验的结果？	13b	11
流程模块
带评价试验和金标准之间的间隔是否恰当？	22	17
所有的研究对象都接受了金标准？	19	16
所有的研究对象都接受了相同的金标准？	?	?
所有的研究对象都进入了分析？	19, 23	17, 19

QUADAS, Quality Assessment of Diagnostic Accuracy Studies; STARD, Standards for Reporting of Diagnostic Accuracy.

我们注意到，与2003版的STARD报告规范(1)同时发布的，还有一个释义文件(12)。但是到目前为止，2015版本的STARD还没有一个释义文件。2015版本在2003版本的基础上改动较大，因此应该有一个全面的释义文件帮助作者、审稿人和杂志编辑更好地理解STARD报告规范的内涵，更好地遵循STARD报告规范。我认为，如果有这个释义文件的话，那就锦上添花了。

参考文献：

Bossuyt PM, Reitsma JB, Bruns DE, et al. Towards complete and accurate reporting of studies of diagnostic accuracy: the STARD initiative. Standards for Reporting of Diagnostic Accuracy. Clin Chem 2003;49:1-6.
Coppus SF, van der Veen F, Bossuyt PM, et al. Quality of reporting of test accuracy studies in reproductive medicine: impact of the Standards for Reporting of Diagnostic Accuracy (STARD) initiative. Fertil Steril 2006;86:1321-9.
Smidt N, Rutjes AW, van der Windt DA, et al. The quality of diagnostic accuracy studies since the STARD statement: has it improved? Neurology 2006;67:792-7.
Korevaar DA, van Enst WA, Spijker R, et al. Reporting quality of diagnostic accuracy studies: a systematic review and meta-analysis of investigations on adherence to STARD. Evid Based Med 2014;19:47-54.
Hu ZD, Wei TT, Yang M, et al. Diagnostic value of osteopontin in ovarian cancer: A meta-analysis and systematic review. PLoS One 2015;10:e0126444.
Zhang J, Hu ZD, Song J, et al. Diagnostic value of presepsin for sepsis: A systematic review and meta-analysis. Medicine (Baltimore) 2015;94:e2158.
Whiting PF, Rutjes AW, Westwood ME, et al. QUADAS-2: a revised tool for the quality assessment of diagnostic accuracy studies. Ann Intern Med 2011;155:529-36.
Whiting P, Rutjes AW, Reitsma JB, et al. The development of QUADAS: a tool for the quality assessment of studies of diagnostic accuracy included in systematic reviews. BMC Med Res Methodol 2003;3:25.
Whiting P, Rutjes AW, Reitsma JB, et al. Sources of variation and bias in studies of diagnostic accuracy: a systematic review. Ann Intern Med 2004;140:189-202.
Bossuyt PM, Reitsma JB, Bruns DE, et al. STARD 2015: An Updated List of Essential Items for Reporting Diagnostic Accuracy Studies. Clin Chem 2015;61:1446-52.
Schmidt RL, Factor RE. Understanding sources of bias in diagnostic accuracy studies. Arch Pathol Lab Med 2013;137:558-65.
Bossuyt PM, Reitsma JB, Bruns DE, et al. The STARD statement for reporting studies of diagnostic accuracy: explanation and elaboration. Clin Chem 2003;49:7-18.

相关阅读：

ATM华山论剑：三大检验医学杂志主编共议STARD
SCI大神，就在身边
STARD指南：评估科技出版物质量的复杂难题的另一面
在这个资源紧缺的世界提高诊断研究的准确度：路在前方？
诊断准确度研究的报告标准2015修订版：检验分析前中后是否涉及？
献给对诊断研究试验评估感兴趣的人的STARD文件

点击文末“阅读原文”查看英文原文

欢迎个人转发到朋友圈，

媒体转载请注明出处。

点击蓝色关键字查看相关文章

胸外科论坛 | 内分泌巡讲会 | 主编访谈

甲亢 | 咽痛 | 甲状腺 | SRTH | 两颗心的期待

VATS研讨会 | 亦塾视频 | 聪明统计学

爱临床，爱科研，也爱听故事

关注请加微信号：amegroups或长按二维码