随着IVD企业如火如荼地准备CE-IVDR及FDA审核,性能研究时常遭遇问题:无论是准确度、精密度、临床评价,还是稳定性评价,都孤立存在,前述评价在产品生命周期处于什么位置?在什么时间?应使用什么评价方案?需要评价至什么程度?研究需要多少患者、样本、数据集?
其中,关于样本量计算,制造商经常求助于统计学专家,却得不到答案,因为统计学家之所以能计算样本量的前提是已有研究结果。这种矛盾情况称之为:样本量悖论sample size paradox 。
样本量统计矛盾难解,性能评价问题繁杂,临床研究无从下手!?......
本期为您解开:临床研究样本量计算6大焦点问题的答案,以期对您有效实施样本量计划提供助益。
样本量的6要素
临床研究中的样本量规划,受到以下6大因素影响↓
IVD临床性能研究的终点可能是诊断敏感性和特异性;
统计学测试是验证研究收集数据的方法;
beta误差(beta error)描述制造商面临的风险,而alpha误差(alpha error)则代表公众承担的风险;
脱落率(dropout rate)用于测算无法评估的受试者/样本的数量。
问题1:研究目标应该使用什么“终点”?
终点(endpoint)是用于衡量研究目标实现与否的统计指标,所选终点可能因被评估体外诊断器械、研究性质而有所差异。
在体外诊断器械的分析和临床性能评估中,终点(endpoint)一定程度上由IVDR法规附录I的通用安全和性能要求GSPR所决定。
当证明体外诊断器械的临床表现时,终点(endpoint)通常表现为比例指标,可能为:真阳性检测结果的比例(即诊断灵敏度或真阴性检测结果的比例及诊断特异性),也可能为:在相同条件下重复进行测试的变异系数。
问题2:应当将哪种“统计测试”作为证据?
统计测试(statistical test)应表明:所收集的研究数据支持待证明的命题(实验假设),例如:测试A的诊断灵敏度高于测试B。
所使用的统计检验,为先前选择的终点,次选是研究的设计。例如:证明收入差异的统计测试、对比2个比例的测试、证明非劣效性的测试等。
然而,数值也可以被简单地测量,统计学称之为估计。制造商必须提供这样的数值及不确定性,置信区间通常被用于此,例如:检测SARS-CoV-2冠状病毒的抗原检测,世界卫生组织发布指南对检测统计程序和界限作出规定。
注意:置信区间的下限,在理想情况下应等于或大于目标值。
问题3:预期的“效果”如何?
描述预期效果及其可变性,无疑是大的难题。而此时前述悖论再次出现:研究的结果必须在研究规划期间确定。为实现该悖论,制造商必须在规划阶段对调查或研究结果的定量影响进行假设,例如↓
·根据不同体外诊断器械,可使用不同的方法以确定可实现的诊断质量、预期平均差异、并发症发生率:
·研究文献,并使用可比性研究的结果(如:系统文献检索);
·制订市场或竞争的要求(如:);
·确定医学背景下的小兴趣差异或小相关差异(现有技术),如:对患者报告结果(PRO)问卷,小兴趣差异是由问卷创建人指定和验证的属性;
·在可用的情况下,使用指南中的规范。
问题4:预期“效果”的可变性是多少?
为指定研究人群中数据的预期变异性(标准差),制造商可使用文献中类似研究的信息及统计估计。
制造商通常在内部初步测试期间获得数据,以便得出有关标准偏差的结论。
对于初始近似,可以计算标准偏差,例如:基本测量范围的标准偏差,为该范围的四分之一或六分之一。
对于比例,可变性已由比例本身给出。
对于终点(例:并发症发生率、诊断质量测量),关于变异性的信息已隐含可用。
问题5:alpha误差和beta误差的大小是多少?
alpha和beta误差也称为:类型1和类型2误差,给出:假阳性或假阴性检测结果的概率。
alpha误差:代表公众在研究中显示出某种影响的风险,而事实上该影响并不存在;换言之,研究结果将显示出比实际情况更佳的体外诊断器械效果或性能。
beta误差:描述制造商的风险,即研究无法检测到确实存在的影响,在此情况下研究结果会使体外诊断器械效果或性能看似比实际情况更糟。
以上两个误差均有“标准”值:beta误差,通常在10%至20%之间;alpha误差,通常约为5%。
问题6:预期的“掉落率”是多少?
制造商必须考虑:研究过程中是否会失去受试者或测试结果?
脱落率(dropout rate)被量化并被包括在样本量计算中,以确保计算的样本量能提供可靠和稳定的研究结果。