对临床试验统计学假设检验中非劣效、等效和优效性设计的认识

首页 ›临床试验› 临床统计

药品临床试验设计要求随机、盲法和对照药物比较，以判断和区别其实际的疗效。我国药品研发，以仿制国外已上市药品为主；基于临床认识和伦理学因素，临床研究也多选择针对目标适应症的已有治疗药物为对照，即所谓的阳性对照药。目前，已公认的传统假设检验(又称显著性检验)在临床试验中用于判断药物的疗效是不合理的，它不能准确区分2药疗效差异的方向性和体现差异大小所揭示的临床实际意义。因此，国际上根据研究目的不同，普遍用非劣效、等效或优效性假设检验。
1 显著性检验
无效假设H0：A药疗效一B药疗效=0
备择假设H ：A药疗效≠B药疗效
结论：如P>0．05，按Or．=0．05的检验水准，不能拒绝H0假设；如尸≤0．05，则接受H 假设。
问题是这种假设检验推断的2个总体均数是否不相等，是纯粹的统计学意义，而未体现实际的临床意义，虽然有单双侧之分，如单侧为H0：。一 2=0，H。：。一 2>0(或。一 2此外，对检验结论：①如P>0．05，表示2药疗效的差别无统计学意义，不拒绝H0假设，说明现有数据尚无法对2药疗效的总体均数是否不等的判断下结论，并不是当然的接受H0假设，即并非认为H0假设必然成立；而2药疗效的总体均数一定相等，此时有可能2药疗效的总体均数确实近似，也有可能是检验效能(把握度)不够，尚需更大样本量进行检验。②如P≤0．05，2药疗效的差别有统计学意义，2药疗效的总体均数确实不相等；但这种统计学意义的差异不一定具有实际的临床意义，可能其临床意义却是优效、等效或非劣效的，因此传统的假设检验，无论是何结论，都无法判定所比较的2药是优效、等效、还是非劣效。显然，这种方式所得结论是不符合临床试验的目的要求的；但在国内的临床试验中，这种检验却屡见不鲜。本文就对非劣效、等效或优效性试验设计中的有关统计检验原则，进行相应的阐释，关于临床试验中的统计学一般原则，见ICH E9⋯。
2 非劣效、等效和优效性检验
2．1 统计学原理
统计学家们提出了区间假设检验的方法，以临床意义的差异△来进行假设检验，即非劣效、等效和优效性检验的概念和方法。这种临床意义的差异△，不是特指药物的疗效指标，也可用于评估安全性，本文主要探讨疗效方面的应用。尽管安全性指标也可确
定差异△，但对疗效终点的许多讨论，不适用于评估安全性试验。
2．1．1 非劣效检验
非劣效性试验⋯指主要研究目的是显示对试验药的反应，在临床意义上不差于(非劣于)对照药的试验。设A药为待确证疗效的试验药，B药为对照药，下同。非劣效试验的假设检验如下。
无效假设H。：A药疗效一B药疗效≤ 一△
备择假设H，：A药疗效一B药疗效>一△
结论：如P>0．025，按单侧 =0．025的检验水准不能拒绝Hn假设，即无法判断A药不差于B药；如P≤0．025，则接受H 假设，可认为A药不差于B药。根据非劣效试验的统计学原理，治疗差异(A药疗效一B药疗效)>0，则试验药的疗效较好；治疗差异一△，则试验药非劣效于对照药，此处的△表示临床意义上判断疗效不差、所允许的最大差异值，即非劣效试验的判断界值。
2．1．2 等效性检验
等效性试验指主要研究目的是要显示2种或多种处理的反应间差异的大小，在临床上并无重要性的试验，通常通过显示真正的差异、在临床上可以接受的等效的上下界值间来证实。等效性试验的假设检验如下。
无效假设H。：A药疗效一B药疗效≤ 一△
或A药疗效一B药疗效≥△
备择假设H，：一△药疗效一B药疗效<△
结论：如Pl>0．025或P2>0．025，按2a=0．05的检验水准不能拒绝H。假设，即无法判断A药等效于B药；如P ≤0．025且Pz≤0．025，则接受H 假设，可认为A药等效于B药。
2．1．3 优效性检验
优效性试验指主要研究目的是显示所研究的药物反应优于对比制剂(阳性或安慰剂对照)的试验。优效性试验的假设检验如下。
无效假设H。：A药疗效一B药疗效≤△
备择假设H，：A药疗效一B药疗效>△
结论：如P>0．025，按单侧 =0．025的检验水准不能拒绝Hn假设，即无法判断A药优于B药；如P≤0．025，则接受H 假设，可认为A药优于B药。实际应用中，更多采用的是可信区间法检验，它是分析时最直接的方法，且比假设检验可提供更多的信息。非劣效性试验中，仅关注1个方向的可能差异，因此试验药与对照药的疗效差异的单侧97．5％(或双侧95％)可信区间，应当完全在一△值的右侧，即其单侧97．5％(或双侧95％)可信区间的下限应该大于设定的判断界值一△，即[单侧97．5％CI(A—B)的下限]>一△(或[双侧95％ CI(A—B)下限]>一△)；同理，在等效性试验中，等效的结果应该是其95％可信区间范围，包括在一△一△，即一△< [95％CI(A—B)]<△；而优效性试验的结果，则应该是其单侧97．5％(或双侧95％)可信区间的下限大于△值，即[单侧97．5％ CI(A—B)下限]>△或[双侧95％ CI(A—B)下限]>△。 recruit.druggcp.net
2．2 适用范围
对1个新研发的试验药，通常具有某方面的优势，如给药方便、耐受性较好、毒性较低或价格便宜等；一般需与安慰剂进行优效性试验，以比较其真正的疗效和安全性，来判断其上市的利益风险。如果当前已有上市、曾用优效性试验证实为有效药物，还常与其进行比较，并判定待验证药物的疗效至少不差于(非劣于)已上市的有效药物。作为其上市的最低标准，非劣效性试验通常用于与已上市的有效药物或标准治疗方案进行比较，以求能提供1个新的治疗选择。少数情况下，当安慰剂对照不被允许或违反伦理时，用以间接证明试验药优于安慰剂。等效性试验的应用多见于对同一活性成分的生物等效性以及血浆无法测定时的临床等效验证。对国内尚未上市的药品，无论是创新药还是仿制药，如选安慰剂为对照，则应证实其优效性。如选国内已上市的同一治疗领域的药物作为阳性对照药，则应至少验证其具有非劣效性。与已上市药物具有相同活性成分的药品，应进行生物等效性或临床等效性验证。这既是我国非劣效、等效和优效性试验的适用范围，也是国际多数药品注册管理机构共同的基本要求。
2．3 判断界值(△)的确定
非劣效、等效和优效性试验的区间检验与传统假设检验最大的不同是考虑了临床意义，以临床意义的差异△来进行假设检验。因此，如何确定这个疗效差异的判断界值就至关重要。若△太大，将把疗效远不如对照药的药物，判断为有效或等效；若△太小，则可能将本来可推广应用的有效药物，误判为无效而得不到及时上市，并且所需的样本含量可能会大得不切实际。因此，△的确定应当合适，理论上应该是药效间具有临床意义的最大允许差异值；但实际确定起来往往较困难和复杂，需要根据已有的文献数据，设计类型及数据的分布类型，从临床认识水平及成本效益来综合考虑，将统计学推理和临床判断相结合。
2．3．1 非劣效检验
非劣效检验的△值的确定最为复杂，通常参考阳性对照药与安慰剂间的疗效差异，即阳性对照药的绝对疗效来判定，需要达到2个目标(满足2个条件)才是适合的判断界值：使试验药物(A)疗效既要优于安慰剂(P)以保证药物的有效性(A—P>0)；又要好到不差于阳性对照药(B)(A—B>一△)。因此，ICH及EMEA等均推荐，同时包括安慰剂对照和阳性对照药的3个试验组设计的研究，试验药必须证明在统计学意义上优于安慰剂(试验产品与安慰剂差异的双侧95％可信区间的下限必须>0；如果试验药和参照药均未能显示、在统计学意义上优于安慰剂，可能提示试验不灵敏或者是测定方法不灵敏)；然后，要用临床判断来评价所观察到的结果与安慰剂的差异，是否具有临床意义。
在国内研究设计中，更多见仅为试验药组和阳性对照组2试验组研究；而没有安慰剂对照组，且阳性对照药的绝对疗效常不易确定，这时就要检索文献，参考历史数据，并利用荟萃分析等以找出所用阳性对照药和安慰剂进行比较的同类研究，估计在目标患者人群中、阳性对照药物和安慰剂之间的差异，确定药效灵敏度(sensitivity to drug efects)。关于对照药的选择原则及其优缺点的考虑，请参见ICH—El0_2]。需注意，药效灵敏度和试验的检测灵敏度(assay sensi—tivity)是不同的，很多情况下，药效灵敏度难以维持恒定不变。由于临床实践可能发生变化，或者测量效果的标准或方法的不同，某些既往的研究结论可能会毫无意义。当前试验设计中，应考虑和既往试验进行比较，看是否有可能会影响治疗结果的变化。例如，人选标准、诊断方法、允许的合并治疗、参照产品的给药方案、测定终点、评价时间等。如果试验设计有不可避免的差异，那么其差异的意义应当认真考虑，这有可能导致无法确定合适的非劣效性界值。另外，还应当考虑阳性对照药的疗效随时间发生的变化。例如，在某些情况下，可能由于医疗水平总体改善，疾病或事件的发生率降低了，计算时只能用较近期的研究，如果不能确保近期的试验与当前试验中治疗效果的恒定性，那么选择非劣效性边界时，应当保守一些。为保持已确定的△值的可靠性，应当重视试验的检测灵敏度和严格控制试验的质量，保证阳性对照药在试验中、显示出其应有的疗效。在充分考虑了以上因素的基础上，当试验目的是通过与阳性对照药比较，间接说明试验药优于安慰剂时，在确保试验药和安慰剂的间接疗效差异的95％可信区间的下限>0时，△可选为试验药与对照药疗效差异95％可信区间的下限；但通常选择比这一间接计算提示的数值小一些的值。对试验目的是为说明试验药可代替阳性对照药而疗效无显著降低时(非劣效性试验最常见的目的)，通常做法是以阳性对照药与安慰剂之间预期疗效差异的百分比来确定△值。FDA认为，应该不大于有效药物与安慰剂间疗效差异值的1／2。有些学者提出_3]，选定疗效指标测定的1／5～1／2个标准差，或阳性对照药疗效均数的1／10～1／5，相对数(如率、比值)最大不超过阳性对照组样本率的1／5。但如此确定的理由尚不充分，还须通过临床证据来确认和认可△值无重要差异的意义 ]。实际做法(尤其对市场上目前只有1个有效药物时)是对临床医生进行调查，了解他们认为无关紧要的差异，有多大范围，根据他们回答结果和分析选择△。如果预期试验药的安全性优于阳性对照药(其他情况包括：给药途径更方便、剂量更方便、次要疗效终点更优等)，由于有安全性方面的受益作为补偿，可稍微降低疗效，选择较大的△值，但应能证明疗效优于安慰剂。这种情况下，选择复合的主要终点十分有用，可以用1个终点证明安全性的优效性；而另1个终点证明疗效的非劣效性。
2．3．2 等效性检验
等效性检验的△一般较为确定，在生物等效性研究中，当评价2种剂型的药代动力学参数平均值是否足够接近时，2者比值90％可信区间在80％～125％成为可接受的标准，此时的△为±Ln 0．8。当用生物等效性试验不可能时(例如仿制的吸人药或外用药等局部用药)，可进行临床等效性试验，得出双侧95％可信区间，其等效界值的确定仍然是统计学推理和临床判断相结合，具体药品具体分析，而无恒定的界值数值。
2．3．3 优效性检验
对优效性检验，一般情况下取A=0(绝对数指标)或1(相对数指标)；特殊情况，需确定另外的数值。
2．4 样本含量和检验效能
对样本含量和检验效能的具体计算公式，请参考有关文献[3，5—7]。需注意，所用公式的假定前提和适用条件，通常受试者被随机分配到试验组(A药)和对照组(B药)；2组方差齐性。双侧检验取仅：0．05，单侧检验取仅=0．025；B取0．1或0．2。目前认为，在生物等效性研究中例外，取单侧为0．05。通常用阳性对照的非劣效性试验、等效性试验、优效性试验，所需样本含量均较安慰剂对照试验大。因为，一般确定的优效界值小于等效界值，也小于非劣效界值。因而所得样本含量由少到多可依次排列为：安慰剂对照优效试验、非劣效性试验、等效性试验和阳性对照优效试验。若取非劣效界值为阳性对照与安慰剂疗效差异△的1／2，则进行阳性对照非劣效性试验所需的样本含量，至少是安慰剂对照优效性试验的4倍。试验中，还应考虑到病人的脱落、2组比例不同、因依从性问题而引起稀释效应等因素，来校正估计实际的样本含量(Ⅳ)，例如，设脱落率为Q，则Ⅳl 。 =Ⅳ re ／(1一Q) ．5 统计推断【8 J
从实际的国内临床试验看，将试验药和阳性药在临床疗效上的非劣效、等效甚至优效，错误地称为“疗效相当”的现象并不少见，有时会将非劣效性试验误认为是设计为等效性试验。只有认清不同研究设计所要达到的目的，才能正确地下结论。对非劣效性试验，下结论时一定要注意考察检测灵敏度和研究质量，必须分析其可能的影响因素，估计对检测灵敏度的影响。如果按照非劣效性试验设计，结果试验药的效应好于阳性对照药。当非劣效性试验的无效假设被拒绝，可进一步检验其是否具有优效性；如果治疗作用的95％可信区间既大于一△，也大于0，那么在5％水平(P<0．05)有优效性的证据。在这种情况下，可计算与优效性检验相关的P值，并评价这一P值是否足够小，以拒绝无差异的假设。只要新药与对照药的安全性特点相似，通常证明优效本身就足够；但当不良事件增加时，一定要估计作用的大小，以评价临床上受益是否足以超越不良反应。即从非劣效性试验向优效性试验转换是可行的，前提是：试验要按照非劣效性试验的严格要求来设计和实施，并按照意向治疗原则进行分析。如果优效性试验结果表明，治疗组间差异无显著性，试验目的从优效性向非劣效性转换是可行的，前提是对照治疗的非劣效性边界，要事先指定或具有充分的合理理由(可能性极小，仅限于有广泛接受的公认△值的情况)；意向治疗原则(nTI')的全分析集(FAS)和符合方案集(PP)分析的结果应相似，显示劣效性无效假设的可信区间和P值；试验按照非劣效性试验的严格要求设计和实施(见ICH E9和El0)；试验的灵敏度足够高，以确保能够检测出实际的差异；有直接或间接证据表明，对照治疗显示其应有的疗效。
3 审评要求
药品审评部门常关注以下几方面内容。研究设计非劣效性试验有时会被误认为是试验设计为等效性试验，而产生混淆。应该根据不同的研究目的，选择适当研究比较类型，注意非劣效、等效和优效性设计3者之间的联系和区别，选择合适的对照组。关于对照药的选择，ICH—El0已进行了全面的阐释。应该在试验方案中，对研究的假设事先明确，须注意传统的假设检验，由于不能准确区分2药疗效差异的方向性和体现差异大小所揭示的临床实际意义，不适于判断药物临床试验的疗效。非劣效界值的确定要比较的药效间差异的判断界值的确定至关重要，尤其是非劣效界值的确定，需要详细分析论证，对其数值的计算和假定，应合理有据，并且无精确统一的算法；而是统计学推理和临床判断综合考虑的结果。在设计阶段确定，研究中一般不得更改。
研究的把握度试验结果应得出统计学结论，以确保足够的把握度，临床意义的差异△越小，所需的样本量越大。进行阳性对照的非劣效性试验所需的样本含量，至少是安慰剂对照优效性试验的4倍。统计分析过程用正确的统计量，建议疗效间的差异以双侧95％可信区间表示。统计学结果所揭示的临床意义应当重视试验的检测灵敏度和试验质量的控制，保证阳性对照药在试验中显示出其应有的疗效，分析既往成功的同类试验的设计要点和结果，分析可能降低检测灵敏度的种种因素及其对结论的影响。应注意，试验中的以下因素常能降低试验的检测灵敏度：如研究人群对药物作用的反应较差；对治疗的依从性差；同时合并其他用药，干扰了或降低了对受试药物的反应范围、程度；部分受试者有自发改善而不会对药物有反应；诊断标准不明确，而入选了无所研究疾病的阴性患者；疗效指标不敏感；疗效指标测量变异太大；盲法不严格，导致评价偏倚等。