最新文章

推荐文章

热门文章

您的当前位置:多发性神经炎 > 预防治疗 > 结构脑MRI的SVM递归特征消除分析预测

结构脑MRI的SVM递归特征消除分析预测



Abstract

机器学习分类是一种吸引人的方法,可以自动将患者与健康受试者区分开,并预测未来的疾病预后。临床孤立综合症(CIS)通常是多发性硬化症(MS)的首发表现,但起病时很难预测谁会再次复发并因此转变为临床上明确的MS。因此,在本研究中,我们旨在通过使用支持向量机的递归特征消除和权重平均,在CIS开始将CIS转化与非CIS转化患者区分开。我们还试图评估队列大小和交叉验证方法对分类准确性评估的影响。

我们从六个欧洲MAGNIMSMS中心回顾性收集了例CIS患者。根据当地护理标准方案,患者在CIS发作时接受脑部MRI检查。在一年的随访中,临床上明确的MS诊断是检验模型准确性的标准。对于每位患者,我们得出基于MRI的特征,例如灰质概率、白质病变负荷、皮质厚度以及特定皮质和白质区域的体积。通过交错的样本自举和特征平均方法,反复删除对分类模型贡献不大的特征。对一年随访的CIS结果进行分类,分别对每个中心队列以及所有患者进行2折、5折、10折和留一法交叉验证。

使用2折交叉验证,各个中心的估计分类准确率范围为64.9%-88.1%,使用留一法交叉验证的范围为73%-92.9%。单中心、较小数据集的分类准确率估计值高于数据集组合的分类准确率估计值,当所有患者合并在一起时,分类准确率估计值最低。

使用支持向量机,局部MRI特征(例如WM病变、丘脑和楔前叶中灰质概率以及楔叶和颞下回的皮层厚度)可预测CIS发作时患者的二次复发。当数据点有限时,使用较小和单中心样本获得的分类的准确率提高的估计值可能指示模型偏倚(过度拟合),但也更加均质。我们提供了一系列交叉验证方案对分类器性能的概述,以深入了解方案之间的差异。所提出的具有权重平均的递归特征消除方法可用于单中心和多中心数据集中,以弥合组水平比较和对单个患者进行预测之间的差距。

Keywords:Multiplesclerosis;Machinelearningclassification;Featureselection

Introduction

多发性硬化症(MS)是中枢神经系统疾病,其特征在于神经炎、脱髓鞘和神经变性。MS的首次临床发作称为临床孤立综合征(CIS)。大多数CIS患者(80%)最终将在20年的过程中发展为二次发作,其被定义为临床明确的MS(CDMS)。从CIS转化为CDMS的时间越短,疾病进展越快,随后的残疾也就越高。CIS发作时MRI扫描上的病变数量是CDMS和残疾发展的临床高度相关的预后因素。

机器学习提供了一些工具,用于学习如何根据两个或多个组的特征来区分它们,然后将新的、以前看不见的案例分配给其中一个组。监督学习的思想是确定各个组(即具有已知诊断或临床预后的患者)的共同特征,这些共同特征可以推广到更大的人群。在过去的十年中,这种监督分类在神经影像学中变得越来越流行,在MS中也有一些应用。然而,仅有很少的研究是关于CIS患者转化为CDMS的预测,且这些常常被限制在一个中心。

常见的问题是选择相关特征以执行分类。一些有关MS和阿尔茨海默病的研究使用了voxelwise灰质(GM)概率,当可以根据患者(局部)脑萎缩程度来区分患者组时,这种方法效果很好。其他研究使用了可能提供预测信息的手动挑选的特征。在之前的单中心研究中,我们证明了基于支持向量机的分类通过留一法交叉验证可以预测CIS患者的临床预后,其准确率得分为71.4%。我们发现,主要与MS病变相关的特定特征子集的表现优于单个或所有可用特征。但是,正如我们先前研究中所指出的那样,留一法交叉验证可能会高估针对看不见的测试数据的分类性能。

在这里,我们旨在使用在六个欧洲中心收集的数据来识别在症状出现的第一年内CIS患者发展为CDMS。我们引入了一种基于支持向量机的加权平均的递归特征消除方案,用于大量成像测量,包括GM概率、皮质厚度、T2白质病变负荷以及特定GM和白质(WM)区域的体积。这些特征可以很容易地从MRI扫描中提取出来,我们研究了我们的模型是否自动识别了与分类任务有关的信息特征。我们通过使用在所以数据集上的2折、5折、10折和留一交叉验证以概述不同方案引入的偏倚。该模型在每个中心的队列中独立运行,然后以数据集的组合(包括所有患者数据)运行,以比较数据中异质性不同水平。

Methods

Data

六个中心,例CIS病例,92例(22.8%)一年内转化;所有基线扫描在CIS发病14周内完成。详见原文。

Imageprocessing

由于MRI数据的异质性,我们使用了衍生的测量方法,例如GM概率或皮质厚度(CT),我们认为与直接的中心强度信息(directintensityinformation)相比,它们对中心间变化更可靠。

图像处理比较复杂,主要包括偏移场校正、病灶填充(白质病灶信号在T1WI上与GM类似,影响配准和分割,对白质病灶进行与邻近体素类型信号填充)、配准、脑分割、脑半球合并(左右半球测量高度相关,为了减少噪声和特征的共线性,作者对两侧半球测量进行平均。同时,作者在补充材料部分也报告了未合并(UnmergedHemispheres)的结果)分组(ROI根据解剖单位分为9个大的脑区)、分割、皮层厚度、ROImasking。过程比较复杂,详见原文。Featuredefinitions提取3类特征,包括Globalfeatures、ROIfeatures和Lobefeatures。将所有特征串联成特征向量。为了减少由于扫描参数及MRI分辨率引起的中心效应,作者对特征矩阵进行Z标准化,以提高数据可比性及SVM分类性能。详见原文。

Classificationmodel

分类的目的之一是根据先前描述的特征(从基线数据中得出)来识别将转化为CDMS的CIS患者。这项研究使用的分类器是线性SVM,通过它我们采用了新的迭代特征选择过程。

SVM算法为每个特征分配一个权重,该权重向量定义了将这两个类别分开的超平面(即线和平面的多维扩展)。这些权重的一种解释是作为提供组成员关系的特征强度的量度。然而,一个常见的问题是,即使在相同的数据集中,该权重向量在不同样本之间的不稳定。尽管某些特征的权重保持相对相似,但其他特征的权重却大不相同,甚至在正负号之间交替(即,针对同一问题指向不同类别)。这种行为表明提供很少或没有问题特定信息的过拟合特征。

在这里,我们提出一种仅选择有价值信息特征并避免这种过拟合的算法。该算法对个患者的自举样本运行SVM,并对所得的权重向量取平均值,以定义描述整个队列的平均权重向量。通过这样做,具有交替符号的权重平均为接近零的值,而稳定特征保持较高的绝对值。随后删除所有包含的平均权重最接近零的特征中的20%,并重复进行此过程,直到估计的分类精度(整个自举平均值)不再进一步提高为止。选择20%可以在保持准确性的同时最大程度地减少计算时间:较小的百分比会因步长较小而增加相同结果的计算时间,而较大的百分比可能会由于步长较大而在早期迭代中删除相关特征。在补充材料部分“特征删除参数的变化”中可以找到百分比为15%和25%的其他示例结果。

Classimbalanceandpatientsampling

类样本大小不平衡往往会使SVM分类器的性能偏向多数类。为了避免这种情况,我们使用了下采样(也称为欠采样),这是避免类不平衡的一种常用方法。从多数类中随机选择了与少数类相同大小的被试。在我们的研究中,少数组为转化者,多数类别由非转化者代表。这种方法可能会引入采样偏倚,这意味着随机样本不能代表整个类别。我们通过用不同的多数类别的样本重复此过程次来减轻此问题,因此整个队列将被整体表示。

在这项研究中,分类器性能的主要衡量标准是准确性,即正确分类的病例(即转化者和非转化者)相对于总队列样本数的比例。报告了相对于次重复的95%置信区间。此外,还报告了分类器的平均灵敏度和特异度(其中转换器定义为正样本,非转换器定义为负)。

Cross-validation

交叉验证是机器学习中测试分类器泛化性的重要工具。在k折CV中,数据被分为k部分,因此k-1部分用于训练,一部分用于测试。在k个训练集的每一个上训练一个单独的分类器,并在相应的测试集上进行评估。通常,将所有k折的平均性能指标与变化范围一起报告。有时建议使用10折CV作为偏倚和训练样本量之间的折衷方案。

重要的是要注意,然而,来自不同CV方法的准确率估计值只是分类器性能的指示,而训练集大小和分类器相关性具有不同的偏倚水平。只能使用两个足够大的独立数据集进行训练和测试才能估算出真正的准确性。因此,在整个手稿中我们将交叉验证结果称为准确性估算值。

在这项研究中,我们使用多中心数据进行了各种实验,以证明提出的分类流程中样本大小和交叉验证分割的影响。我们的目标是证明a)分类器能够识别相关特征以区分两组,b)数据集大小和组成的影响,以及c)由于选择交叉验证方案而导致的准确率估计值的差异。为此,我们使用了来自六个不同患者人数的独立中心的数据(请参阅表1)以及这六个中心的多中心组合,包括所有患者的组合。为了探索分类器性能如何随交叉验证方案的变化而变化,我们对所有可能的数据集进行了2折、5折、10折和LOO交叉验证(哥本哈根和米兰中心少于10个转化者,因此分层10折CV是不可行的)。同样,我们确保了多中心实验的中心分层,因此涉及中心C或M的设置不能使用10折CV。

我们的多中心实验着眼于具有更多异质成像协议(B,L,M和S)的组合,但同时我们也探索了所有中心的组合。补充表1给出了所有实验的概述。

Results

我们进行了SVM分类,以预测CIS患者第二个临床发作(提示多发性硬化)的发生,该研究使用了包括名患者的多中心数据集,并采用了迭代RFE特征选择方法,在每次迭代中去除了贡献最少的20%个特征。有个体的、特定中心数据集之间以及不同的交叉验证方案之间估计的分类精度的差异(表2-5)。如预期,使用较高折交叉验证时的分类准确率得分要高于使用较低折方法的分类准确率,而留一法则最高。特别是,使用2折交叉验证时,各个中心的平均准确率估计值范围为64.9%-88.1%,而使用留一法则为73%至92.9%。较小的数据集比较大的数据集的分类准确度估算值更高,这可能表明过拟合或虚假选择偏差。多中心数据集导致最低的准确率估计,这很可能是由于数据的异质性。当将所有中心的数据仅合并到一个多中心数据集时,我们获得的准确度估计值在2折交叉验证中为64.8%,在留一法中为70.8%。

Recursivefeatureelimination

当移除与分类任务无关的特征时,所提出的递归特征消除方法从该过程的早期迭代中导致准确性得分的初始提高。但是,一旦消除了相关特征,并且模型中只保留了少量特征,模型的预测能力就会在以后的迭代中降低(图2)。在所有交叉验证方案和数据集上,准确性估计的轨迹都相似。对于整个多中心数据集,这种表现在图2中进行了说明。

Cross-validation

使用所有特征时,所有交叉验证方案的准确性估计都非常相似(图2)。然而,随着特征的减少,交叉验证方法之间的准确性估计之间的差异增加(图2)。尽管使用所有特征时2折和留一法之间的差异仅为2%,但使用选定的特征集时差异增加至9.2%,从而最大程度地提高了准确率估计。所有数据集和所有交叉验证方案性能评估的综述在图3和表2-5给出。

Classsize

来自各个中心的数据集样本量各异,范围从哥本哈根数据集中的24名CIS患者(含6个转化者)到巴塞罗那的名患者(含34个转化者)(表1)。总共有位患者,其中91位在随访一年内转化CDMS(见图4顶部)。由于支持向量机容易受到类间不平衡的影响,并倾向于对多数分类产生偏倚,因此我们对多数分类(即非转化者)进行了下采样,以匹配少数分类的规模。

准确度估计随着类规模的减小而增加(参见图4的底部)。在单中心数据集中,每组34名患者使用2折交叉验证得出的准确率估计为64.9%,而使用留一法则得出73.0%的准确率估计,而最小的类人数为6则导致2折和留一法验证的准确度估计分别为88.1%和91.9%(图4)。在多中心数据集中,使用2折交叉验证时,从每类91位患者的64.8%略增至64位患者的66.9%。同样,使用留一法的准确度估计为91名患者为70.8%,64名患者为73.3%(图4)。

Mostrelevantfeatures

递归特征消除算法从所有域中选择特征,但是数据集之间在峰值准确率得分处的特征集的确切组成略有不同。当使用具有保守2折交叉验证的所有数据时,以下特征在峰值准确度下具有最高的绝对权重:(i)全脑、WM、深部GM以及额叶、颞叶和边缘叶中的白质病变负荷,(ii)小脑、深部GM区域(例如丘脑)以及整个皮质,尤其是枕叶和颞叶的GM概率特征;(iii)枕叶、额叶和颞叶的CT;(iv)全脑和边缘叶、颞中回和缘上回的体积。CIS类型被选为与分类相关的唯一非成像特征。

非病灶影像特征的图示在图5中给出。补充材料中提供了此实验的所选特征以及所有候选特征的完整列表。实验之间的最终特征集并不相同,但我们观察到大量重叠,这表明一致性和固有的有意义的特征选择。补充材料也有一些很有意思的结果,可参看补充材料。

Discussion

我们提出的支持向量机递归特征消除方法和权重平均,对从CIS到CDMS的进展进行了分类。在包含所有患者数据的多中心数据集中,此任务的估计准确率在交叉验证方案中介于64.8%-70.8%之间,而在单中心数据集中则介于64.9%-92.9%之间。但是,各个中心之间以及所应用的交叉验证方案之间存在很大差异。在先前的研究中,我们使用了一小部分与MS进展相关的12个“手动选择”特征,使用支持向量机和LOO-CV预测从CIS到CDMS的转化时,其准确度估计为71.4%。但是,尚不清楚最初选择的特征和交叉验证设置是否最佳,并且是否在单中心数据集上进行了实验。在这里,我们扩展了这种方法,以显示a)中心和数据集大小之间存在差异,b)可以以更自动化的方式选择特征,以及c)交叉验证方案对结果有很大影响。

Recursivefeatureelimination

当使用所有个特征进行分类时,分类器的性能不佳,但是随后每次迭代性能都会提高,直到达到局部最优数量的特征为止。一旦分类器开始删除对分类至关重要的特征,准确性得分就会再次下降。这与以前的研究一致,在该研究中,某些特征子集的性能优于单个特征或所有特征的总和。自举程序进行加权平均以选择要删除的冗余特征是一种新颖且可行的选择,可以识别疾病进展的相关标记。

Classsize

通常,在样本较少的数据集中,准确率估算会更高,因此,在最小的中心队列中获得最高的准确度分数,在最大的队列中获得最低的准确度分数。这可以由以下事实解释:小样本代表的疾病变异性较小,因此分类器更易于学习,但小样本数量加剧了交叉验证偏倚。除此之外,更有可能观察到小数据集和大特征集之间的虚假相关性。但是,必须指出的是,由于缺乏变异性,导致模型过拟合,该模型对于所讨论的数据集效果很好,但不能推广到更大的人群。

Cross-validationscheme

众所周知,交叉验证方法的选择会影响估计的分类准确率,因此,我们报告了多种方案的统计数据,以减轻分类器之间相关性引起的潜在偏差。但是,许多研究使用留一法的方案,认为它更适合于小型数据集,因为可以将更多的数据用于训练,并且它模仿了临床实践,即人们可以从大型数据集学习然后将发现应用于新的个体病例。在这里,我们对多个数据集进行了不同的交叉验证方案的直接比较,并清楚地表明,在2折交叉验证和留一法交叉验证之间,估计的分类精度相差高达20%。即使在我们的实验中这种差异在人为上有些高,但数据集之间的效果是一致的,这表明来自具有高倍数折的实验的估计比具有低倍数的实验的估计更加膨胀(虚假)。

交叉验证分隔的选择也直接影响了用于训练的数据部分,因此,在10折交叉验证中,90%的数据用于训练,但在2折方法中只有50%的数据用于训练。较少的训练数据会导致模型更差,泛化性更差,这在我们的实验中也可能发生。在所有与大小无关的数据集中,交叉验证方案之间的准确率得分变化模式相似,这表明我们观察到的是折数大小效应,而不是训练规模效应,即使在每个类别受试者绝对数较大的数据集中也是如此,交叉验证方案之间的差异是惊人的。对于以后的研究,我们建议比较两个或多个交叉验证方案,以在无法使用完全不同的数据集进行训练和测试的情况下估计潜在偏差。

Mostrelevantfeatures

在多中心数据集中使用所有数据进行的分类似乎是由全脑大脑、WM、深部GM以及额叶、颞叶和边缘叶中存在白质病变强烈驱动的(请参阅补充材料中的完整列表)。当前的文献支持这些发现,因为不同区域的白质病变负荷可预测MS的疾病进展。此外,重要的特征是那些与GM概率和皮质测量有关的特征。这些发现扩展了以前的研究,这些研究报告说,萎缩的替代指标(例如在丘脑等深部GM区域中得出的GM概率)可预测认知障碍和MS的临床残疾。同样,枕叶的GM概率以及皮层其他部位的GM概率与CIS中CDMS进展的速率相关。还选择了与CT和局部体积相关的特定皮质ROI,作为萎缩的其他替代指标。选择CIS的类型作为唯一的非影像学特征,这与组水平分析一致,该分析表明与初始病变在脊髓的相比,伴有视神经(即视神经炎)的CIS预后更好。总体而言,现有文献充分支持了我们提出的方法选择的特征,其中相同或相似类型的生物标志物已与MS的疾病进展相关。但是,这项研究允许将这些功能结合起来,以预测各个受试者未来的临床结局。

Limitations

在本研究中,我们旨在使用可从结构MRI扫描获得的广泛特征。但是,分类性能可以通过先进的MRI技术获得的信息来改善,例如磁化转移成像(MTR)或双或相位反转恢复,已被证明分别可表达在WM病灶和GM病灶外损伤。同样,大量非成像标记,例如遗传或环境因素在进行个体受试者预后的研究中可能会提供非常有益的信息。此外,使用健康对照和具有相同特征的MS患者的比较研究将是理想的。但是,在这里,我们对数据进行了回顾性分析,没有任何这些额外信息。未来的工作(包括前瞻性、统一的成像协议、人口统计、环境和遗传因素,以及在个体水平定义MS的所有其他变量)可能会提高分类器的预测准确性。

此外,这项回顾性研究中包含的特征绝不是可以从MRI扫描中得出的所有可能特征的完整集合。其他机器学习研究包括用于预测CIS转化的信息,例如病灶大小和形状,此处未进行此操作,因为我们将这项研究限制在通过标准流程更容易获得的测量上。

递归特征消除方法是一种识别相关特征的有效方法,但不能保证全局最优解,如先前研究所述。由于所有可用特征的20%的步长在每次迭代中都会删除,因此此问题在此变得更加严重。不同的步长可能会导致较高的准确度得分值,但是百分比过高将导致更可能会意外删除相关特征,而百分比过低会增加计算时间,并可能会带来显著的多重比较问题。当步长大小在15%和25%之间变化时,准确率估计值之间没有很大差异,因此选择20%作为计算时间和有价值特征的潜在损失之间的折衷(另请参见补充材料)。

这项研究使用了回顾性选择的横截面数据,这些数据用于得出局部测量值,例如局部GM概率、皮层厚度和归一化体积,这些可以被视为萎缩的替代性测量值。但是,由于缺乏纵向MRI随访,因此无法确定萎缩是否在推动模型的预测,因为体积的差异也可能是由于正常的生理变异性所致。未来的工作应在一项或多项放射学随访中对这一大范围的人群进行调查。

Conclusion

我们提出了一种新方法,用于在一年的随访中预测从CIS到CDMS的近期转化。对来自不同交叉验证设置的准确性估算的概述表明了所选方案的很大影响及其报告准确性的潜在偏差。类似地,我们表明,小的数据集似乎“表现过佳”,这表明当分类器没有足够数量的样本可供学习和归纳时,存在过拟合问题。因此,未来使用机器学习分类的神经影像学研究需要确保数据集足够大,以使分类器能够选择有意义的模式,并比较来自多个交叉验证设置的结果,以获得有意义的准确性估计。

所提出的具有权重平均的递归特征消除方法可用于单中心和多中心数据集中,以弥合组水平比较与预测单个患者预后之间的差距。它也可以用于各种应用中的自动生物标记选择,因为它不仅限于本研究的特征类型,而且实际上可以使用任何种类的信息,例如遗传或神经心理学数据。

编译不易,如果各位朋友觉得对您有帮助,烦请各位积极转发,收藏,并点击文末右下角“在看”,让更多人看到。点击“阅读原文”可

转载请注明:http://www.oqhpm.com/yfzl/11704.html