欢迎访问职称论文网!
医学论文

以食道超声心动图超声数据对心脏病进行分类

【摘要】为了研究经食道超声心动图(TEE)超声数据与心脏病类别之间的关系,提出一种以决策树(DT)分类器作为基分类器的自适应提升(AdaBoost)分类预测模型(DT—AdaBoost)。该模型首先对训练集中的每个样本赋予一个相同的权重表示样本被选中的概率,然后有放回地选取样本组成训练子集训练DT分类器,如果该分类器的分类准确率大于50%,则计算此DT分类器的重要性,并更新样本权重,最后在新的样本分布下再次进行抽样训练。依此类推,可得到多个权重不同的DT分类器,把所有DT分类器按重要性叠加(boost)起来,即可得到最终的强分类器。仿真结果表明,以DT分类器作为基分类器的AdaBoost方法诊断准确率相对稳定在96.88%,高于以支持向量机(SVM)作为基分类器的94.70%、以K最近邻(KNN)作为基分类器的94.65%以及以朴素贝叶斯(Naive Bayes)作为基分类器的96.04%,并且较单一算法的分类器性能提高。

【关键词】经食道超声心动图;超声数据;心脏病;分类;决策树;AdaBoost

引言

    心脏病是危害人类健康的主要疾病之一,其超声诊断已成为疾病诊断的重点和难点。经食道超声心动图作为现阶段最先进的心脏超声技术,其检测的各项临床指标对于准确诊断心脏病具有重要意义。为避免医生思维局限、认知差异等主观因素对超声诊断的影响,利用数据挖掘技术对TEE超声数据进行分析已成为心脏病诊断领域新的研究方向。

    目前,国内外对心脏病预测的研究主要基于来自UCI的心脏病临床数据,包括性别、年龄、胸痛类型、家族病史、静息血压、空腹血糖、血清胆固醇、运动型心绞痛、吸烟、饮酒、肥胖、身体不活动等指标,利用粗糙集(Rough Set,RS)[1]、主成分分析(Principal Component Analysis,PCA)[2]等特征选择方法,通过决策树[3]、支持向量机(Support Vector Machine,SVM)[4]、贝叶斯网络[5]、神经网络[6]等数据挖掘算法构建心脏病预测模型,同时结合径向基函数[7]、模糊算法[8]、遗传算法[9]等方法改进模型。而心脏超声指标与心脏病关系的研究作为新的研究领域,正处于发展阶段,初步采用因子分析[10]等方法选择属性,并应用聚类分析。[10]、粗糙集[11]等技术对超声数据分类。上述已有的心脏病超声诊断研究主要侧重于对特征指标的选择以及是否患有疾病的预测,在医生已经提供了与各类心脏病相关的超声指标和各个指标正常值范围等后验知识的情况下,特征选择及患病预测的过程得到简化,因此本文针对中国西南地区主要集中于先天性心脏病(Congenital Heart Disease,CHD)和风湿性心脏病(RheumaticHeart Disease,RHD)的病类分布特点,根据心脏病超声指标对患者数据进行CHD/RHD二分类研究,重点关注边界病例即易误诊病例对分类模型的影响,采用AdaBoost框架对基础模型进行提升,以提高分类模型的敏感性和准确性。

1 基本原理及算法

1.1后验知识

    通过分析中国西南地区医院心脏病数据库的病例分布得出,先天性心脏病和风湿性心脏病是该地区的心脏病高发病类,占据医院病例库中数据的86%。而根据医生提供的经验总结,这两类心脏病主要与左室内径Lv、左房内径LA、右室内径RV、右房内径RA、室间隔厚度IVS、左室后壁厚度LVPW六个TEE超声指标有关,因此本文主要利用医院病例库中先天性心脏病和风湿性心脏病超声数据的上述6个TEE指标对疾病进行二分类研究,使特征选择过程得到简化。

1.2决策树算法

    决策树算法作为一种典型的分类算法,是一种逼近离散函数值的方法,用于发现数据集中隐藏的分类规则。树中的每个非叶子节点表示对对象某个特征的测试,而节点的每个分支则表示该节点所代表的特征的某个取值,最后的叶子节点用来存放从根节点到该叶子节点的路径上的所有特征取值所属的类别。

    决策树采用自上而下的递归构造方法,包括两个重要步骤,建树和剪枝。由于TEE超声数据均为连续性属性,因此当每一步选择合适的分裂属性后,需要确定一个值作为分裂点split__point,生成<split_point和≥split__point两个分支,决策树形式如图l。

    剪枝是为了处理由于噪声和离群点导致的过拟合问题,分为先剪枝和后剪枝。先剪枝是指在建树过程中,当一个节点满足预设的深度、纯度等指标时停止该对节点分枝;而后剪枝是在所有节点充分生长后,遍历节点判断是否对父节点相同的相邻节点进行合并。由于先剪枝容易产生“视界局限”且需要保留部分样本对构造完成的决策树交叉验证,所以虽然后剪枝代价相对较高,但其应用最为普遍。

    决策树具有构造简单、计算量小、易于理解的优点,适合作为基础分类器用于AdaBoost框架,因此本文采用决策树与AdaBoost相结合的方法用于心脏病分类预测研究。

1.3 AdaBoost算法

    AdaBoost是由Yoav Freund和Robert Schapire在1995年根据在线分配算法提出的一种自适应迭代算法,对于每次迭代,提高前一个基本分类器分类错误样本的权值,降低其分类正确样本的权值,然后用权值更新后的全体样本再次抽样训练下一个基本分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数,得到一系列的基本分类器,由所有分类器一起投票决定得到最终分类器。本文选用AdaBoost与决策树相结合的方法对TEE超声数据进行先天性心脏病和风湿性心脏病的二分类训练,用a代表先心病,b代表风心病,算法具体流程如下:

    根据有放回抽样从具有权值分布Wm的训练元组集中得到N个可重复元组组成训练样本集Dm,通过基本分类算法即决策树算法训练第m个分类器,分类器hm(x)在训练集D上的分类误差率为被该分类器分类错误的元组的加权百分比,即分类错误的样本权值之和,误差公式如下:

如果em>1/2,则表示训练得到的分类器不可学习,因此需要重新抽取集合Dm训练分类器hm(x);如果em≤1/2,则根据如下公式计算hm(x)在最终分类器中所占的权重am:在得到一个基分类器的权重之后,以此为参数更新训练元组集D中各元组的权值为Wm+1.j:其中,zm是规范化因子,即使得wm+1成为一个概率分布。

    由式(2)可知,em≤1/2时,am≥0,且am随着em的减小而增大,意味着分类误差率越小的基本分类器在最终分类器中的作用越大。式(3)表示hm(x)被误分类样本的权值增大,而被正确分类样本的权值减小,使下一个分类器更加关注容易分错的样本。步骤3 根据权重am组合各个基分类器,从而得到最终分类器h(x)。用训练得到的M个分类器对数据分类,计算分类结果相同的分类器权重之sy,Y∈{a,b}:使得sy最大的Y值即为最终分类器的分类。

2 仿真分析

2.1实验设计

    本文实验数据来自合作医院超声科信息库中的心脏TEE超声数据,在去除重复、缺失或记录错误的病例后,可用于实验的数据共有424例,包括先天性心脏病数据131例、风湿性心脏病数据293例,将其中222例(先心病70例,风心病152例)数据作为训练集训练模型,202例(先心病61例,风心病141例)数据作为测试集。

    为了确定基于DT算法的AdaBoost分类模型合适的迭代次数,以10为间隔取M值,并对每个取值循环训练10次求得的准确率均值作为该迭代次数对应的分类准确率,测试集准确率最高的点对应的值即为最佳迭代次数。测试在M值时各种常见分类算法及其与AdaBoost框架集成的算法的分类效果,并与DT—AdaBoost模型测试结果进行比较以评价分类器性能的优劣。

2.2效果分析

    对于不同的迭代次数M,DT—AdaBoost模型在训练集与测试集上的准确率如图2所示,通过观察可知,模型的训练集和测试集分类准确率在M>150时趋于平稳,且M=270时测试集分类准确率均值最高,为96.88%,因此将DT—AdaBoost模型的最佳迭代次数设为270。

    对于其他可用作基分类器的SVM、/CHIN、Naive Bayes分类算法,分别将其与AdaBoost框架集成并在各自最佳迭代次数90(SVM)、60(KNN)、200(Naive Bayes)下进行10次训练,取这lO次分类准确率的均值与DT_AdaBoost算法进行比较,结果如表1。

    由表1可知,单一算法分类器的分类效果越好,其与AdaBoost框架集成的分类器分类效果提升得越小。由于AdaBoost框架需要的基分类器为弱分类器,即分类准确率最低要高于50%,虽然不用担心过拟合(overfitting)的问题,但是当弱分类器的准确率太高时,大部分样本的分类结果预测正确,会导致AdaBoost框架过于侧重少数的分错样本,使最终分类效果提升较少、不变甚至降低,故决策树算法的提升效果最好。而虽然KNN—AdaBoost算法在训练集上的分类准确率高达100%,但是整体来看,DT—AdaBoost算法在训练集和测试集的分类效果相对均衡,都稳定在96%一97%。因此,相对于其他算法,以决策树作为AdaBoost框架基分类器的分类效果最好。

3 结语

    由于主观因素的影响,心脏病超声诊断容易出现误诊、漏诊的现象,针对这一问题,本文提出了一种基于TEE超声数据,利用DT-AdaBoost算法进行数据挖掘辅助诊断的方法。从实验结果可知,该算法对心脏病超声诊断的可信度较高,具有良好的临床应用价值。但与此同时,本文的研究结果也具有很大的局限性,仅适用于两种心脏病大类的分类诊断,而对如风心病的主动脉瓣狭窄、二尖瓣反流,先心病的房缺、室缺等更加详细的病类诊断,没有设计与之相应的分类模型,因此必须进一步研究利用TEE超声数据对心脏病进行多分类的问题,以提高心脏病超声辅助诊断的有效性和实用性。

[参考文献]

[1] 胡玉荣.粗糙集理论在心脏病诊断中的应用[J].电脑知识与技术:学术交流,2007,2(7):164-169.

[2]程颖,崔运涛.基于PCA的决策树算法在心脏病诊断中的应用[J].计算机与数字工程,2009,37(10):171-174.

[4]葛广为,王元亮,支持向量机在心脏病数据分析中的应用[J].现代计算机:专业版,2015(4):9-10.

[6]庞显涛.基于BP神经网络的心脏病预测研究与实现[D].长春:吉林大学,2012:15-23.

[10]周怡,周欣,沈逸雄.心脏超声数据挖掘过程中的挖掘算法选择[J].数理医药学杂志,2006,19(2):122-124.

[11]沈逸雄,周怡,张睿玲.心脏超声诊断数据挖掘尝试——粗糙集理论运用[J].医学信息:西安上半月,2005,18(1):19-21.

[17] 毕英伟,邱天爽.一种基于简化PCNN的自适应图像分割方法[J].电子学报,2005,33(4):647—650.


热门期刊