生物医学工程
关联挖掘计算时置信度设置为0.支持度设置为0.5,将所有数据计算结果以元组嵌套字典方式存储,取出后保存在数据库中,便于后续调用。计算后的部分结果如表6所示,可以发现丹参、黄连经常与无力、疲乏共现,说明对于这类症状是以这两味药及类似功效药物的治疗为主,黄芪也经常和乏力、口渴、心烦一同出现,说明也具有较好的治愈性。
0.2987
0.2173
0.74%
为进一步规范数据来源质量,又制定了更加细化的检索策略。设定包含疾病检索词:糖尿病、高血糖、降糖、消渴、消瘅、肺消、各消、消中、上消、中消、下消;设定排除检索词:动物、大鼠、小鼠、鼠、兔、实验、药效、药理作用研究进展、毒理、毒性、中成药、中西医结合、丸、片、调护、针、小鼠、贴、注射、刺、颗粒、胶囊、近况、概况、综述、进展;设定名医名单:国医大师名单、首届全国名中医。
...
表2糖尿病疾病类型与样本量
在预处理方面,常规性的分词流程采用Jieba分词库即可。针对治法治则、症候、药物字段等中医独有的特定名词和医药名词,普通分词工具难以达到理想的效果,因此在特征分析和规律统计之后,笔者采取基于规则的方法进行预处理:针对治法治则和症候字段,如“益气养阴、肝胆郁热,益胃生津”,以逗号或顿号等分隔符进行划分,如果字符过长,则以划分好的词语进行全词匹配,剩余词语再采用Jieba分词;针对药物字段,如“沙参15g,黄精20g,生地20g,赤芍15g,地骨皮30g,黄连8g,何首乌藤20g”,去除剂量值和计量单位,只保留药物名称,然后以分隔符进行分割,对于较长字符或不在规则内的分隔符,同样以全词匹配后再进行常规性分词。 3中医辅助诊疗方案的评价指标 1数据来源与预处理 R10 | 83 | ||||||||
Average | 中医疾病按照不同表现症状可以划分为不同程度,但病情判别往往依靠医生的主观经验和专家智慧,由于不同医生经验、知识的差异可能导致问诊结果存在差异,从而导致疾病的量化和评估标准较为模糊。如在糖尿病问诊过程中,若症状表现为肢端供血不足或开放性病灶,除此外没有其他严重的不良反应,往往表示病人处于早期的糖尿病发病时期,需要早看早治疗;当症状表现为肌腱韧带组织破坏或严重感染已造成骨质破坏,同时伴随尿蛋白排泄率不正常时,能够大体推断出病人处于严重的糖尿病阶段,治疗方法和用药策略又有所不同。可以看出,糖尿病阶段的不一致主要表现在临床症状的差异上,因此糖尿病的量化评诊可以转换为对症状信息的情感色彩识别。 E=W×T=⎛⎝⎜⎜⎜w1,w2,w3,w4⎞⎠⎟⎟⎟×⎡⎣⎢⎢⎢⎢t11t21t12t22t13t23t14t24t31t41t32t42t33t43t34t44⎤⎦⎥⎥⎥⎥E=W×T=×t11t21t12t22t13t23t14t24t31t41t32t42t33t43t34t44 中西医结合 | 0.1222 | R3 | 0.1453 | 0.1949 | 5量化评诊部分计算结果 ... | 益气养阴,通阳利水,活血通络 | 数据挖掘分析 | [("糖尿病肾病",0.3841),("糖尿病",0.9640),("糖尿病足",0.2663),("2型糖尿病",0.4414),("1型糖尿病",0.4521),("糖尿病性胃轻瘫",0.8900),("糖尿病性神经病变",0.3600)] |
0.2561 | |||||||||
中医治疗 | 总结以上相关研究,可以发现中医诊疗的研究主要集中在两个方面:一是症候、药物挖掘,二是用药、配伍规律研究等挖掘和分析以及利用机器学习建模预测层面。学者们在中医原理、理论构建和知识库建设等方面也进行了广泛深入的探索,但鲜有研究对中医诊断过程加以科学计算和评估,在减少主观性诊断过程中欠缺对不确定性的描述,在辅助医生决策层面,现有成熟的技术手段难以与医生经验智慧紧密结合生成针对性、系统性的解决方案。 ... |
0.0997
0.3942
为减少中医诊疗过程的不确定性,缓解医生问诊的主观不一致性,实现“AI+中医”的辅助诊疗模式,本文融合多种自然语言处理技术,以糖尿病为例,设计了一种中医辅助诊疗方案。该方案实现了糖尿病病情的量化计算、症状信息匹配、症状自动摘要、病症类型判别和中药智能推荐,并进行了实证研究,经过测试和评估,表明该方案在实际使用过程中能够有效地帮助医生解决诊断的不确定性问题,提供更加多样化、智能化的选择依据。但临床医案数据稀少,各子任务性能还有待提升。另外,中医学需要建立系统、完备的知识库,在其他领域成熟的知识理论需要结合本行业的经验知识和具体应用场景才能实现进一步突破,如何融合传统中医知识实现更加细粒度的知识驱动型诊疗方式仍有待探索。
67
中医辅助诊疗方案是融合多个任务序列的综合系统,不能直接以单因素评价指标判定,一是因为没有能够完全评估每项子任务的评价指标,二是适用于某些具体任务的评测指标无法综合评估整个流程的效果。因此笔者通过定性定量相结合的方式,以模糊综合评价法[31]评估该方案的实际效果。
量化评诊使用Bi-LSTM网络,双向计算能够有效化解LSTM无法从后向前编码的缺陷,能较好地学习症状信息的前后语义,之后连接全连接层经过微调输出积极值、消极值和置信度,再定义评诊计算函数自动计算最后的量化评诊值,部分计算结果如5所示。如某病人症状“口渴喜热饮,小便清长,腰酸乏力,四肢欠温,舌淡红,苔白润,脉沉虚。”的结果显示正向情感0.148753,负向情感0.851247,置信度0.669438,最终病情计算值达到-371932,表明该病人糖尿病症状不容乐观,需要及时治疗。
62
("舌", "黄芩", "黄连"): 18
新冠疫情的冲击促进了我国医疗行业的大力发展,传统医疗的传统方法亟待新理念新技术的革新,当前大数据和人工智能的快速发展也加速着医疗行业的智慧化变革,依赖于病例数据和问诊信息,通过机器学习方法和数据挖掘技术能够提取出富有价值的诊疗知识,从而实现医疗领域从智慧采集、智能诊断、辅助决策到疾病预测和预防的全流程发展。
47
***每日腹泻次数达2~10次不等,常于餐后、夜间或清晨排便,大便不成形或是脂肪泻,表现为顽固或间歇性的腹泻
0.2253
自动化技术
0.2272
本文使用中药治疗糖尿病临床研究中文文献,收集自收录日起至2019年11月的来自中国知网、中国生物医学文献数据库、万方数据库、智慧芽专利信息数据库的临床研究文献。
用药规律研究
0.82%
912
0.2058
自动摘要以无监督方式构建,使用预训练词向量与TextRank相结合的方式实现,对过滤查询的结果从糖尿病评估模型映射空间进行向量化,再构建TextRank计算函数,该函数计算症状向量间的相似性并存放在矩阵中,然后将矩阵转换为以句子为节点、相似性得分为边的表达形式,按排名高低取n条句子作为摘要。如表4所示,经过量化评诊与症状匹配后的自动摘要结果输出摘要概况信息、建议治疗方法信息和置信度值。
0.2399
...
0.1164
中医学
149
量化评诊和症状匹配后的糖尿病数据可以分别设置不同阈值大小实现查询过滤,以维恩方式表示如3所示。
R8
303
数据挖掘技术
R4
0.58%
量化评诊将病人症状信息转换为情感色彩识别,通过计算情感色彩的强弱以衡量病情的轻重程度。由于糖尿病临床诊断的标注数据稀少、人工标注成本高,因此采取“预训练模型+微调”的方式,即结合糖尿病数据训练出糖尿病评估模型,再构建双向长短期记忆网络模型进行情感倾向性计算。
[("糖尿病肾病",0.2332),("糖尿病",0.7455),("糖尿病足",0.0),("2型糖尿病",0.8014),("1型糖尿病",0.8891),("糖尿病性胃轻瘫",0.3600),("糖尿病性神经病变",0.1295)]
糖尿病性神经病变
0.993 4
0.1509
("乏力", "口渴", "心烦", "黄芪"): 16
236
3融合多NLP任务的中医辅助诊疗方案设计
...
2.43%
S={p−n+c,ifp−n>0p−n−c,ifp−n<0S=p-n+c,ifp-n>0p-n-c,ifp-n<0
中药学
目前NLP技术在中医诊疗方面的研究较少,以“中医AND自然语言处理/NLP”在知网检索,仅搜索到不足30篇文献;加入“机器学习/machinelearning”和“数据挖掘/datamining”后以“SU="中医"AND”进行检索,搜索到约4000余篇文献,其中数量前10的主题分布和学科分布如表1所示,可以看到中医在NLP/datamining/machinelearning方面的研究主题主要集中在症候、用药、配伍规律挖掘和中医的机器学习建模、预测等方面,涵盖中医学、计算机软件及计算机应用和书情报等不同领域和学科。
0.2136
经过上述疾病判别和疾病摘要,系统预诊断将输出三部分内容:疾病判别结果及置信度、疾病摘要结果和用药推荐结果,三者整合输出,作为诊疗方案的辅助信息提供给医生。医生进行二次诊断,确定最后的诊断结果反馈给病人,再将系统输出的错误信息修正并输入,修正信息连同本次新的诊断信息将被再次纳入上述计算范围内。
查询过滤过程可以定义为Q,如公式所示。给定一条新的症状信息X,量化评诊查询阈值为q1,症状查询阈值为q2,取二者的查询结果交集为集合R,R作为查询返回结果,将用于后续的疾病摘要和疾病判别。
0.1727
0.1449
0.2602
0.4154
0.2121
0.926 6
0.1427
69
Q={X,q1,q2,R}Q={X,q1,q2,R}
R9
0.1643
Result={:f),}Result={:f),}
456
儿科学
表7模糊综合评价矩阵的隶属度计算结果及其均值
0.2450
0.1356
糖尿病的症状匹配通过计算症状信息之间的相似度衡量临床表现的相近程度,无监督的文本匹配通常以空间距离诸如余弦距离、欧氏距离来衡量文本相似程度,但传统的相似度计算完全基于统计规则和文本频率计算,欠缺语义的完整性和发散性,考虑到中医术语的含义引申较广,本文同样采取融合预训练模型和余弦距离的方式,这样不仅考虑到症状信息,也能够通过词向量的嵌入发现更多扩散性的语义信息,从而实现症状匹配的全面性,再以余弦公式计算距离输出结果。
0.2738
98
实现中医辅助诊疗首先需要从历史病人数据中检索出最相似、最具代表性的信息,再进行其他操作,如果筛选信息有误,后续一系列步骤将难以生成准确的指导性结果,因此如何实现对病人病情的精准反馈是首要问题。通过量化评诊和症状匹配实现中医病情信息的有效过滤,其流程如2所示,其中量化评诊将病情程度计量化,筛选出病情程度上相似的数据,症状匹配通过相似度计算,筛选出症状表现上相近或相同的信息,最后设置阈值,对病情、症状双重过滤,实现疾病信息的高效检索。
图书情报与数字图书馆
0.4022
0.54%
0.3871
118
0.3104
0.3001
0.3140
***尿频量多或尿浊,头晕眼花,口渴心烦,便干耳鸣,苔少脉细属气阴两虚型。伴尿浊浮肿,神倦乏力,纳少腹胀,腰膝疫软,或畏寒尿少,面色晦滞属脾肾阳虚型。若浮肿明显,腰以下尤甚,身重困倦,头重如裹,或呕恶,口干腥臭,尿少而浊,苔腻脉滑为夹湿浊型。若兼浮肿日久不消,腰痛如折,舌紫瘀斑,脉涩结代者为夹瘀型。
用药推荐是从已有的疾病先验知识中挖掘关键性、合理性、有用性的知识,结合糖尿病领域来看,即从历史临床诊断数据中挖掘出糖尿病症状表现与用药配伍的隐藏关系。用药推荐通过关联-映射实现,包含关联挖掘和映射两个步骤。关联挖掘对糖尿病数据库中的症状和药物的关系进行挖掘;映射将从过滤的症状信息中匹配到与之对应的用药情况。
计算机软件及计算机应用
0.917 8
1.74%
自然语言处理是研究如何以自然语言方式实现人与计算机之间通信交流的研究领域,被誉为“AI皇冠上的明珠”,随着人工智能和以神经网络为代表的深度学习的发展,自然语言处理技术也得到快速发展,在大部分领域都得到广泛应用。在商业场景中,对话机器人和智能客服能自动回复用户问题,高效处理重复信息,节省了大量人工成本[4,5];垃圾邮件识别能够自动识别有害、无效信息,实现了对垃圾邮件的自动筛选过滤;商品推荐中运用知识谱和嵌入技术能实现个性化产品推荐,提高用户的使用体验和商品转化率[7,8]。在医疗领域中,实体识别和关系抽取实现了从传统纸质病历到电子病历的转换,能够高效管理病人信息[9,10];基于大规模医疗信息的医学知识谱能够实现相似病历推荐、医学知识查询和疾病预测分析。总而言之,NLP技术能降低人力成本输出,提高生产效率,已经在社会的许多领域落地应用。
0.3628
4融合多NLP任务的中医辅助诊疗方案实证
关联挖掘方法依靠其无监督式的统计规则能够解决许多复杂系统和模型无法解决的问题,尤其在中医的症候、药物挖掘上更是被广泛应用。关联规则通过支持度、置信度和提升度来度量规则强度。在本文中,支持度即症状关键词和药物关键词共同出现的次数占总的症状-药物关键词样本的比重;置信度表示当某个症状关键词出现后,药物关键词出现的概率;提升度是含有某一药物的条件下,包含某一症状的概率。笔者选择Apriori算法[30]对糖尿病历史数据中症状表现和治疗药物的关系进行分析和关联,该算法的本质是按层次不断生成候选频繁集的过程:计算出频繁项集,即通过计算症状与药物的支持度,寻找出支持度大于给定最小支持度的所有症状-药物的集合;产生频繁规则,即从上述频繁项集中查找置信度较高的规则;最后计算规则的提升度,筛选出提升度较高的规则,形成有效的强关联规则,输出症状-药物的频繁项集和频繁规则结果,分别表示症状-药物组合出现的频次和症状对应的强关联规则,如公式所示。其中,f表示出现频次,c表示置信度。在症状-药物映射时,将量化评诊和症状匹配后的关键词与所有频繁项集和频繁规则的症状按先后顺序进行遍历查询,在频繁项集中查询结果按出现次数排序,在频繁规则中查询结果按置信度大小排序,最后输出为用药推荐集合。
4中医辅助诊疗的系统预诊和关联映射流程框架
2中医辅助诊疗的系统预诊和关联映射
0.2622
***瞌睡,以前上班都很精神饱满,会突然出现极度的无法抗拒的想昏睡的感觉,趴在桌上半个小时就马上改善
...
设置4项评价指标的权重集合W={0.3,0.2,0.3,0.2}W={0.3,0.2,0.3,0.2},评估集合为V={V1,V2,V3,V4}V={V1,V2,V3,V4},分别表示优秀、良好、合格、不合格。由专家对方案进行多轮测试并评价,在每轮测试中,从现有数据中选择10个样本,从网络糖尿病社区的描述数据中随机抽取10个样本,共20个样本量作为测试集,根据评价占比计算评价矩阵T,再由权重向量W和评价矩阵T计算模糊综合评价矩阵E,如公式所示。按照隶属度大小确定评价结果,多轮测试取平均值即为最后的方案评估结果。
在规律挖掘方面,李健等基于中医传承辅助系统软件,挖掘了《中医方剂大辞典》中收载的治疗肺痈方剂组方规律,通过改进互信息法、复杂系统熵聚类、无监督的熵层次聚类等无监督数据挖掘方法分析了肺痈方剂的组方规律;姚美村等应用关联规则分析技术,对治疗消渴病的中药复方配伍的科学内涵进行探索性分析,为核心处方的提取提供技术支持;Shi等、Yang等、Fang等分别在中医的冠心病识别、药物发现和基因疾病信息提取等方面提出思路想法或进行实证研究;龚燕冰等、戴霞等运用关联规则、粗糙集理论、聚类分析等模型和网络对症候分析及规范化方面进行研究;Zhou等、沈毅等[20]对各种数据挖掘方法在中医用药规律方面的应用做了深入总结,二者都认为应根据研究目的的不同选择适当科学的技术方法进行中医药挖掘,并且应在实践中反复验证、不断总结。
2型糖尿病
0.3240
("无力", "疲乏", "黄连"): 16
医药方针卫生政策
糖尿病足
名老中医
系统预诊和关联映射
在中医机器学习研究方面,王华珍等[21]引入基于随机森林的可视化技术,在低维空间里采用散点和平行坐标对中医慢性胃炎数据集进行可视化,帮助用户准确理解数据集的分布规律以及隐含的发展趋势,深入探讨可视化背后信息蕴含的中医学意义;Lukman等[22]阐述了中医学在应用计算方法研究方面所面临的各种挑战和取得的进展,从中医分类、数据库类型和挖掘工具等方面分析了各种中医的相关研究;Feng等[23]、Zhou等[24]、Yang等[25]、Li等[26]、刘耀等[27]分别从融合机器学习的中医知识发现、中医临床数据仓库构建、利用深度学习治疗中医冠心病、基于中医方法的健康状况评估和中医药本体体系构建等方面进行研究;张晓航等[28]对机器学习包括深度学习算法在中医诊疗上的应用做了较为系统的综述,总结以上常见算法在中医领域中的研究与应用现状,并分析其特点及对中医的应用价值,为机器学习算法在中医诊疗领域的进一步研究提供诸多思路。
0.2443
疾病判别在预训练模型基础上进行微调实现分类。在评估模型后连接全连接层,由于是多分类问题,使用Softmax作为激活函数,分类交叉熵categorical_crossentropy设置为损失函数,最后结果在输出每个类别同时输出对应概率值,如表5所示。以10条测试样本作为输入,输出每一个糖尿病类型的概率值,其中最大的即为该症状对应的疾病类别。
0.1304
本文提出的中医辅助诊疗框架如1所示。
R7
...
R5
滋阴清热,活血化瘀,豁痰通络,轻型温经散寒,活血通络。
2相关研究
糖尿病性胃轻瘫
{山药, 葛根} -> {乏力}
医生根据病人病情进行初步诊断;通过量化评诊和症状匹配查询病情相近、症状相似的数据;再通过关联挖掘从症状映射到药物,形成用药推荐,系统预诊断通过自动摘要和疾病类型判别形成疾病推论;医生根据疾病推论和用药推荐结果再次诊断,形成最终的诊断结果反馈给病人,同时修正系统输出的错误和不当信息,系统接受反馈再次更新。流程如下所示。
量化评诊和症状匹配
2功能实现
***小便清长或淋漓不尽|舌瘦|尿多|大便粘滞腥臭|身重倦怠|下肢水肿|关节变形|痛连左臂|气短|偶有下肢转筋|脘腹不舒|腰酸|体重倦怠|舌淡有齿痕|半年来感乏力|心慌气短|口淡无味或黏腻|多处搔抓痕|心悸|口干喜饮|畏寒肢冷|多食易饥|苔少|面生褐斑|苔白或少苔|疲劳后尿沫增加|胖大|尿糖|苔薄白腻|眩晕:以头目眩晕|排便乏力|胃纳可|神呆为主症|甲状腺炎等病史|鼻孔干燥|苔色薄黄|日渐明显|颜色黧黑|苔黄
***主症:口渴引饮、易饥多食、心烦失眠、尿频便秘。
次症:急躁易怒、面红目赤、心悸怔忡、头晕目眩。
舌脉:舌红,苔黄,脉弦数或弦滑数。
兼血瘀证:心胸隐痛、肢体麻痛、舌质暗红。
兼湿热证:脘腹胀满、恶心呕吐、口干口臭,舌红,苔黄腻。
3量化评诊和症状匹配查询过滤的维恩表达
表3症状匹配部分结果
R6 | 1中医辅助诊疗的量化评诊和症状匹配 0.1108 | 2中医辅助诊疗的量化评诊和症状匹配流程框架 1型糖尿病 | 与西医相比较,中医在此方面的发展则较为缓慢,由于中医在诊断过程中更加注重专家医生的经验智慧,在诊断方法上依赖于“望闻问切”的传统方法,因此机器参与程度不高,新兴技术和方法无法全面深入地触及诊断和治疗的流程;同时,传统中医的论证方法存在客观化、定量化和标准化不足的缺陷,限制了中医的进一步发展和传承。数据挖掘技术和机器学习方法在中医药的应用上虽然也取得了进展,但大多研究仍停留在症候、用药、配伍规律的发现和挖掘以及中医药的机器学习建模预测等方面,鲜有对中医诊断过程加以科学计算和评估的研究,也缺乏运用前沿技术和方法在智能辅助、智慧决策等方面进行的系统性探究。 量化评诊的具体方法可以表述为:对糖尿病数据进行预处理,将其转换为以字为单位的Tokenizer;加载预训练模型ERNIE[29]和Fine-tune网络,构建训练网络,设置优化策略;微调数据,根据损失值和准确度进行调参,得到糖尿病评估模型。评估模型后面构建Bi-LSTM实现量化评诊计算,构建的Bi-LSTM网络结构输出三条信息:积极情感倾向、消极情感倾向和置信度。积极情感倾向表示病人病情趋向乐观的程度,值越大代表病人病情越处于好转态势;消极情感倾向表示病人病情趋向悲观的程度,越大代表病人病情越糟糕;置信度表示该结果的可信程度,越趋近1可信度越高;对于该三者,笔者认为积极与消极的对冲值能够反映综合情感状况,再添加置信度因素可以显性地表达病情程度,因此计算积极情感值与消极情感值的差值,差值大于0时与置信度相加,差值小于0时与置信度相减,得到最终的病情评估值,如公式所示。其中,p为积极情感值,n为消极情感值,c为置信度,S表示最终结果,处于[2,-2]之间,该值综合反映病人的病情。 cos=∑ni=1∑ni=12√×∑ni=12√cos=∑i=1n∑i=1n2×∑i=1n2 用药规律 | 0.3093 | 128 | 数据挖掘 | 本文涉及的方法和技术均使用Python语言实现,糖尿病评估模型训练及后续涉及深度学习的内容均使用PaddlePaddle框架实现。在训练糖尿病评估模型时,加载ERNIE预训练模型和Fine-tune网络后,最大序列长度max_seq_len设置为128,调用封装好的hub.tokenizer读取数据,并设置以字符形式切分,文本匹配网络采用Sentence-Bert[32]结构,经过参数调整和训练后保存模型。 ("丹参", "无力", "疲乏"): 20 | 0.4165 | 3方案评价 糖尿病肾病 | 1 778 | 124 | 194 | 表5疾病判别部分结果
0.3270 | ***目眩|心悸怔忡|乏力|形寒肢冷|半身不遂|乏力|舌有裂纹|五心烦热|少尿|血栓性脉管炎|神疲乏力|面红目赤身热|尿频便塘|舌质淡胖|舌质黯红少津|舌质淡有瘀斑|脉细数|脉沉细无力|心情不畅难以入睡|肉芽色暗|舌淡|喉间有痰|脉象细数|多尿|消瘦|手足麻木|睡不解乏|舌体有瘀斑|苔黄粗燥|纳呆腹胀|形体消瘦|倦怠乏力|疼痛|舌质红|头昏且胀|伴乏力肢楚|脉濡数|多尿|舌淡苔白而干|偶头晕头痛|脉沉细等症状|近来日益明盈|痛觉|质较清稀|舌边齿痕|舌红苔黄|混浊|舌淡|胸闷恶心|形盛体胖|小便如膏| | 表6糖尿病症状与药物关联挖掘部分结果
|