基于深度学习的预警装备知识图谱构建方法研究
源自:现代防御技术
作者:杨丽萍, 方其庆, 胡亚慧, 谷成刚, 汪会敏
摘要:为了充分挖掘海量数据的内在关联价值,全面准确地构建预警装备领域知识图谱,提出了一种基于深度学习的预警装备知识图谱构建方法。该方法以典型非结构化文本资料为研究对象,构建预警装备领域知识图谱本体和专业词典,以驱动分词得到包含6 468个实体样本和11 216条关系样本的预警装备知识数据集。基于融合多种深度学习模型的知识抽取方法进行实体识别和关系抽取,实验结果表明:所提模型在预警装备领域表现出优异的性能,实体识别模型F1值达到91.54%,关系抽取模型F1值达到91.05%。将提取的实体关系三元组存储在Neo4j图数据库中,进一步构建了由14种实体和22种关系组成的预警装备领域知识图谱并实现可视化。
关键词:预警装备 ; 预警装备 ; 深度学习 ; 实体识别 ; 关系抽取
引言
随着信息化、网络化的到来,预警装备领域的业务数据呈现爆发式增长态势,同时还存在大量的设备类型、型号、参数和运行使用等数据。然而,当面对海量装备数据时,由于缺乏紧凑有效的组织结构和直观的可视化查询方法,没有形成相应的装备知识体系,因此,难以进行深层次的数据挖掘和应用。知识图谱以语义网络为基础,通过三元组对客观世界中的概念、实体及其关系进行统一描述,有效支持知识表示、搜索、融合、推理等数据知识化组织和智能应用,是支撑装备能力画像、发展态势分析、装备故障诊断与健康状态管理等武器装备智能化作战应用的重难点技术之一。
目前,基于装备知识图谱的研究越来越受学者重视。段文昱等在分析武器装备领域文本数据特征的基础上,提出基于预训练模型与规则知识结合的武器装备实体及关系抽取方法,通过强领域性规则知识降低了传统流水线模式带来的累积误差问题。薛坤面向军事领域,采用K最近邻算法构建了军事实体库,结合双向长短期记忆网络(Bi-directional long short-term memory,BiLSTM)和条件随机场(conditional random field,CRF)算法以及分段卷积神经网络(piecewise convolutional neural network,PCNN)模型完成知识抽取任务,最终构建了包含四十多万条知识的军事领域知识图谱。谢腾提出了融合多种外部特征的BERT知识抽取模型,并通过实验验证了模型在信息装备领域具有较强的识别性能。慈颖等结合航天装备在役考核的实际应用,提出一种基于航天装备数据的知识图谱体系构建技术,自主设计研制了航天装备在役考核综合评估系统。王震南构建了登陆作战场景中涉及的军事装备知识图谱,设计并实现了一套包含辅助词典模块、实体与属性抽取模块、依存句法分析模块、简单问题问答模块、作战事件问答模块的领域知识问答系统。胡伟涛构建了装备静值属性知识图谱和装备运用属性知识事理图谱,提出了基于图谱网络结构和图谱网络路径能力的网络关键节点识别手段,并以巡逻反潜装备进行了示例分析。马玉凤等对军事领域知识图谱困境进行了总结,归纳了前人对军事领域知识图谱做出的构建尝试,根据知识图谱领域最新提出的技术为各个构建阶段提供了新的思路。张玉鹏为了降低远程监督带来的噪声问题,采用基于句子注意力机制的分段卷积神经网络模型进行关系抽取从而获得了装备实体三元组,构建出装备知识图谱并实现了军事知识图谱平台原型系统。
上述研究为本文知识图谱的构建提供了重要的参考和依据。然而,预警装备领域知识图谱构建工作还存在不少难题,如缺乏面向实际应用场景的细粒度开源数据集,数据组织呈现碎片化分布、文本非结构化等典型特征,预警装备数据专业性强、专业术语嵌套,实体边界模糊,结构和关系类型复杂、实体关系样本分布不均匀,导致知识抽取准确性难度高。针对上述问题,本文提出了一种基于深度学习的预警装备知识图谱构建方法。首先,在模式层构建出预警装备知识本体库与知识词典,以驱动分词构建出预警装备知识数据集,然后,通过对预警装备数据的深入挖掘,重点对命名实体和关系抽取2个核心环节的模型性能进行研究,以提取出预警装备知识三元组并实现图谱可视化。
1 预警装备领域知识本体及数据集构建
知识图谱的构建方法可以分为自上而下、自下而上和混合3种方式。根据预警装备的数据特征及知识图谱应用需求,本文采用一种混合方法构建知识图谱。首先,构建预警装备知识图谱模式层,结合专家知识构建本体,定义概念类并明确概念类之间的关系;其次,对文本资料进行数据预处理,构造预警装备术语词典以驱动分词从而构建并标注出数据集;然后,随着知识抽取的进展,根据数据层获得的知识概念来更新模式层,从而完善模式层的知识概念组织结构;最后,提取出预警装备知识三元组,存储在图数据库中并实现可视化,得到科学完整的预警装备知识图谱。其构建过程主要分为知识表示、知识抽取和知识存储3部分,关键技术如图1所示。
1.1 构建本体
预警装备知识本体的概念层次构建从2个方面出发考虑:一是预警装备本身所具备的基本功能、特征属性、原理技术等,需包含在装备本体的概念设计之中。二是要考虑装备的管理保障、功能运用以及遂行作战情况,将装备的保障资源、操作使用、阵地优化等因素考虑在内。本文以典型非结构化文本资料为主要研究对象,梳理预警装备领域相关理论与专业知识,自顶向下细化定义概念类与核心关系属性,并结合预警装备的数据特点和领域专家知识,构建了预警装备知识领域本体。概念层次结构如图2所示。
该本体定义顶层核心概念预警装备1个,二级概念5个:装备体系、装备系统、装备原理与技术、装备管理与保障以及装备操作与运用。预警装备体系是有主战装备和各种保障装备组成的多层次系统,其专业性高,涉及雷达、红外、光电、航空航天、网络通信、信息处理等多个技术领域,按主要功能可归纳为4种类型:反导预警装备、防空预警装备、空间目标监视装备和信息传输处理装备。按照装备部分组成又可细分出包含雷达各分系统的主装备和附属配套设备,其余按技术体制、管理保障、操作运用等继续细化层级,其中,全功能运用指对低慢小目标、低空目标、反干扰以及抗辐射武器攻击等的情况处置;然后针对两两实体类别之间,精细定义出相应的属性关系,具体关系见表1。该本体共计划分了14种实体类型和22种关系类型。
1.2 构建数据集
当前,武器装备知识图谱构建大多基于互联网百度百科、环球网——兵器栏目、武器大全等以网络爬虫形式获取数据,均是面向通用武器装备领域,预警装备领域知识图谱构建尚未发现公开的数据集。因此,在知识抽取之前,需要构建出知识粒度详细、知识面覆盖广泛的数据集。
本文应用的数据源来自《雷达原理与系统》《雷达分系统原理》《雷达信号处理与终端技术》《雷达装备原理与运用》等专业书籍。这些书籍涵盖了雷达基础理论知识、功能组成、预警探测、预警情报处理与应用、预警技术与指挥、雷达检修维护等内容,具有非常高的专业性和可信度。然而,预警装备领域语料数据专业性强,直接进行文本分词误差较大,核心词汇难以正确分割,因此,需要引入专有词典来驱动分词。
本文通过梳理《雷达手册》中文第三版、《GJB-军用雷达术语》等专业著作及文件,构建得到预警装备术语词典。然后使用了基于Python的中文分词软件jieba,因其量级较轻,运行速度快,支持使用停用词、词性标注和自定义词典,分词准确性高而被广泛使用。在jieba中编写Python代码引入词典自动对实体分词进行修正,从而提升文本分词的准确性。图3展示引入词典前后的具体分词结果对比。
结合构建出的预警装备本体实体类型与关系类型,最终得到的实体识别数据集包含19种实体类型、6 468个实体样本;关系抽取数据集包含22种关系类型、11 216条关系样本。详细信息见表2。
预警装备相较于通用武器装备,存在型多量少,型号之间技术体制差异大、装备高新技术密集且随着技术快速发展等特征,实体的分类和结构更为复杂,如部分型号装备包含频率源分系统,有的则将相关功能归并至接收分系统;同一实体存在诸多表述形式,如MTI技术因技术实现方式及应用场景的不同,存在动目标显示、参差MTI、滑动参差MTI、AMTI、滑动AMTI、机载移动目标指示器等包含缩写与中英文的表述形式。同时预警装备专业术语嵌套,实体边界模糊现象也更为突出。如“雷达标定”可以统称为操作实体,或分别将“雷达”定义为装备实体,“标定”作为操作实体;“S波段远程三坐标雷达”可以定义为整体上的单个装备实体,也可以将其定义为“S波段”和“远程三坐标雷达”两个组件实体;其他像“雷达发射机”“砷化镓场效应管”“微波真空管”等基础词汇在识别时均不能正确分词,误差较大。在边界定义过程中,均应采用保持实体语义完整性的原则,定义为一个完整的实体。
由表2可看出,预警装备实体关系数据分布并不均匀,整体呈现出长尾分布状态,部分常见的关系如组成、含有、采用等存在大量的标注数据,其他相对比较特殊的关系如阵地优化、功能运用等却只有少量的标注数据。同时在复杂的语境中,不同的关系类型在实体对之间相互交叉,如“脉冲压缩比”与“基础知识”两个实体为从属关系,“远程预警相控阵雷达”与“脉冲压缩比”两个实体为包含关系,有些关系类型需要理解上下文语义并预测实体对之间的语义关系才能更好辨别出来。诸如这些问题在实体关系抽取过程中会产生大量错误标注,影响实体关系提取的精度。
2 基于深度学习模型的预警装备领域知识抽取
2.1 基于词典嵌入的BERT-BiLSTM-CRF实体识别模型
针对1.2结中提及的实体结构复杂、专业术语存在嵌套,实体边界模糊等难点,本文将构建出的预警装备词典与多种模型相融合进行实体识别,提高模型的识别性能。整个模型大致分为3个部分:基于词典嵌入的BERT特征抽取层、BiLSTM解码层和CRF序列标注层,总体结构如图4所示。首先,利用BERT编码器生成字符向量,并拼接字符从词典匹配出的词集向量,从而获得输入的语义表示,即具有位置特征和字特征的字向量Cn;然后,将字向量序列输入到BiLSTM层中进行进一步的语义编码,经过双向LSTM提取出上下文特征后,生成特征矩阵Hn;最后,将语义特征和局部上下文特征结合到CRF层中,得到相邻标签之间的依赖关系并输出最大概率标签序列。
2.1.1 词典嵌入的BERT特征抽取层
2.1.2 BiLSTM神经网络层
2.1.3 CRF算法层
2.2 基于ResNet-PCNN-ATT的关系抽取模型
考虑到预警装备领域实体关系样本分布不均匀,文本数据中的实体关系类型过于复杂等问题,本文设计了基于深度残差学习和多级注意力机制相结合的远程监督关系提取模型框架,整体结构如图5所示。该模型分为向量映射层、深度残差卷积网络层和多级注意力层3部分。首先,通过预训练对句子中的词向量进行编码,并与实体对之间的相对位置距离拼接并转换为向量,作为模型的输入;然后,结合深度残差学习(residual neural network,ResNet)和分段卷积神经网络(PCNN)提取有效的语义特征,解决错误标注带来的噪声误差;最后,利用多级注意力机制计算对应实体与上下文词的相关性,更好地为关键词提升权重,以提高模型关系抽取的准确性。
2.2.1 向量映射层
2.2.2 深度残差卷积网络层
2.2.3 多层次注意力机制
3 实验评估与分析
3.1 实验设置和评估指标
3.2 命名实体识别实验结果对比分析
实验涉及的模型包括:BiLSTM-CRF、BERT-IDCNN-CRF、BERT-BILSTM-CRF以及本文模型。对于BiLSTM-CRF实体识别模型,本文使用Word2Vec训练词向量,再结合BiLSTM进行模型训练。对于CRF命名实体识别模型,使用开源的CRF++-0.54工具进行模型预测和训练。上述模型均在同一个训练集和测试集上进行了测试。表3显示了不同模型上的实验对比结果。实验结果表明,所提出的基于词典嵌入的BERT-BiLSTM-CRF命名实体识别模型在预警装备知识训练集上性能均优于其他实体识别模型。与BiLSTM-CRF模型相比,BERT预训练的语言模型可以将F1值提高11.41%,说明BERT模型具有更强的特征提取能力,且优于单独训练词向量。与BERT-BiLSTM-CRF模型相比,本文模型的F1值增加了7.07%,精确率增加了4.77%,召回率增加了9.29%,说明引入词典可帮助模型更好地解决预警装备领域专业术语存在嵌套,实体边界模糊等问题。与BERT-IDCNN-CRF模型相比,虽然IDCNN模型可以经过卷积层提取特征,在一定程度上考虑了实体包含特殊字符等情况,但模型的改进效果不够明显,识别预警装备领域实体的性能较差。
不同实体类型的实验结果如图6所示。模型在“装备体系”“主装备”“装备技术”“全功能运用”等实体类型识别效果较好,整体识别效果达到或接近最佳F1值。由上述实验可知,本文在BERT- BiLSTM -CRF模型的基础上,引入词典帮助提取了词集向量,与位置向量相融合生成特征字向量,并充分考虑字向量的语义特征和局部上下文特征,实验在预警装备实体数据集上取得了更好的识别效果。
3.3 实体关系抽取实验结果对比分析
在预警装备关系抽取数据集中,将本文提出的ResNet-PCNN-ATT关系抽取模型与目前几个主流模型CNN-ATT、PCNN-ATT、BiLSTM-ATT进行综合比较,实验结果如表4所示,本文模型在预警装备实体关系抽取任务中性能比主流模型好。BiLSTM-ATT的性能比较一般,F1值与本文模型相差了13.4%,因为该模型缺少局部特征的辅助,单纯只利用上下文信息不能够满足预警装备的关系抽取任务,整体误差较大;CNN-ATT则更侧重文本依赖特征和局部特征的提取,忽略了模型误差的传播,降低了模型的抽取性能,F1值相差了9.74%;PCNN-ATT进行了注意力池化和最大池化,抽取效果有所提升,但使用了单一注意机制在装备抽取任务中效果未达到最佳,与本文模型相比F1值相差8.06%;本文模型融合深度残差神经网络和PCNN模型来提取上下文语义和关系之间的依赖包含相关性,能够降低错误标注带来的噪声影响,多层注意力机制对应实体与上下文的相关性,更好地为关键特征提升权重,能够提高模型关系抽取的准确性。
ResNet-PCNN-ATT关系抽取模型在不同关系类型的实验结果如图7所示。模型在“从属”“隶属”“包含”“采用”“研制生产”“功能运用”等关系类型抽取效果达到了最佳的F1值,所有关系类型的抽取效果均优于其他对比模型,由此证明了本文提出的ResNet-PCNN-ATT关系抽取模型在预警装备领域实体关系抽取任务中的有效性。
为了验证多层次注意力机制的有效性,本文在前期实验的基础上,采用逐层比较验证引入多层次注意力机制的方法增强了ResNet-PCNN-ATT模型的深度,并进一步验证了提出的预警装备领域实体关系提取模型。实验结果如图8所示。
由上述实验可以看出,ResNet-PCNN-ATT关系抽取模型在PCNN模型的基础上,结合深度残差神经网络,有效降低了错误标注带来的噪声误差,引入多层注意力机制的模型性能抽取效果明显优于单一注意力机制的模型,从而验证了模型在预警装备领域关系抽取过程中的优越性。
3.4 图谱可视化
预警装备实体和关系提取出后,将得到的实体关系三元组转换为CSV表数据文件,并对空值进行填充以及更改为UTF-8编码格式等操作;然后使用“Neo4j-admin import”方法和CQL命令语句将CSV格式的属性和三元组表导入Neo4j图数据库中,其中系统的“Create”语句用于构造节点、关系和属性,“Match”语句用于检索相关数据;最后基于这些实体和关系属性数据,构建出预警装备知识图谱,并将其显示在Neo4j提供的可视化工具上。图谱包含14种实体节点类型和22种关系节点类型,共有2 124个实体节点和6 672种节点关系类型。图9显示了部分成功导入到Neo4j中的节点、属性和关系。
4 结束语
为了有效地组织和管理预警装备的文本知识,本文面向预警装备管理与保障垂直领域应用,引入预警装备专业术语词典来驱动语料库的分词,并结合构建的预警装备本体实体类型与关系类型,构建出预警装备知识数据集,为后续知识抽取相关研究提供实践应用价值。然后针对知识抽取中实体结构复杂,实体边界模糊等难点,本文提出一种基于词典嵌入并融合多种深度学习模型来提高装备实体识别效果,又设计了基于ResNet-PCNN-ATT的关系抽取模型来降低抽取任务过程中错误标注带来的噪声误差。所提出的模型均在预警装备知识数据集中得到了有效验证。
本文虽然在预警装备知识图谱构建研究中取得了初步成果,但仍有改进的空间:由于专业领域缺乏足够的数据样本,数据集的构建比较依赖人工来完成,所构建的知识数据集不够大,后期需要添加更多的数据来改进工作,未来将在自动抽取和自动更新以及基于少样本学习的装备领域知识提取方面进行研究。
声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。