(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210078832.X
(22)申请日 2022.01.24
(71)申请人 中国电子科技 集团公司第十五研究
所
地址 100083 北京市海淀区北四环中路21 1
号
(72)发明人 黄杨琛 王立才 郭前进 李孟书
李兴宇
(74)专利代理 机构 北京理工大 学专利中心
11120
专利代理师 高会允
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/242(2020.01)
G06F 40/211(2020.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
融合多任务和多标签学习的司法领域深度
事件抽取方法
(57)摘要
本发明公开了融合多任务和多标签学习的
司法领域深度事件抽取方法, 能够基于BERT预训
练模型与multi ‑task实现触发词提取与事件分
类, 在增强后的数据上通过多标签 分类实现事件
要素提取的司法领域事件抽取。 目前针对司法领
域文本特点, 提出一种基于预训练模型BERT的事
件抽取模型, 通过masked LM方法在领域数据上
对BERT进行调优, 以学习到 更适合领域知 识的特
征表示; 将触发词提取和事件分类任务联合, 以
multi‑task的形式将两个任务统一到一个损失
函数中, 利用任务之间的相关性促进学习性能的
提升; 使用事件要素的start与end标注进行学习
与预测, 对于多个事件要素, 分别设计对应的网
络层进行抽取, 减少不同要素之间的相互干 扰。
权利要求书4页 说明书18页 附图5页
CN 114580428 A
2022.06.03
CN 114580428 A
1.一种融合多任务学习和多标签学习的司法领域深度事件抽取方法, 其特征在于, 包
括如下步骤
步骤1: 取司法领域数据进行人工标注, 所标注 的标签包括事件类型和事件元素, 获得
司法领域数据集;
步骤2: 利用中文预训练语言模型BERT在司法领域数据集上, 采用Masked LM语言学习
模型进行网络调优, 学习到适合司法领域知识的网络参数, 从而 得到司法领域BERT模 型, 利
用所述司法领域BERT模型的输出为文本的语义信息;
步骤3: 构建multi ‑task网络, 所述multi ‑task网络采用所述司法领域BERT模型提取文
本的语义信息作为输入, multi ‑task网络定义包含触发词起始位置预测、 触发词结束位置
预测以及事件类型预测三个任务共同定义的损失函数进 行调优, mult i‑task网络的输出包
括预测的事 件类型、 预测的触发词起始位置以及预测的触发词结束位置;
步骤4: 根据事件类型确定事件要素, 构建事件要素抽取模型, 所述事件要素抽取模型
以司法领域BERT模型提取的文本语义信息为输入, 并为每一个事件要 素学习专属的网络参
数, 在每个事件要 素对应网络的最后一层, 对每一个 分词token分别预测是否属于 当前事件
要素的起始位置或者结束位置 。
2.如权利要求1所述的方法, 其特征在于, 所述利用所述司法领域数据集针对中文预训
练语言模型BERT在司法领域数据集上, 采用Masked LM语言学习模型进行网络调优, 具体
为:
在人工标注的司法领域数据集上使用Masked LM对BERT模型的参数进行调优, 在训练
时采用如下策略, 随机选择句子中15%的单词进行Mask, 在选择为Mask的单词中, 有80%真
的使用[Mask]进行替换, 10%不进行替换, 剩下10%使用一个随机单词替换。
3.如权利要求1所述的方法, 其特 征在于, 所述 步骤2具体为:
司法领域事件集合E={E1, ..., EN}, E1~EN为第1~第N个司法领域事件; 司法领域事件
对应的文本信息集合为S={S1, ..., SN}, S1~SN分别为第 1~第N个司法领域事件对应的文
本信息; BERT模型中的epoch的最大值为Epoches, 每个epoch的batch数为batch_per_
epoch; BERT基础模型为Ber t_base_c hinese, 每个句子的最大长度为max_len;
针对BERT模型中的所有的epoc h, 执行如下训练流 程得到调优后的BERT模型参数:
针对epoc h中的每个batch, 执行S1~S4:
S1将输入句子补零或截取到 长度为max_len, 获取句子分词的索引I1;
S2随机选择句子中15%的单词进行Mask, 在选择为Mask的单词中, 有80%真的使用
[Mask]进行替换, 10%不进行替换, 剩下10%使用一个随机单词替换;
S3获取Mask后的句子输入到BERT基础模型Bert_base_chinese 中, 获得特征向量, 后接
θ0预测句子每 个位置对应的分词的索引I2;
S4使用Adam优化器最小化I1与I2之间的差异, 定义为第一损失函数L( θ, θ0); 当验证集
上的第一损失函数在一定epoc h内不再下降时采取 early stopping策略。
4.如权利要求3所述的方法, 其特 征在于, 所述第一损失函数L( θ, θ0)定义如下:
权 利 要 求 书 1/4 页
2
CN 114580428 A
2其中, θ是BERT模型中的Encoder部分的参数, 输入经过θ得到特征向量, θ0是在Masked
LM任务中, 接在θ后面的参数, |V|是被mask的词所构成词典的大小; mi表示被mask的词; p(m
=mi|θ, θ0)表示在给定所学习到的参数θ和θ0的情况下, 预测的词m就是被mask的词mi的概
率;
在所述训练流程中, 在BERT模型的前两个epoch中, 固定θ, 以学习速率为lr=5e‑4调整
θ0, 在随后的epoc h中, 以lr=1e‑5的学习速率同时调整 θ和 θ0, 直至达到停止条件。
5.如权利要求3所述的方法, 其特 征在于, 所述 步骤3具体为:
将司法数据文本进行分词化(tokenize)之后, 获得每一个分词token的位置嵌入、 段嵌
入和词嵌入, 将三个嵌入输入到调优后的司法领域BERT模型中, 获得每一个分词的特征向
量, 即为文本的语义信息;
所述位置嵌入即该分词在输入文本中的位置; 所述段嵌入即该分词为输入文本的所属
段落; 所述词嵌入即该分词在 BERT的字典中的索引位置;
司法领域事件集合E={E1, ..., EN}, E1~EN为第1~第N个司法领域事件; 司法领域事件
对应的文本信息集合为S={S1, ..., SN}, S1~SN分别为第 1~第N个司法领域事件对应的文
本信息; 司法领域事件对应的触发词集合为TR={Tr1, ..., TrN}与事件类型集合为TY=
{Ty1, ..., TyN}, Tr1~TrN分别为第1~第N个司法领域事件对应的触发词, Ty1~TyN分别为第
1~第N个司法领域事件对应的事件类型; epoch的最大值为Epoches, 每个epoch的batch数
为batch_per_epoc h。 调优后的BERT模型Ber t_fine_tune, 每 个句子的最大长度为max_len;
针对BERT模型中的所有的epoch, 执行如下训练流程得到所学到的事件要素提取的模
型参数:
针对epoc h中的每个batch, 执行SS1~SS4:
SS1.将输入句子补零或截取到长度为max_len, 获取事件类型的one ‑hot编码, 触发词
起始位置和结束位置;
SS2.将句子 输入到Ber t_fine_tune中, 获得 特征向量
SS3.特征向量
后接θ1预测事件类型的概率, 后接θ2预测触发词起始位置的概率, 后接
θ3预测触发词结束位置的概 率;
SS4.构建第二损失函 数LT( θ, θ1, θ2, θ3)=L1( θ, θ1)+L2( θ, θ2)+L3( θ, θ3), 使用Adam优化器
最小化第二损失函数;
SS5.当验证集上的l oss在一定epoc h内不再下降时采取 early stopping策略。
6.如权利要求5所述的方法, 其特 征在于, 所述第二损失函数定义如下:
LT( θ, θ1, θ2, θ3)=L1( θ, θ1)+L2( θ, θ2)+L3( θ, θ3)
其中, θ是BERT模型中的Encoder部分 的参数, L1( θ, θ1)、 L2( θ, θ2)、 L3( θ, θ3)分别对应事
件类型预测任务相关的损失函数、 触发词起始 位置预测任务相关的损失函数以及触发词结
束位置预测任务相关的损失函数
θ1为事件类 型预测任 务对应的全连接层网络参数, Type为所输入事件类型的one ‑hot表权 利 要 求 书 2/4 页
3
CN 114580428 A
3
专利 融合多任务和多标签学习的司法领域深度事件抽取方法
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:47上传分享