公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210065802.5 (22)申请日 2022.01.20 (71)申请人 杭州量知数据科技有限公司 地址 310000 浙江省杭州市萧 山区萧山经 济技术开发区明星路371号1幢6 01室 (72)发明人 宗畅 杨芷婷 王云飞 杨彦飞 (74)专利代理 机构 杭州裕阳联合专利代理有限 公司 33289 专利代理师 张解翠 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 7/00(2006.01) (54)发明名称 一种事件抽取方法、 装置、 设备及存 储介质 (57)摘要 本申请公开了一种事件抽取方法、 装置、 设 备及存储介质, 涉及自然语言智能处理技术领 域, 包括以下步骤: 获取目标领域的多个事件描 述句, 并定义事件标注的标签类别; 基于所述标 签类别对所述多个事件描述句分别进行标注, 并 利用多种粒度分割方法对所述多个事件描述句 进行特征划分; 对划分后的所述多个事件描述句 进行二次标注, 并将两次标注结果与多种划分结 果全部记 为训练样本集; 将所述训练样本集输入 预先构建的BERT ‑BILSTM‑ATTN‑CRF模型中进行 训练, 得到事件抽取模型, 以进行事件抽取。 本方 案针对产业领域相关的资讯新闻, 结合多种粒度 分割方法和BERT ‑BiLSTM‑ATTN‑CRF模型在少量 标注样本的基础上, 保持事件抽取的识别率并提 高事件抽取中对象元 素和触发词的识别率。 权利要求书2页 说明书8页 附图3页 CN 114579695 A 2022.06.03 CN 114579695 A 1.一种事 件抽取方法, 其特 征在于, 包括以下步骤: 获取目标 领域的多个事 件描述句, 并定义事 件标注的标签 类别; 基于所述标签类别对所述多个事件描述句分别进行标注, 并利用多种粒度分割方法对 所述多个事 件描述句进行 特征划分; 对划分后的所述多个事件描述句进行二 次标注, 并将两次标注结果与多种划分结果全 部记为训练样本集; 将所述训练样本集输入预先构建的BERT ‑BILSTM‑ATTN‑CRF模型中进行训练, 得到事件 抽取模型, 以进行事 件抽取。 2.根据权利要求1所述的一种 事件抽取方法, 其特征在于, 所述获取目标领域的多个事 件描述句, 并定义事 件标注的标签 类别, 包括: 采集产业领域的多个事 件描述句; 根据序列标注方法对所述多个事 件描述句进行分析, 提取 出事件标注的标签 类别。 3.根据权利要求1所述的一种 事件抽取方法, 其特征在于, 所述基于所述标签类别对所 述多个事件描述句分别进 行标注, 并利用多种粒度分割方法对所述多个事件描述句进 行特 征划分, 包括: 根据所述标签 类别为所述多个事 件描述句中的每 个单词标注一个标签; 按照字分割粒度、 词分割粒度和依存句法分割粒度的顺序对所述多个事件描述句分别 进行特征划分。 4.根据权利要求3所述的一种事件抽取方法, 其特征在于, 所述按照字分割粒度、 词分 割粒度和依存句法分割粒度的顺序对所述多个事 件描述句分别进行 特征划分, 包括: 利用字向量训练网络抽取 出所述多个事 件描述句中字的特 征向量; 利用LTP工具对所述多个事 件描述句进行分词处 理, 并在相邻词间添加分割符; 根据依存句法分析和预先设定的分割条件对分词后的多个事件描述句进行事件分段 和定中短语分段。 5.根据权利要求4所述的一种 事件抽取方法, 其特征在于, 所述预先设定的分割条件包 括: 如果当前词与前一个词成定中关系, 则当前词与前一个词合 为一段作为定中短语; 如果当前词与句子中某一个词是主谓关系、 动宾关系、 间宾关系、 前置关系和介宾关 系, 且所述词并不属于任何一个事件段, 则所述词到当前词之间所有的词都属于同一个事 件段。 6.根据权利要求1所述的一种事件抽取方法, 其特征在于, 所述BERT ‑BILSTM‑ATTN‑CRF 模型使用Adam优化器训练模型参数, 并利用dropout方法进行模型训练。 7.一种事 件抽取装置, 其特 征在于, 包括: 采集模块, 用于获取目标 领域的多个事 件描述句, 并定义事 件标注的标签 类别; 处理模块, 用于基于所述标签类别对所述多个事件描述句分别进行标注, 并利用多种 粒度分割方法对所述多个事 件描述句进行 特征划分; 设置模块, 用于对划分后的所述多个事件描述句进行二次标注, 并将两次标注结果与 多种划分结果全部记为训练样本集; 训练模块, 用于将所述训练样本集输入预先构建的BERT ‑BILSTM‑ATTN‑CRF模型中进行权 利 要 求 书 1/2 页 2 CN 114579695 A 2训练, 得到事 件抽取模型, 以进行事 件抽取。 8.根据权利要求7 所述的一种事 件抽取装置, 其特 征在于, 所述采集模块, 包括: 获取单元, 用于采集产业领域的多个事 件描述句; 分析单元, 用于根据序列标注方法对所述多个事件描述句进行分析, 提取出事件标注 的标签类别。 9.根据权利要求7 所述的一种事 件抽取装置, 其特 征在于, 所述处 理模块, 包括: 标注单元, 用于根据所述标签类别为所述多个事件描述句中的每个单词标注一个标 签; 划分单元, 用于按照字分割粒度、 词分割粒度和依存句法分割粒度的顺序对所述多个 事件描述句分别进行 特征划分。 10.一种存储有计算机程序的计算机可读存储介质, 其特征在于, 所述计算机程序使计 算机执行时实现如权利要求1~6中任一项所述的一种事 件抽取方法。权 利 要 求 书 2/2 页 3 CN 114579695 A 3
专利 一种事件抽取方法、装置、设备及存储介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:33:49
上传分享
举报
下载
原文档
(563.0 KB)
分享
友情链接
GB 13561.1-2009 港口连续装卸设备安全规程 第1部分:散粮筒仓系统.pdf
GB-T 25346-2020 船舶供受燃油规程.pdf
GB-T 36631-2018 信息安全技术 时间戳策略和时间戳业务操作规则.pdf
SAE_1999-01-1061_Hyundai_Modeling of Proportional Control Solenoid Valve for Automatic Transmission Using System Identification Theory.pdf
T-STSI 43—2023 人工智能算力资源池技术规范.pdf
GB-T 20277-2015 信息安全技术 网络和终端隔离产品测试评价方法.pdf
JR-T 0002-2016 银行卡自动柜员机(ATM)终端技术规范.pdf
GB-T 39520-2020 弹簧残余应力的X射线衍射测试方法.pdf
GM T 0011-2023 可信计算 可信密码支撑平台功能与接口规范.pdf
SN-T 1657.1-2007 进出口电动工具检验规程 第1部分:通用要求.pdf
GB-T 21369-2008 火力发电企业能源计量器具配备和管理要求.pdf
GB-T 38319-2019 建筑及居住区数字化技术应用 智能硬件技术要求.pdf
GB-T 19536-2015 集装箱底板用胶合板.pdf
DB11-T 140-2015 三相配电变压器节能监测 北京市.pdf
GB-T 13389-2014 掺硼掺磷掺砷硅单晶电阻率与掺杂剂浓度换算规程.pdf
GB-T 14460-2015 涤纶低弹丝.pdf
GB-T 14951-2023 汽车节油技术评定方法.pdf
TB-T 2604-2016 机车车辆车钩缓冲装置计量器具 货车钩尾框量具.pdf
GA-T 1944-2021 法庭科学 三硝基甲苯等6种有机炸药及其爆炸残留物检验 液相色谱-质谱法.pdf
GB-T 33172-2016 资产管理 综述、原则和术语.pdf
交流群
-->
1
/
14
评价文档
赞助2元 点击下载(563.0 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。