公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210170758.4 (22)申请日 2022.02.23 (71)申请人 华院计算 技术 (上海) 股份有限公司 地址 200436 上海市 静安区万 荣路1268号 云立方A栋9 楼 (72)发明人 蔡华 陆逸骁 张路平 (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 骆苏华 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 文本匹配方法及装置、 存 储介质、 终端 (57)摘要 一种文本匹配方法及装置、 存储介质、 终端, 所述方法包括: 获取第一文本; 构建所述第一文 本的要素图; 提取所述第一文本的语义信息; 获 取第二文本的语义信息和结构信息, 所述第二文 本的结构信息包括: 所述第二文本的要素图和/ 或图嵌入特征信息, 所述图嵌入 特征信息是根据 所述要素图计算得到的; 根据所述第一文本的语 义信息、 要素图和所述第二文本的语义信息、 结 构信息, 确定所述第一文本和所述第二文本的匹 配结果。 通过本发明提供的方案, 能够提高文本 匹配的准确度。 权利要求书3页 说明书15页 附图3页 CN 114661861 A 2022.06.24 CN 114661861 A 1.一种文本匹配方法, 其特 征在于, 所述方法包括: 获取第一文本; 构建所述第一文本的要素图; 提取所述第一文本的语义信息; 获取第二文本的语义信息和结构信息, 所述第二文本的结构信息包括: 所述第二文本 的要素图和/或图嵌入特 征信息, 所述图嵌入特 征信息是根据所述要素图计算得到的; 根据所述第一文本的语义信息、 要素图和所述第 二文本的语义信 息、 结构信息, 确定所 述第一文本和所述第二文本的匹配结果; 其中, 所述要素图包括多个节点、 节点之间的边和边的权重, 其中, 所述节点为文本中 包含的要素, 所述节点之间的边用于指示边连接的两个节点之间的关联关系, 所述边的权 重用于指示 边连接的两个节点之间的关联程度。 2.根据权利要求1所述的文本匹配方法, 其特征在于, 构建所述第一文本的要素图包 括: 构建所述第一文本的初始要素图, 所述初始要素图包括: 所述多个节点和所述节点之 间的边, 所述节点之间的边用于指示 边连接的两个节点是否位于同一个句子中; 确定每个节点在所述第一文本中对应的句子集, 其中, 所述句子集中的句子均与该节 点对应的要素相关联; 对于边连接的两个节点, 计算所述两个节点对应的句子集之间的相似度, 以得到所述 两个节点之间的边的权 重。 3.根据权利要求2所述的文本匹配方法, 其特征在于, 从所述第 一文本中确定每个节点 对应的句子集包括: 计算每个句子和各个节点之间的相似度; 如果任一句子与每 个节点之间的相似度均小于第五预设阈值, 则剔除该句子 。 4.根据权利要求2所述的文本匹配方法, 其特征在于, 从所述第 一文本中确定每个节点 对应的句子集之前, 所述方法还 包括: 对于所述初始要素图中的多个节点进行去重处 理。 5.根据权利要求1所述的文本匹配方法, 其特征在于, 提取所述第 一文本的语义信 息包 括: 将所述第一文本输入至语义提取模型, 以得到所述语义提取模型输出的语义特征向 量; 其中, 所述语义提取模型是采用样本文本对第一预设模型进行训练得到的, 所述样本 文本与所述第一文本属于同一领域, 所述样本文本具有预 先标注的标签。 6.根据权利要求5所述的文本匹配方法, 其特征在于, 所述领域为法律文书领域, 所述 标签包括以下一项或多 项: 引用法条、 案由和文 书类型。 7.根据权利要求1所述的文本匹配方法, 其特征在于, 根据所述第一文本的语义信息、 要素图和所述第二文本的语义信息、 结构信息, 确定所述第一文本和所述第二文本的匹配 结果包括: 对第一要素图和第二要素图进行融合处理, 以得到 融合后的要素图, 其中, 所述第一要 素图为所述第一文本的要素图, 所述第二要素图为所述第二文本的要素图;权 利 要 求 书 1/3 页 2 CN 114661861 A 2采用第一图卷积网络计算所述融合后的要素图对应的图嵌入特征向量, 记为融合图特 征向量; 对融合语义特征向量和所述融合图特征向量进行融合处理, 以得到融合后的特征向 量, 其中, 所述融合语义特征向量是 由所述第一文本的语义特征向量和所述第二文本的语 义特征向量进行融合处 理得到的; 采用第一分类 器根据所述融合后的特 征向量, 确定所述匹配结果。 8.根据权利要求7所述的文本匹配方法, 其特征在于, 所述第 一图卷积网络和所述第 一 分类器是采用第一训练样本对第一预设图卷积网络和 第一预设分类器进 行训练得到的, 所 述第一训练样本包括: 第一样本文本的语义信息和要素图、 第二样本文本的语义信息和要 素图, 以及预先标注的第一标签, 所述第一标签用于指示所述第一样本文本和第二样本文 本的真实匹配结果, 根据所述第一文本的语义信息、 要 素图和所述第二文本的语义信息、 结 构信息, 确定所述第一文本和所述第二文本的匹配结果之前, 所述方法还 包括: 对所述第一样本文本的要素图和所述第 二样本文本的要素图进行融合处理, 以得到融 合后的样本要素图; 采用所述第 一预设图卷积网络计算所述融合后的样本要素图对应的图嵌入特征向量, 记为融合样本图特 征向量; 对融合样本语义特征向量和所述融合样本图特征向量进行融合处理, 以得到融合后的 样本特征向量, 其中, 所述融合样本语义特征向量是对所述第一样本文本的语义特征向量 和所述第二样本文本的语义特 征向量进行融合处 理得到的; 采用所述第一预设 分类器根据所述融合后的样本特 征向量确定第一预测匹配结果; 根据所述第 一预测匹配结果和所述第 一标签计算第 一预测损失, 并根据 所述第一预测 损失更新所述第一预设图卷积网络和所述第一预设分类器, 直至满足预设的训练停止条 件。 9.根据权利要求7所述的文本匹配方法, 其特征在于, 所述融合后的要素图包括: 多个 对齐节点, 所述对齐节点之 间的边和所述对齐节 点之间的边的权重, 其中, 所述对齐节点为 在所述第一要素图和所述第二要素图中均存在的节点, 每个对齐节点具有特征信息, 所述 对第一文本的要素图和所述第二文本的要素图进行融合处 理包括: 确定所述多个对齐节点; 对于每两个对齐节点, 判断在所述第 一要素图或所述第 二要素图中该两个对齐节点之 间是否存在边, 如果是, 则构建该两个对齐节点之间的边, 其中, 所述对齐节点之间的边的 权重是根据所述对齐节点之 间的边在所述第一要 素图中的权重和/或在所述第二要素图中 的权重确定的; 对于每个对齐节点, 根据该对齐节点的第一句子集和第二句子集, 确定该对齐节点的 特征信息; 其中, 所述第一句子集为在所述第一要素图中对应的句子集, 所述第二句子集为在所 述第二要素图中对应的句子集。 10.根据权利要求9所述的文本匹配方法, 其特征在于, 根据每个对齐节点的第一句子 集和第二句子集, 确定该对齐节点的特 征信息包括: 对于每个对齐节点, 对该对齐节点的第 一句子集的语义信 息和第二句子集的语义信 息权 利 要 求 书 2/3 页 3 CN 114661861 A 3
专利 文本匹配方法及装置、存储介质、终端
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:33:28
上传分享
举报
下载
原文档
(620.8 KB)
分享
友情链接
DB65-T 4522—2022 洋葱栽培技术规程 新疆维吾尔自治区.pdf
GB-T 13591-2009 溶解乙炔气瓶充装规定.pdf
GB-T 35913-2018 地采暖用实木地板技术要求.pdf
T-TCDZ 0001—2019 电动自行车用蓄电池充电器.pdf
GM-T 0092-2020 基于SM2算法的证书申请语法规范.pdf
GB 50058-2014 爆炸危险环境电力装置设计规范.pdf
DL-T 951-2019 火电厂反渗透水处理装置验收导则.pdf
GB-T 15843.6-2018 信息技术 安全技术 实体鉴别 第6部分:采用人工数据传递的机制.pdf
NY-T 886-2022 农林保水剂.pdf
T-HFS 001—2023 商业银行外部数据价值评估指南.pdf
GB-T 41192-2021 岩土工程仪器 振弦式反力计.pdf
DB34-T 3897-2021 安徽科技大市场运营服务规范 安徽省.pdf
国家网信办 儿童个人信息网络保护规定 2019.pdf
T-CAEPI 66—2023 水污染源自动监控监测系统 运行维护技术指南.pdf
ISO 17987-8-2019.pdf
T-ISC 0022—2023 数字孪生城市平台技术要求.pdf
GB-T 15843.2-2017 信息技术 安全技术 实体鉴别 第2部分:采用对称加密算法的机制.pdf
DB4113-T 068-2024 饲养禽类前殖吸虫病防治技术规范 南阳市.pdf
GB-T 21369-2008 火力发电企业能源计量器具配备和管理要求.pdf
SY-T 7657.4-2021 天然气 利用光声光谱-红外光谱-燃料电池联合法测定组成 第4部分:燃料电池法测定氢含量.pdf
交流群
-->
1
/
22
评价文档
赞助2元 点击下载(620.8 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。