公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210120391.5 (22)申请日 2022.02.07 (71)申请人 智慧芽信息科技 (苏州) 有限公司 地址 215000 江苏省苏州市工业园区金鸡 湖大道88号人工智能产业园G3-701、 G3-801、 G3-901、 G3-1001单元 (72)发明人 杨海涛 王超超 王为磊 屠昶旸 张济徽 (74)专利代理 机构 苏州锦尚知识产权代理事务 所(普通合伙) 32502 专利代理师 李洋 李丹 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 专利文本分类号识别方法、 装置、 电子设备 及存储介质 (57)摘要 本发明涉及一种专利文本分类号识别方法、 装置、 电子设备及存储介质。 所述方法包括: 获取 目标专利文本对应的输入文本; 将所述输入文本 输入识别神经网络, 经所述识别神经网络处理后 输出所述目标专利文本的分类号确定结果。 利用 本申请实施例提供的实现方式, 可以利用构建的 类均衡数据集训练识别神经网络。 根据待识别分 类号的所述目标专利文本的输入文本, 利用训练 好的所述识别神经网络, 识别出所述目标专利文 本的分类号。 从而有效提高分类号识别的效率和 准确度, 降低人力成本 。 权利要求书2页 说明书11页 附图4页 CN 114461801 A 2022.05.10 CN 114461801 A 1.一种专利文本分类号识别方法, 其特 征在于, 所述方法包括: 获取目标专利文本对应的输入文本; 将所述输入文本输入识别神经网络, 经所述识别神经网络处理后输出所述目标专利文 本的分类号确定结果。 2.根据权利要求1所述的方法, 其特征在于, 所述识别神经网络包括语义特征提取神经 网络、 长程依赖关系捕获神经网络以及分类神经网络, 所述将所述输入文本输入识别神经 网络, 经所述识别神经网络处 理后输出 所述目标专利文本的分类号确定结果包括: 将所述输入文本输入所述语义特征提取神经网络, 经所述语义特征提取神经网络处理 后输出字向量和句向量; 将所述字向量和所述句向量输入所述长程依赖关系捕 获神经网络, 经所述长程依赖关 系捕获神经网络处 理后输出残差特 征向量; 将所述残差特征向量输入所述分类神经网络, 经所述分类神经网络处理后, 得到所述 分类号确定结果。 3.根据权利要求1所述的方法, 其特征在于, 所述获取目标专利文本对应的输入文本包 括: 对所述目标专利文本的特定 子文本进行 预处理, 得到所述输入文本 。 4.根据权利要求3所述的方法, 其特征在于, 所述特定子文本包括所述目标专利文本的 标题文本、 摘要文本、 权利要求文本, 所述对所述 目标专利文本的特定子文本进行预处理, 得到所述输入文本包括: 对所述权利要求文本进行数据清洗处理和关键词提取处理, 得到所述权利要求文本对 应的关键词文本; 将所述关键词文本、 所述标题文本、 所述摘要文本合并, 得到文本长度为固定值的所述 输入文本 。 5.根据权利要求2所述的方法, 其特征在于, 所述将所述残差特征向量输入分类神经网 络, 经所述分类神经网络处 理后, 得到所述分类号确定结果包括: 将所述残差特征向量输入所述分类神经网络, 经所述分类神经网络处理后输出所述目 标专利文本归属于各分类号的概 率值; 将所述各分类号按照其对应的概率值从高到低进行排列, 并将概率值排列在前N个的 分类号确定为所述分类号确定结果, 其中, N≥1。 6.根据权利要求5所述的方法, 其特征在于, 所述分类号包括小类号和小组号, 所述各 分类号的概率值包括各小类号的概率值和各小组号的概率值, 所述N个分类号包括各小类 号中按照其对应的概率值从 高到低排在前M个的小类号和各小组号中按照其对应的概率值 从高到低排在前L个的小组号, 其中, M≥1, L≥1。 7.根据权利要求2所述的方法, 其特征在于, 所述语义特征提取神经网络包括Bert语义 特征提取模型, 所述长程依赖 关系捕获神经网络包括双向长短记忆网络长程依赖关系捕获 模型。 8.根据权利要求1所述的方法, 其特征在于, 所述识别神经网络为训练好的神经网络, 所述识别神经网络的训练方式包括: 构建专利文本训练样本集, 所述专利文本训练样本集中每个专利文本样本对应一个或权 利 要 求 书 1/2 页 2 CN 114461801 A 2多个分类号标签; 将所述专利文本训练样本集中的所述专利文本样本对应的输入文本输入所述识别神 经网络, 经 所述识别神经网络处 理输出预测的分类号确定结果; 根据所述预测的分类号确定结果和所述样本对应的分类号标签, 确定所述识别神经网 络的处理结果的损失; 向所述识别神经网络反向传播所述损失, 以调整所述识别神经网络的网络参数。 9.根据权利要求8所述的方法, 其特征在于, 所述构建专利文本训练样本集的方式包 括: 根据原始数据中每 个专利文本样本对应的分类号标签, 得到分类号标签排序列表; 遍历所述分类号标签排序列表, 获取每 个分类号标签对应的样本数量; 若分类号标签对应的样本数量小于预设值, 则将该分类号标签对应的样本按预设比例 分配到所述专利文本训练样本集和专利文本测试样本集; 若分类号标签对应的样本数量大于或等于所述预设值, 则将该分类号标签对应的样 本, 填充第一固定数量至所述专利文本训练样本集, 以及填充第二固定数量至所述专利文 本测试样本集。 10.根据权利要求8或9所述的方法, 其特征在于, 所述分类号标签包括小组号和小类 号。 11.一种专利文本分类号识别装置, 其特 征在于, 所述装置包括: 数据预处 理模块, 被 配置为获取目标专利文件 对应的输入文本; 识别模块, 被配置为将所述输入文本输入识别神经网络, 经所述识别神经网络处理后 输出所述目标专利文本的分类号确定结果。 12.根据权利要求1 1所述的装置, 其特 征在于, 所述识别模块包括: 语义特征提取单元, 被配置为将所述输入文本输入语义特征提取神经网络, 经所述语 义特征提取神经网络处 理后输出字向量和句向量; 长程依赖关系捕 获单元, 被配置为将所述字向量和所述句向量输入长程依赖关系捕 获 神经网络, 经 所述长程依赖关系捕获神经网络处 理后输出残差特 征向量; 分类单元, 被配置为将所述残差特征向量输入分类神经网络, 经所述分类神经网络处 理后, 得到所述分类号确定结果。 13.一种电子设备, 其特 征在于, 包括: 处理器; 用于存储可执行指令的存 储器; 其中, 所述处理器通过调用所述可执行指令实现如权利要求1至10中任意一项所述的 方法。 14.一种非易失性计算机可读存储介质, 其上存储有计算机程序指令, 其特征在于, 所 述计算机程序指令被处 理器执行时实现权利要求1至10中任意 一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114461801 A 3
专利 专利文本分类号识别方法、装置、电子设备及存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:33:39
上传分享
举报
下载
原文档
(584.0 KB)
分享
友情链接
GB-T 29729-2022 氢系统安全的基本要求.pdf
GB-T 16571-2012 博物馆和文物保护单位安全防范系统要求.pdf
DB61-T 1155-2018 建筑消防设施检测规范 陕西省.pdf
证券期货业信息系统渗透测试指南 (JRT 0276—2023).pdf
GB-T 33301-2016 燃煤工业锅炉及窑炉节能量计算方法.pdf
GB-T 10067.31-2013 电热装置基本技术条件 第31部分:中频无心感应炉.pdf
GB-T 714-2015 桥梁用结构钢.pdf
DB65-T 4595—2022 高压开关柜局部放电在线监测装置技术规范 新疆维吾尔自治区.pdf
DL-T 2045-2019 中性点不接地系统铁磁谐振防治技术导则.pdf
DB22-T 3555-2023 眩晕综合征针刺治疗规范 吉林省.pdf
DB22-T 2054.1-2014 牛养殖保险查勘定损技术规范 第1部分:奶牛 吉林省.pdf
T-CES 177—2022 磷酸铁锂电池储能舱早期安全预警系统技术规范.pdf
汽车数据安全管理若干规定(试行).pdf
GB-T 3003-2017 耐火纤维及制品.pdf
DB34-T 1692-2016 能源计量示范单位评价要求 安徽省.pdf
T-CAAMM 28—2018 农业机械用轻型联组V带.pdf
GB-T 4333.4-2007 硅铁 铝含量的测定 铬天青S分光光度法、EDTA滴定法和火焰原子吸收光谱法.pdf
法律法规 重庆市行政事业性收费管理条例.pdf
信通院 量子信息技术发展与应用研究报告.pdf
中华人民共和国数据安全法 2021.pdf
交流群
-->
1
/
18
评价文档
赞助2元 点击下载(584.0 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。