公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210044347.0 (22)申请日 2022.01.14 (71)申请人 中国科学院计算 技术研究所 地址 100080 北京市海淀区中关村科 学院 南路6号 (72)发明人 郭岩 王之威 刘杨昊 刘悦 薛源海 俞晓明 沈华伟 程学旗 (74)专利代理 机构 北京律诚同业知识产权代理 有限公司 1 1006 专利代理师 祁建国 张燕华 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/958(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01)G06F 40/146(2020.01) (54)发明名称 一种基于语义的网页信息抽取方法及系统 (57)摘要 本发明提出一种基于语义的网页信息抽取 方法, 包括: 获取目标网页的目标DOM树, 对该目 标DOM树的目标骨架节点按句进行分裂, 得到该 目标DOM树的目标骨架子节点; 以分类模型按目 标任务语义对 所有该目标骨架子节 点进行分类, 获得该目标DOM树的目标信息子节点; 对所有该 目标信息子节 点形成的节点路径进行聚类, 获得 该目标网页的目标信息树, 对该目标信息树中包 含的网页信息进行抽取。 本发明还提出一种基于 语义的网页信息抽取系统, 以及一种用于实现基 于语义的网页信息抽取的数据处 理装置。 权利要求书2页 说明书7页 附图2页 CN 114528459 A 2022.05.24 CN 114528459 A 1.一种基于语义的网页信息抽取 方法, 其特 征在于, 包括: 获取目标网页的目标DOM树, 对该目标DOM树的目标骨架节点按句进行分裂, 得到该目 标DOM树的目标骨架子节点; 以分类模型按目标任务语义对所有该目标骨架子节点进行分类, 获得该目标DOM树的 目标信息 子节点; 对所有该目标信息子节点形成的节点路径进行聚类, 获得该目标网页的目标信息树, 对该目标信息树中包 含的网页信息进行抽取。 2.如权利要求1所述的网页信息抽取方法, 其特征在于, 采用BERT预训练语言模型作为 该分类模型。 3.如权利要求2所述的网页信息抽取方法, 其特征在于, 还包括对BERT预训练语言模型 进行离线学习的步骤: 将已知网页解析为已知DOM树, 获得该已知DOM树的已知骨架节点, 对所有该已知骨架 节点的信息进行标注, 将与下游任务相关的 已知骨架节点标记为已知核心信息节点, 将与 下游任务无关的已知骨架节点标记为 非核心信息节点; 对每个该已知骨架节点按句进 行分 裂, 得到已知骨架子节点, 其中该已知骨架子节点的标记与其对应的 已知骨架节的标记相 同; 将所有该已知骨架子节点随机划分为训练集和验证集, 设置多组初始参数, 以该训练 集分别对各 组初始参数进行调整, 并以该测试集分别验证完成参数调整的各BERT 预训练语 言模型的分类精度; 选取 具有最高分类精度的BERT预训练语言模型为该分类模型。 4.如权利要求3所述的网页信息抽取 方法, 其特 征在于, 该BERT预训练语言模型为: 采用交叉熵损失函数: 以 进行参数 学习; 其中, 为已知骨架子节点, T为目标任务语义, 为 中的文本序列, CLS为该BERT预 训练语言模型的输出层中的一个单元, γ 为该BERT预训练语言模型的权重, Ni为已知网页Wi 的已知DOM树中的已知骨架节点数量, Mij为 分裂后的子节点数量, 为骨架子节点 的 真实标签。 5.一种基于语义的网页信息抽取系统, 其特 征在于, 包括: 节点分裂模块, 用于获取目标骨架子节点; 其中, 获取目标网页的目标DOM树, 对该目标 DOM树的目标骨架 节点按句进行分裂, 得到该目标DOM树的目标骨架子节点; 节点分类模块, 用于以分类模型按目标任务语义对所有该目标骨架子节点进行分类, 获得该目标DOM树的目标信息 子节点; 信息抽取模块, 用于对所有该目标信息子节点形成的节点路径进行聚类, 获得该目标权 利 要 求 书 1/2 页 2 CN 114528459 A 2网页的目标信息树, 对该目标信息树中包 含的网页信息进行抽取。 6.如权利要求5所述的网页信息抽取系统, 其特征在于, 采用BERT预训练语言模型作为 该分类模型。 7.如权利要求6所述的网页信息抽取系统, 其特 征在于, 还 包括: 离线学习模块, 用于对BERT预训练语言模型进行离线学习; 具体包括 节点标记模块, 用于将已知网页解析为已知DOM树, 获得该已知DOM树的已知骨架节点, 对所有该已知骨架节 点的信息进 行标注, 将与下游任务相关的已知骨架节点标记为已知 核 心信息节点, 将与下游任务无关的 已知骨架节点标记为非核心信息节点; 对每个该已知骨 架节点按句进行分裂, 得到已知骨架子节点, 其中该已知骨架子节点的标记与其对应的 已 知骨架节的标记相同; 模型调整模块, 用于将所有该已知骨架子节点随机划分为训练集和验证集, 设置多组 初始参数, 以该训练集分别对各组初始参数进行调整, 并以该测试集分别验证完成参数调 整的各BERT 预训练语 言模型的分类精度; 选取具有最高分类精度的BERT 预训练语 言模型为 该分类模型。 8.如权利要求7 所述的网页信息抽取系统, 其特 征在于, 该BERT预训练语言模型为: 采用交叉熵损失函数: 以 进行参数 学习; 其中, 为已知骨架子节点, T为目标任务语义, 为 中的文本序列, CLS为该BERT预 训练语言模型的输出层中的一个单元, γ 为该BERT预训练语言模型的权重, Ni为已知网页Wi 的已知DOM树中的已知骨架节点数量, Mij为 分裂后的子节点数量, 为骨架子节点 的 真实标签。 9.一种计算机可读存储介质, 存储有计算机可执行指令, 当该计算机可执行指令被执 行时, 实现如权利要求1~4任一项所述的基于语义的网页信息抽取 方法。 10.一种数据处理装置, 包括如权利要求9所述的计算机可读存储介质, 当该数据处理 装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指 令时, 实现基于语义 的网页信息抽取。权 利 要 求 书 2/2 页 3 CN 114528459 A 3
专利 一种基于语义的网页信息抽取方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:33:54
上传分享
举报
下载
原文档
(687.5 KB)
分享
友情链接
DB11-T 1344-2016 信息安全等级保护检查规范 北京市.pdf
关于印发基础电信企业资产安全管理平台和网络安全态势感知平台建设指南的函.pdf
T-ZMDS 70001—2022 数字化生产义齿.pdf
GB-T 38652-2020 电子商务业务术语.pdf
DB2201-T 16-2022 城市智能体数据治理技术规范 长春市.pdf
DB42-T 953-2014 “鄂引3号”狗牙根栽培技术规程 湖北省.pdf
GB-T 19773-2005 变压吸附提纯氢系统技术要求.pdf
GB-T 8054-2008 计量标准型一次抽样检验程序及表.pdf
NB-T 10354-2019 管束式集装箱.pdf
NB-T 10179-2019 煤矿在用高压开关设备电气试验规范.pdf
GB-T 34968-2017 地下水超采区评价导则.pdf
SC-T 8165-2018 渔船LED水上集鱼灯装置技术要求.pdf
DB3401-T 272—2022 城区菜市场建设与管理规范 合肥市.pdf
DB51-T 2247-2016 重点用能单位节能管理规范 四川省.pdf
GM-T 0116-2021 信息系统密码应用测评过程指南.pdf
GB-T 41121-2021 玻璃水滑道安全技术要求.pdf
GB-T 17473.6-2008 微电子技术用贵金属浆料测试方法 分辨率测定.pdf
GB-T 10001.3-2021 公共信息图形符号 第3部分:客运货运符号.pdf
DB5223-T 15-2021 新市民家庭经济困难学生资助、补助规范 黔西南布依族苗族自治州.pdf
GB-T 15878-2015 半导体集成电路 小外形封装引线框架规范.pdf
交流群
-->
1
/
12
评价文档
赞助2元 点击下载(687.5 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。