公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210113963.7 (22)申请日 2022.01.30 (71)申请人 百度在线网络技 术 (北京) 有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦三层 (72)发明人 侯柳平 (74)专利代理 机构 北京同立钧成知识产权代理 有限公司 1 1205 专利代理师 李国祥 黄健 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称 目标信息识别方法、 装置、 设备、 可读存储介 质及产品 (57)摘要 本公开提供了目标信息识别方法、 装置、 设 备、 可读存储介质及产品, 涉及人工智能中的 NLP。 具体实现方案为: 获取识别请求, 其中, 所述 识别请求中包括待识别隐私 政策文件; 根据所述 识别请求, 将所述待识别隐私 政策文件与预设的 目标信息词表进行比对操作, 确定待识别隐私 政 策文件与目标信息词表的交集词汇集合, 其中, 所述目标信息词表中包括符合预设规定的标准 目标信息词汇, 以及不符合预设规定的非标准目 标信息词汇; 将交集词汇集合中的词汇确定为待 识别隐私 政策文件对应的目标信息。 从而能够快 速地实现对待识别隐私政策文件中符合预设规 定以及不符合预设规定的目标信息的识别操作, 提高了目标信息识别的效率以及准确度。 权利要求书4页 说明书12页 附图4页 CN 114444503 A 2022.05.06 CN 114444503 A 1.一种目标信息识别方法, 包括: 获取识别请求, 其中, 所述识别请求中包括待识别隐私政策文件; 根据所述识别请求, 将所述待识别隐私政策文件与预设的目标信息词表进行比对操 作, 确定待识别隐私政策文件与目标信息词表的交集词汇集合, 其中, 所述目标信息词表中 包括符合预设规定的标准目标信息词汇, 以及不符合预设规定的非标准目标信息词汇; 将交集词汇集 合中的词汇确定为待识别隐私政策文件 对应的目标信息 。 2.根据权利要求1所述的方法, 所述根据所述识别请求, 将所述待识别隐私政策文件与 预设的目标信息词表进行比对操作之前, 还 包括: 获取待处理隐私政策文件集合, 其中, 所述待处理隐私政策文件集合中包括多个待处 理隐私政策文件; 对各所述待处理隐私政策文件进行数据处理, 获得与 各待处理隐私政策文件对应的多 个名词性短语; 根据各名词性短语在多个待处理隐私政策文件中使用频率将所述名词性短语按照所 述使用频率由大到小的顺序进行排序, 获得排序后的名词性短语; 根据所述 排序后的名词性短语生成所述目标信息词表。 3.根据权利要求2所述的方法, 其中, 所述对各所述待处理隐私政策文件进行数据处 理, 获得与各待处 理隐私政策文件 对应的多个名词性短语, 包括: 针对各待处理隐私政策文件, 根据 所述待处理隐私政策文件中的标点符号对待处理隐 私政策文件进行分句操作, 获得与所述待处 理隐私政策文件 对应的多个待处 理语句; 针对各待处理语句, 将所述待处理语句输入至预设的语言分析工具, 获得所述待处理 语句对应的多个分词、 任意两个分词之 间的依存关系以及各分词对应的词性信息, 其中, 所 述语言分析工具为自然语言处 理工具; 根据所述待处理语句对应的多个分词、 任意两个分词之间的依存关系以及各分词对应 的词性信息, 确定所述待处 理语句对应的至少一个名词性短语。 4.根据权利要求3所述的方法, 其中, 所述根据所述待处理语句对应的多个分词、 任意 两个分词之 间的依存关系以及各分词对应的词性信息, 确定所述待处理语句对应的至少一 个名词性短语, 包括: 根据所述待处理语句对应的多个分词及各分词的词性信 息, 确定所述待处理语句对应 的名词分词; 针对各名词分词, 根据 所述任意两个分词之间的依存关系确定所述名词分词对应的修 饰性分词; 将所述名词分词以及所述 修饰性分词确定为所述名词性短语。 5.根据权利要求2所述的方法, 其中, 所述根据所述排序后的名词性短语生成所述目标 信息词表, 包括: 按照所述排序后的名词性短语的顺序, 依次将所述名词性短语与 标准目标信 息词表中 的各词汇进行比对操作, 获得比对结果; 根据所述比对结果对所述 排序后的名词性短语进行 标注操作; 剔除所述 排序后的名词性短语中未被标注的名词性短语, 获得 所述目标信息词表。 6.根据权利要求5所述的方法, 其中, 所述根据所述比对结果对所述排序后的名词性短权 利 要 求 书 1/4 页 2 CN 114444503 A 2语进行标注操作, 包括: 若所述比对结果为所述标准目标信 息词表中包括所述名词性短语, 则将所述名词性短 语标注为标准目标信息词汇; 若所述比对结果为所述标准目标信 息词表中不包括所述名词性短语, 则计算所述名词 性短语与所述标准目标信息词表中词汇的相似度; 若所述名词性短语与所述标准目标信息词表中相似度最高的标准目标信息词汇的相 似度超过 预设的相似度阈值, 则自动将所述名词性短语标注为非标准目标信息词汇。 7.根据权利要求6所述的方法, 所述将所述名词性短语标注为非标准目标信息词汇之 后, 还包括: 建立所述非标准目标信息词汇与所述相似度最高的标准目标信息词汇之间的映射关 系。 8.根据权利要求7所述的方法, 其中, 所述若所述名词性短语与 所述标准目标信 息词表 中相似度最高的词汇的相似度超过预设的相似度阈值, 则自动 将所述名词性短语标注为 非 标准目标信息词汇之后, 还 包括: 若所述比对结果为所述标准目标信 息词表中不包括所述名词性短语, 所述名词性短语 与所述标准目标信息词表中相似度最高的词汇的相似度不超过预设的相似度阈值, 且所述 名词性短语在排序中的位置超过预设的位置阈值, 则将所述名词性短语发送至技术人员的 终端设备, 使得 所述技术人员对所述名词性短语进行手动标注操作; 接收技术人员的终端设备发送的手动标注的非标准目标信息词汇; 将自动标注的非标准目标信息词汇以及手动标注的非标准目标信息词汇确定为非标 准目标信息词汇。 9.根据权利要求7所述的方法, 其中, 所述根据所述识别请求, 将所述待识别隐私政策 文件与预设的目标信息词表进 行比对操作, 确定待识别隐私政策文件与目标信息词表的交 集词汇集 合之后, 还 包括: 若检测到所述待识别隐私政策文件中存在非标准目标信 息词汇, 则根据 所述非标准目 标信息词汇与标准目标信息词汇之 间的映射关系, 将所述待识别隐私政策文件中的非标准 目标信息词汇替换为所述标准目标信息词汇。 10.根据权利要求2 ‑8任一项所述的方法, 其中, 所述获取待处理隐私政策文件集合, 包 括: 通过网络 爬虫从互联网上获取待处 理隐私政策文件集 合。 11.一种目标信息识别装置, 包括: 获取模块, 用于获取识别请求, 其中, 所述识别请求中包括待识别隐私政策文件; 处理模块, 用于根据所述识别请求, 将所述待识别隐私政策文件与预设的目标信息词 表进行比对操作, 确定待识别隐私政策文件与目标信息词表的交集词汇集合, 其中, 所述目 标信息词表中包括符合预设规定的标准目标信息词汇, 以及不符合预设规定的非标准目标 信息词汇; 确定模块, 用于将交集词汇集合中的词汇确定为待识别隐私政策文件对应的目标信 息。 12.根据权利要求1 1所述的装置, 所述装置还 包括:权 利 要 求 书 2/4 页 3 CN 114444503 A 3
专利 目标信息识别方法、装置、设备、可读存储介质及产品
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:33:39
上传分享
举报
下载
原文档
(770.7 KB)
分享
友情链接
T-ZACA 010—2019 审核员服务行为规范.pdf
OWASP 软件保障成熟度模型 SAMM 2.0中文版.pdf
数世咨询 LLM驱动数字安全2024——AI安全系列报告.pdf
GB-T 37933-2019 信息安全技术 工业控制系统专用防火墙技术要求.pdf
GB-T 14206-2015 玻璃纤维增强聚酯连续板.pdf
GB-T 39243-2020 船用生物可溶性矿物棉制品技术要求及试验方法.pdf
T-STIC 120051—2021 民用船舶设计服务规范.pdf
DB22-T 1034-2011 车用乙醇汽油中甲醇含量测定法(现场快速法) 吉林省.pdf
GB T 27930.2 -XXXX 电动汽车非车载传导式充电机与车辆之间的数字通信协议 第2部分 Chaojix系统.pdf
JR-T 0002-2016 银行卡自动柜员机(ATM)终端技术规范.pdf
GB-T 22151-2008 国际货运代理作业规范.pdf
GB-T 26281-2021 水泥回转窑热平衡、热效率、综合能耗计算方法.pdf
YD-T 4301-2023 量子保密通信网络架构.pdf
T-QGCML 1684—2023 LED大型广告牌制作工艺.pdf
T-UNP 22—2022 跨境电子商务 交易产品 知识产权侵权鉴定管理规范.pdf
专利 一种API接口安全验证处理方法及装置.PDF
GB-T 31013-2014 声学 管道、阀门和法兰的隔声.pdf
GB-T 41870-2022 工业互联网平台 企业应用水平与绩效评价.pdf
DB15-T 1109-2017 信用信息系统运行维护管理规范 内蒙古自治区.pdf
DB64-T 1963—2023 机关事务信息化系统运行管理规范 宁夏回族自治区.pdf
交流群
-->
1
/
21
评价文档
赞助2元 点击下载(770.7 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。