公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210179810.2 (22)申请日 2022.02.25 (71)申请人 安阳师范学院 地址 455000 河南省安阳市开发区弦歌大 道436号 (72)发明人 杜丙新 汪向征 (74)专利代理 机构 深圳青年人专利商标代理有 限公司 4 4350 专利代理师 吴桂华 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/30(2020.01) (54)发明名称 一种文本标注推荐方法、 装置、 设备及存储 介质 (57)摘要 本发明适用计算机技术领域, 提供了一种文 本标注推荐方法、 装置、 设备及存储介质, 所述方 法包括: 获取待标注文本, 对待标注文本进行预 处理, 以得到词语集合, 基于词语集合通过预训 练模型获取表 示待标注文本的词语特征集, 根据 词语特征集, 获取表示待 标注文本每个句子的句 子特征, 利用预设的聚类算法对句子特征进行聚 类, 以生成各个类别对应的伪标签, 对各个类别 进行主题词挖掘, 为每个类别确定实际类别标签 和对应的主题词集合, 根据每个句子的实际类别 标签和对应的主题词集合生成待标注文本的标 注建议, 从而提高文本标注的准确性。 权利要求书2页 说明书7页 附图3页 CN 114661900 A 2022.06.24 CN 114661900 A 1.一种文本标注推荐方法, 其特 征在于, 所述方法包括: 获取待标注文本, 对所述待标注文本进行 预处理, 以得到词语集 合; 基于所述词语集合, 通过预训练模型获取表示所述待标注文本的词语特征集, 根据所 述词语特 征集, 获取表示所述待标注文本每 个句子的句子特 征; 利用预设的聚类算法对所述句子特 征进行聚类, 以生成各个 类别对应的伪标签; 对所述各个类别进行主题词挖掘, 为每个类别确定实际类别标签和对应的主题词集 合; 根据每个句子的实际类别标签和对应的主题词集 合生成所述待标注文本的标注建议。 2.如权利要求1所述的文本标注推荐方法, 其特征在于, 对所述各个类别进行主题词挖 掘, 为每个类别确定实际类别标签和对应的主题词集合的步骤之后, 根据每个句 子的实际 类别标签和对应的主题词集 合生成所述待标注文本的标注建议的步骤之前, 包括: 接收领域专家对所述实际类别标签的修改和/或合并请求, 基于所述修改和/或合并请 求, 对相应类别的实际类别标签进 行修改、 和/或对相应类别的实际类别标签以及 对应的主 题词集合进行合并, 以得到更新的实际类别标签和对应的主题词集 合。 3.如权利要求2所述的文本标注推荐方法, 其特征在于, 对相应类别的实际类别标签进 行修改、 和/或对相应类别的实际类别标签以及对应的主题词集合进 行合并的步骤之后, 还 包括: 将所述更新的实际类别标签和对应的主题词集合输入到所述预训练模型, 以使所述预 训练模型根据所述更新的实际类别标签和对应的主题词集合进行训练, 以更新所述预训练 模型。 4.如权利要求1所述的文本标注推荐方法, 其特征在于, 对所述各个类别进行主题词挖 掘, 为每个类别确定实际类别标签和对应的主题词集合的步骤之后, 根据每个句 子的实际 类别标签和对应的主题词集 合生成所述待标注文本的标注建议的步骤之前, 还 包括: 将为每个类别确定的实际类别标签和对应的主题词集合存储到预先设置的类别 ‑主题 词数据库中。 5.如权利要求4所述的文本标注推荐方法, 其特征在于, 根据每个句子的类别标签和对 应的主题词集 合生成所述待标注文本的标注建议的步骤之后, 包括: 根据标注员输入的标注结果对所述类别 ‑主题词数据库中相应类别标签和主题词集合 进行更新; 将所述类别 ‑主题词数据库中更新的类别标签和主题词集合输入到所述预训练模型, 以使所述预训练模型根据所述更新的类别标签和主题词集合进行训练, 以更新所述预训练 模型。 6.如权利要求1所述的文本标注推荐方法, 其特征在于, 所述预训练模型采取无监督学 习方式训练得到 。 7.一种文本标注推荐装置, 其特 征在于, 所述装置包括: 预处理单元, 用于获取待标注文本, 对所述待标注文本进行 预处理, 以得到词语集 合; 特征转换单元, 用于基于所述词语集合, 通过预训练模型获取表示所述待标注文本的 词语特征集, 根据所述词语特 征集, 获取表示所述待标注文本每 个句子的句子特 征; 聚类单元, 用于利用预设的聚类算法对所述句子特征进行聚类, 以生成各个类别对应权 利 要 求 书 1/2 页 2 CN 114661900 A 2的伪标签; 主题词挖掘单元, 用于对所述各个类别进行主题词挖掘, 为每个类别确定实 际类别标 签和对应的主题词集 合; 以及 标注建议生成单元, 用于根据每个句子的实际类别标签和对应的主题词集合生成所述 待标注文本的标注建议。 8.如权利要求7 所述的文本标注推荐装置, 其特 征在于, 还 包括: 优化单元, 用于接收领域专家对所述实际类别标签的修改和/或合并请求, 基于所述修 改和/或合并请求, 对相应类别的实际类别标签进行修改、 和/或对相应类别的实际类别标 签以及对应的主题词集 合进行合并, 以得到更新的实际类别标签和对应的主题词集 合。 9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器 上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至 6任一项所述文本标注推荐方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处理器执行时实现如权利要求 1至6任一项 所述文本标注推荐方法的 步骤。权 利 要 求 书 2/2 页 3 CN 114661900 A 3
专利 一种文本标注推荐方法、装置、设备及存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:33:26
上传分享
举报
下载
原文档
(656.5 KB)
分享
友情链接
AQ 1037-2007 煤矿用无极绳绞车安全检验规范.pdf
GB-T 30269.807-2018 信息技术 传感器网络 第807部分:测试:网络传输安全.pdf
GB-T 19707-2005 冰刀鞋.pdf
GB-T 33009.4-2016工业自动化和控制系统网络安全集散控制系统(DCS)第4部分风险与脆弱性检测要求.pdf
GM-T 0047-2016 安全电子签章密码检测规范.pdf
ISO 13119 2022 Health informatics — Clinical knowledge resources — Metadata.pdf
思度安全-DSMM-009 网络可用性管理规范V1.0.pdf
T-CASME 668—2023 CD3-CD4-CD8-CD16+CD56-CD19-CD45检测试剂盒 流式细胞仪法-6色.pdf
NB-T 33004—2020 电动汽车充换电设施工程施工和竣工验收规范.pdf
GB-T 3782-2016 乙炔炭黑.pdf
GB-T 30269.601-2016 信息技术 传感器网络 第601部分:信息安全:通用技术规范.pdf
T-CSTM 00373—2023 压力式中空纤维膜组件.pdf
T-IMCPNT 001—2024 中国马奶之乡特色产业示范旗建设与管理指南.pdf
GB-Z 22553-2010 利用重复性、再现性和正确度的估计值评估测量不确定度的指南.pdf
GB-T 34575-2023 轨道交通 机车车辆变流设备 机车、动车组辅助变流器.pdf
GW0202-2014 国家电子政务外网 安全接入平台技术规范.pdf
GM-T 0125.3-2022 JSON Web 密码应用语法规范 第3部分:数据加密.pdf
ISO 21511 2018 Work breakdown structures for project and programme management.pdf
YD-T 3751-2020 车联网信息服务数据安全技术要求.pdf
SL-T 341-2021 水土保持信息管理技术规程.pdf
交流群
-->
1
/
13
评价文档
赞助2元 点击下载(656.5 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。