公共安全标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210078144.3 (22)申请日 2022.01.24 (71)申请人 集智学园 (北京) 科技有限公司 地址 102300 北京市门头沟区石龙 经济开 发区永安路20号3号楼 A-8204室 (72)发明人 胡乔 周莉 徐恩峤  (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种文本分类与术语网络生长的共演化方 法 (57)摘要 本发明公开了一种文本分类和术语网络生 长的共演化方法。 一方面, 对文本构建术语子图, 基于术语网络的特征对术语子图进行评分, 从而 实现文本分类; 另 一方面, 从分类的文本中提取 术语子图, 并使用术语子图对某个领域术语网络 进行扩充和优化。 该方法文本分类和术语网络生 成两个任务之间的共同优化, 可以实现在给定少 量领域文本和大型通用术语网络的基础上, 得到 适用于某个领域的文本分类器和可生长的领域 术语网络。 进一步地, 该方法可 以用来建立某个 领域的知识图谱、 实现某个领域文章推荐等现实 需求。 权利要求书3页 说明书8页 附图7页 CN 114416997 A 2022.04.29 CN 114416997 A 1.一种文本分类和术语网络生长的共演化方法, 其特征在于, 该方法将文本分类与术 语网络生长过程有机结合, 具体步骤 包括: 基于术语子图和术语网络对文本进行分类; 基于分类的文本提取术语子图并更新领域 术语网络; 基于更新的领域 术语网络优化文本分类 器; 利用优化的文本分类 器对文本进行分类; 上述步骤迭代进行能够实现文本分类器与术语网络的共同演化, 得到分类精度 更高的 文本分类 器与规模更 大的领域 术语网络 。 2.如权利要求1所述的文本分类和术语网络生长的共演化方法, 其特征在于, 所述步骤 1) 的文本分类算法具体步骤 包括: 1‑1) 构造算法的输入, 包括通用术语网络 、 少量带目标领域标签的文本 和待分类文本 , 初始化的领域术语网络 ; 1‑2) 根据待分类文本 ,构建术语 子图 ; 1‑3) 术语子图领域相 关性评分, 包括术语子图中节点的领域相 关性评分, 术语子图中 连边的领域相关性评分和术语子图中三阶超图的领域相关性评分; 1‑4) 文本分类, 根据术语子图的节点、 连边和超边的得分判定待分类文本是否属于目 标领域D, 本发明的判定方法可以是 无监督分类或有监 督分类。 3.如权利要求1所述的方法, 其特征在于, 所述步骤2) 的基于分类的文本提取术语子图 并更新领域 术语网络具体步骤 包括: 2‑1) 构建样本子图, 使用上述文本分类算法将待分类文本 分 类, 得到正样本 和负样本 , 将 所有正样本的子图聚合为正样本子图 , 将所有负样本的子图聚合为负样本 子图 ; 2‑2) 样本子图正则化, 对正负样本子图分别计算每个节点的kcore值, 删掉kcore小于2 的节点及其连边, 保留kcore大于等于2的节点及其连边, 正样本子图 正则化后得到 ,负样本子图 正则化后得到 ; 2‑3) 更新术语网络, 将步骤2 ‑2) 中得到的正样本子图 添加到现有的领域术语网络 中, 并从 中减去2中得到的负样本子图 , , 减法表示对应连 边的权重值相减, 当被减后的连边权重小于等于0时, 删除该条连边, 当删除连边后节点的 度为0时, 删掉该节点。 4.如权利要求2所述 的方法, 其特征在于, 对于单篇文本 , 构建术语子图的具体步骤权 利 要 求 书 1/3 页 2 CN 114416997 A 2包括: 1‑2‑1) 将文本按照段落或句子进行划分; 1‑2‑2) 每个文本单元中共现的术语之间两两连接, 上一单元的最后术语和下一单元的 起始术语建立连接; 1‑2‑3) 每次连接的权 重为1, 权 重可以累加, 从而得到无向带权的术语子图 。 5.如权利要求2所述的方法, 其特征在于对术语子 图的节点、 连边、 超边的相关性评分 具体步骤如下: 1‑4‑1) 术语子图中节点的领域相关性评分 给定通用术语网G,领域术语网络 , 术语子图g,  g中的节n, n在G中的邻居节点为 在 中的邻居节点 为 ; 本发明使用内涵相关性和外延相关性刻画术语子图的节点对目标 领域的相关性: 节点n对目标领域的内涵相关性定义 为 ; 节点n对目标领域的外延相关性定义 为 ; 节点的领域相关性定义为 和 的加权和: , 其中, 越大, 表示该节点对目标 领域的相关性越高; 1‑4‑2) 术语子图中连边的领域相关性评分 给定通用术语网络G,领域术语网络 , 术语子图g,  g中的节点 ; 本发明 使用内涵相关性和外延相关性刻画术语子图的连边对目标 领域的相关性: 连边e对目标 领域的的内涵相关性定义 为; ; 连边e对目标 领域的的外延相关性定义 为; 连边的领域相关性定义为: , 其中, 越大, 表示该连边对目标领域的相 关性越高; 1‑4‑3) 术语子图中三阶超图的领域相关性评分 给定通用术语网络G,领域术语网络 , 将术语子图g看做三阶超图, g中的超边 ; 超边h对目标领域的的相关性定义为 , 其权 利 要 求 书 2/3 页 3 CN 114416997 A 3

PDF文档 专利 一种文本分类与术语网络生长的共演化方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本分类与术语网络生长的共演化方法 第 1 页 专利 一种文本分类与术语网络生长的共演化方法 第 2 页 专利 一种文本分类与术语网络生长的共演化方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:46上传分享
友情链接
交流群
  • //public.wenku.github5.com/wodemyapi/22.png
-->
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。