(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210078144.3
(22)申请日 2022.01.24
(71)申请人 集智学园 (北京) 科技有限公司
地址 102300 北京市门头沟区石龙 经济开
发区永安路20号3号楼 A-8204室
(72)发明人 胡乔 周莉 徐恩峤
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种文本分类与术语网络生长的共演化方
法
(57)摘要
本发明公开了一种文本分类和术语网络生
长的共演化方法。 一方面, 对文本构建术语子图,
基于术语网络的特征对术语子图进行评分, 从而
实现文本分类; 另 一方面, 从分类的文本中提取
术语子图, 并使用术语子图对某个领域术语网络
进行扩充和优化。 该方法文本分类和术语网络生
成两个任务之间的共同优化, 可以实现在给定少
量领域文本和大型通用术语网络的基础上, 得到
适用于某个领域的文本分类器和可生长的领域
术语网络。 进一步地, 该方法可 以用来建立某个
领域的知识图谱、 实现某个领域文章推荐等现实
需求。
权利要求书3页 说明书8页 附图7页
CN 114416997 A
2022.04.29
CN 114416997 A
1.一种文本分类和术语网络生长的共演化方法, 其特征在于, 该方法将文本分类与术
语网络生长过程有机结合, 具体步骤 包括:
基于术语子图和术语网络对文本进行分类;
基于分类的文本提取术语子图并更新领域 术语网络;
基于更新的领域 术语网络优化文本分类 器;
利用优化的文本分类 器对文本进行分类;
上述步骤迭代进行能够实现文本分类器与术语网络的共同演化, 得到分类精度 更高的
文本分类 器与规模更 大的领域 术语网络 。
2.如权利要求1所述的文本分类和术语网络生长的共演化方法, 其特征在于, 所述步骤
1) 的文本分类算法具体步骤 包括:
1‑1) 构造算法的输入, 包括通用术语网络
、 少量带目标领域标签的文本
和待分类文本
, 初始化的领域术语网络
;
1‑2) 根据待分类文本
,构建术语 子图
;
1‑3) 术语子图领域相 关性评分, 包括术语子图中节点的领域相 关性评分, 术语子图中
连边的领域相关性评分和术语子图中三阶超图的领域相关性评分;
1‑4) 文本分类, 根据术语子图的节点、 连边和超边的得分判定待分类文本是否属于目
标领域D, 本发明的判定方法可以是 无监督分类或有监 督分类。
3.如权利要求1所述的方法, 其特征在于, 所述步骤2) 的基于分类的文本提取术语子图
并更新领域 术语网络具体步骤 包括:
2‑1) 构建样本子图, 使用上述文本分类算法将待分类文本
分
类, 得到正样本
和负样本
, 将
所有正样本的子图聚合为正样本子图
, 将所有负样本的子图聚合为负样本
子图
;
2‑2) 样本子图正则化, 对正负样本子图分别计算每个节点的kcore值, 删掉kcore小于2
的节点及其连边, 保留kcore大于等于2的节点及其连边, 正样本子图
正则化后得到
,负样本子图
正则化后得到
;
2‑3) 更新术语网络, 将步骤2 ‑2) 中得到的正样本子图
添加到现有的领域术语网络
中, 并从
中减去2中得到的负样本子图
,
, 减法表示对应连
边的权重值相减, 当被减后的连边权重小于等于0时, 删除该条连边, 当删除连边后节点的
度为0时, 删掉该节点。
4.如权利要求2所述 的方法, 其特征在于, 对于单篇文本
, 构建术语子图的具体步骤权 利 要 求 书 1/3 页
2
CN 114416997 A
2包括:
1‑2‑1) 将文本按照段落或句子进行划分;
1‑2‑2) 每个文本单元中共现的术语之间两两连接, 上一单元的最后术语和下一单元的
起始术语建立连接;
1‑2‑3) 每次连接的权 重为1, 权 重可以累加, 从而得到无向带权的术语子图
。
5.如权利要求2所述的方法, 其特征在于对术语子 图的节点、 连边、 超边的相关性评分
具体步骤如下:
1‑4‑1) 术语子图中节点的领域相关性评分
给定通用术语网G,领域术语网络
, 术语子图g, g中的节n, n在G中的邻居节点为
在
中的邻居节点 为
;
本发明使用内涵相关性和外延相关性刻画术语子图的节点对目标 领域的相关性:
节点n对目标领域的内涵相关性定义 为
;
节点n对目标领域的外延相关性定义 为
;
节点的领域相关性定义为
和
的加权和:
,
其中,
越大, 表示该节点对目标 领域的相关性越高;
1‑4‑2) 术语子图中连边的领域相关性评分
给定通用术语网络G,领域术语网络
, 术语子图g, g中的节点
; 本发明
使用内涵相关性和外延相关性刻画术语子图的连边对目标 领域的相关性:
连边e对目标 领域的的内涵相关性定义 为;
;
连边e对目标 领域的的外延相关性定义 为;
连边的领域相关性定义为:
, 其中,
越大, 表示该连边对目标领域的相
关性越高;
1‑4‑3) 术语子图中三阶超图的领域相关性评分
给定通用术语网络G,领域术语网络
, 将术语子图g看做三阶超图, g中的超边
;
超边h对目标领域的的相关性定义为
, 其权 利 要 求 书 2/3 页
3
CN 114416997 A
3
专利 一种文本分类与术语网络生长的共演化方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:46上传分享