专利 一种基于循环注意力的方面级情感分析系统和方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210088035.X (22)申请日 2022.01.25 (71)申请人重庆大学地址 400044 重庆市沙坪坝区沙正街174号 (72)发明人古平　李强　阳松　王江兴　张程　 (74)专利代理机构重庆市前沿专利事务所(普通合伙) 50211 代理人郭云　肖秉城 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于循环注意力的方面级情感分析系统和方法 (57)摘要本发明公开一种基于循环注意力的方面级情感分析系统和方法，包括循环注意力模块、方面挖掘注意力模块和特征融合分类模块；其中，所述循环注意力模块，基于GRU的门控机制，对文本进行注意力操作，得到更新的依赖矩阵，以调整图卷积神经网络卷积过程中对不同依赖的关注度；所述方面挖掘注意力模块，用于将每一层图卷积神经网络对句子方面的编码分别作为 Query，对文本做注意力操作，挖掘文本中关于方面情感的语义信息，输出语义特征；所述特征融合分类模块，使用全连接层对语义特征进行融合处理，再进行情感分类。权利要求书4页说明书10页附图2页 CN 114429122 A 2022.05.03 CN 114429122 A 1.一种基于循环注意力的方面级情感分析系统，其特征在于，包括循环注意力模块、方面挖掘注意力模块和特征融合分类模块；其中，所述循环注意力模块，用于对文本进行注意力操作，得到更新的依赖矩阵；所述方面挖掘注意力模块，用于将每一层图卷积神经网络对句子方面的编码分别作为 Query，对文本做注意力操作，挖掘文本中关于方面情感的语义信息，输出语义特征；所述特征融合分类模块，使用全连接层对语义特征进行融合处理，再进行情感分类。 2.如权利要求1所述的一种基于循环注意力的方面级情感分析系统，其特征在于，还包括数据预处理模块、词向量构建模块、上下文编码模块、卷积池化模块和图卷积模块；所述数据预处理模块，用于对输入的文本进行分词、去噪，构建基于三元组<词序列，依赖矩阵，目标方面>的输入词序列；所述词向量构建模块，用于使用预训练的GloVe向量将输入词序列转换成对应的词向量序列；所述上下文编码模块，用于对输入的词向量序列进行重新编码，输出包含上下文关系的词语编码向量；所述卷积池化模块，利用上下文中的情感特征激活循环注意力模块；所述图卷积模块，用于利用循环注意力模块更新得到的依赖矩阵更新情感上下文。 3.如权利要求2所述的一种基于循环注意力的方面级情感分析系统，其特征在于，还包括位置信息融合模块，用于对图卷积模块更新的情感上下文注入位置信息。 4.如权利要求1所述的一种基于循环注意力的方面级情感分析系统，其特征在于，所述情感分类包括消极、中性、积极。 5.一种基于循环注意力的方面级情感分析方法，其特征在于，具体包括以下步骤： S1：输入待进行情感分析的文本，并指定输入文本中的目标方面； S2：对文本进行数据预处理，构建输入序列； S3：对S2中的输入序列进行词向量构建得到词向量序列，再对词向量序列进行编码，得到具有上下文关系的词语编码向量集合HE； S4：对词语编码向量集合HE进行卷积操作，获得包含情感特征的卷积结果集合HC，再对卷积向量集合HC进行最大池化，得到循环注意力模型的初始状态e0，用以激活循环注意力，从而输出 et到图卷积模块； S5：图卷积模块利用循环注意力模块的输出et作为查询，对每一个词向量的依赖词做注意力增强的图卷积，输出词向量表示第L层图卷积网络在位置i的输出词向量； S6：将图卷积模块中每一层图卷积神经网络对句子方面的编码分别作为查询，从而对词语编码向量集合HE进行注意力操作，输出语义特征； S7：对语义特征进行融合处理，得到文本的情感分析类别。 6.如权利要求5所述的一种基于循环注意力的方面级情感分析方法，其特征在于，所述 S2中，词序列的构建方法为：对文本内容进行分词、去噪，解析获取句子的句法依赖树，利用句法依赖树构建n ×n的依赖矩阵A，其中n代表句子中词语的数目，最后输入句子对应的词序列sentenc e、依赖矩阵A、目标方面aspect _indices，组合成三元组<sentenc e， A， aspect_ indices>作为输入词序列。权　利　要　求　书 1/4 页 2 CN 114429122 A 27.如权利要求5所述的一种基于循环注意力的方面级情感分析方法，其特征在于，所述 S3包括： S3‑1：使用预训练的GloVe向量将输入词序列转换成对应的词向量序列X＝[x1,x2,…, xτ+1,…,xτ+m,…,xn]，其中n代表句子的数目， τ+1表示长度为m 的方面词的开始位置， τ+m表示方面词的结束位置， xn表示第n个词向量； S3‑2：采用BI ‑LSTM编码器对词向量进行编码，编码过程如下：公式(1)中，是前向传播LSTM在位置i的输出， E表示当前向量是BI ‑LSTM编码器的输出结果，是后向传播LSTM在位置i的输出，表示前向传播LSTM在位置i的状态，表示后向传播LSTM在位置i的状态，表示向量的加操作， xi表示i位置上的词向量，表示位置 i上的具有上下文关系的词语编码向量；将各个位置的词语编码向量进行集合得到具有上下文关系的词语编码向量集合表示位置n上的具有上下文关系的词语编码向量。 8.如权利要求5所述的一种基于循环注意力的方面级情感分析方法，其特征在于，所述 S4包括： S4‑1：对S4中输出的包含上下文关系的词语编码向量进行卷积操作，获得卷积结果集合表示位置n上的卷积结果， C表示当前向量是卷积输出结果；再对卷积结果集合HC进行最大池化，得到循环注意力模型的初始状态e0，用以激活循环注意力； e0＝MAXPOOL(HC) (2) 公式(2)中，表示位置i上的包含情感特征的卷积结果， HEi:i+k表示BI‑LSTM编码器编码结果中第i到i+k的向量， Wc和bc代表卷积过程中的参数， MAXPO OL代表最大池化操作； S4‑2：循环注意力模块采用G RU架构，循环注意力模块的初始输入是HE在位置 τ +1至 τ +m的词语编码向量的均值池化，之后的每一次输入产生自图卷积神经模块的输出HL，图卷积模块和循环注意力模块交互循环更新， t时刻的状态输入是模型中t ‑1时刻的状态输出 et‑1：权　利　要　求　书 2/4 页 3 CN 114429122 A 3

专利 一种基于循环注意力的方面级情感分析系统和方法

专利一种基于循环注意力的方面级情感分析系统和方法