专利 基于预测模型的文本匹配方法、装置、设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210040367.0 (22)申请日 2022.01.14 (71)申请人平安普惠企业管理有限公司地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室（入驻深圳市前海商务秘书有限公司） (72)发明人沈佳　 (74)专利代理机构深圳国新南方知识产权代理有限公司 4 4374 代理人李小东 (51)Int.Cl. G06F 40/194(2020.01) G06F 40/30(2020.01) (54)发明名称基于预测模型的文本匹配方法、装置、设备及存储介质 (57)摘要本发明涉及人工智能技术领域，具体公开了一种基于预测模型的文本匹配方法、装置、设备及存储介质。该方法包括：获取预训练样本；将预训练样本输入预构建好的预测模型中，得到各词语的语义向量，根据语义向量分别进行掩码标记预测以及文本样本的相似度预测，获得第一预测结果以及第二预测结果；根据第一预测结果和第二预测结果计算目标损失函数，采用目标损失函数对预测模型进行训练，得到目标预测模型；获取包含两个待匹配文本的待预测文本并输入目标预测模型中，获得两个待匹配文本的相似度预测结果，根据相似度预测结果确定两个待匹配文本是否匹配。通过上述方式，本发明能够提高模型的泛化能力、降低过拟合风险以及提高训练效率。权利要求书2页说明书8页附图4页 CN 114398866 A 2022.04.26 CN 114398866 A 1.一种基于预测模型的文本匹配方法，其特征在于，包括：从训练数据集中随机获取包含有两个文本样本的训练样本，对两个所述文本样本进行预处理，获得包含有掩码标记以及头部标记的预训练样本；将所述预训练样本输入预构建好的预测模型中，得到所述预训练样本中各个词语的语义向量，根据所述掩码标记对应的所述语义向量对所述掩码标记进行预测，获得第一预测结果，根据所述头部标记对应的所述语义向量对两个所述文本样本的相似度进行预测，获得第二预测结果；根据所述第一预测结果和所述第二预测结果计算目标损失函数，采用所述目标损失函数对所述预测模型进行训练，基于反向传播算法调整训练后的所述预测模型的参数，得到目标预测模型；获取两个待匹配文本，对两个所述待匹配文本进行预处理，获得待预测文本，将所述待预测文本输入所述目标预测模型中，获得两个所述待匹配文本的相似度预测结果，根据所述相似度预测结果确定两个所述待匹配文本是否匹配。 2.根据权利要求1所述的文本匹配方法，其特征在于，所述从训练数据集中随机获取包含有两个文本样本的训练样本，对两个所述文本样本进行预处理，获得包含有掩码标记以及头部标记的预训练样本包括：从训练数据集中随机获取包含有两个文本样本的训练样本，分别对两个所述文本样本中的词进行掩码处理，获得含有掩码标记的两个所述文本样本并将所述文本样本进行拼接处理，得到拼接样本；在所述拼接样本的头部进行标记处理，获得含有头部标记的预训练样本。 3.根据权利要求1所述的文本匹配方法，其特征在于，在所述从训练数据集中随机获取包含有两个文本样本的训练样本之前，还包括：获取电话语音中的文本样本，将所述文本样本进行两两组合形成样本对，根据每个所述样本对中的两个所述文本样本的相似度对所述样本对进行标签标注处理，将包含有标签的所述样本对作为训练样本；对所述训练样本进行预处理，将预处理后的所有所述训练样本形成训练数据集并存储于语料库中。 4.根据权利要求1所述的文本匹配方法，其特征在于，所述根据所述第一预测结果和所述第二预测结果计算目标损失函数包括：根据所述第一预测结果计算第一损失函数，所述第一损失函数为所述第一预测结果的交叉熵；根据所述第二预测结果计算所述第二损失函数，所述第二损失函数为所述第二预测结果的交叉熵；根据所述第一损失函数和所述第二损失函数计算所述目标损失函数，所述目标损失函数为所述第一损失函数与所述第二损失函数之和。 5.根据权利要求1所述的文本匹配方法，其特征在于，所述获取两个待匹配文本，对两个所述待匹配文本进行预处理，获得待预测文本包括：获取用户输入的第一待匹配文本，将所述第一待匹配文本与语料库中的所有第二待匹配文本进行一一配对，形成文本对；权　利　要　求　书 1/2 页 2 CN 114398866 A 2将每个文本对中的所述第一待匹配文本和所述第二待匹配文本进行拼接处理，获得多个拼接样本，在各所述拼接样本的头部进行标记处理，获得含有头部标记的待预测文本。 6.根据权利要求5所述的文本匹配方法，其特征在于，所述将所述待预测文本输入所述目标预测模型中，获得两个所述待匹配文本的相似度预测结果，根据所述相似度预测结果确定两个所述待匹配文本是否匹配包括：将所述待预测文本输入所述目标预测模型中，得到所述待预测文本中各个词语的语义向量，将所有所述头部标记对应的所述语义向量进行全连接处理并对两个所述待匹配文本的相似度进行预测，获得第一预测标签、第二预测标签、与所述第一预测标签对应的第一概率值以及与所述第二预测标签对应的第二概率值；根据所述第一预测标签、所述第二预测标签、所述第一概率值以及所述第二概率值确定两个所述待匹配文本是否匹配。 7.根据权利要求6所述的文本匹配方法，其特征在于，所述根据所述第一预测标签、所述第二预测标签、所述第一概率值以及所述第二概率值确定两个所述待匹配文本是否匹配包括：根据所述第一概率值和所述第二概率值中较大的一个概率值确定两个所述待匹配文本是否匹配；若两个所述待匹配文本相匹配，则将所述概率值作为两个所述待匹配文本的相似度，并统计所有确定两个所述待匹配文本相匹配的相似度，选择最大的相似度对应的所述第二待匹配文本作为所述第一待匹配文本的目标匹配文本。 8.一种基于预测模型的文本匹配装置，其特征在于，包括：获取模块，用于从训练数据集中随机获取包含有两个文本样本的训练样本，对两个所述文本样本进行预处理，获得包含有掩码标记以及头部标记的预训练样本；第一预测模块，用于将所述预训练样本输入预构建好的预测模型中，得到所述预训练样本中各个词语的语义向量，根据所述掩码标记对应的所述语义向量对所述掩码标记进行预测，获得第一预测结果，根据所述头部标记对应的所述语义向量对两个所述文本样本的相似度进行预测，获得第二预测结果；训练模块，用于根据所述第一预测结果和所述第二预测结果计算目标损失函数，采用所述目标损失函数对所述预测模型进行训练，基于反向传播算法调整训练后的所述预测模型的参数，得到目标预测模型；第二预测模块，用于获取两个待匹配文本，对两个所述待匹配文本进行预处理，获得待预测文本，将所述待预测文本输入所述目标预测模型中，获得两个所述待匹配文本的相似度预测结果，根据所述相似度预测结果确定两个所述待匹配文本是否匹配。 9.一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求 1‑7任一项所述的基于预测模型的文本匹配方法。 10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1 ‑7中任一项所述的基于预测模型的文本匹配方法。权　利　要　求　书 2/2 页 3 CN 114398866 A 3

专利 基于预测模型的文本匹配方法、装置、设备及存储介质

专利基于预测模型的文本匹配方法、装置、设备及存储介质