专利 保护数据隐私的两方联合训练业务预测模型的方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210711306.2 (22)申请日 2022.06.22 (71)申请人支付宝（杭州）信息技术有限公司地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人郑龙飞　王磊　王力　 (74)专利代理机构北京亿腾知识产权代理事务所(普通合伙) 11309 专利代理师陈霁　周良玉 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06F 21/62(2013.01) G06F 21/60(2013.01) G06F 21/57(2013.01)G06N 3/08(2006.01) (54)发明名称保护数据隐私的两方联合训练业务预测模型的方法及装置 (57)摘要本说明书实施例提供一种保护数据隐私的两方联合训练业务预测模型的方法及装置。该方法包括：两方各自利用本地部署的表征层处理本方的训练样本的特征部分，得到对应的表征；第二方对两方表征进行融合处理，并利用随机生成的可逆函数处理融合表征，得到混淆表征，以使第一方利用预测层处理此混淆表征，得到混淆预测结果；第二方利用可逆函数的反函数处理混淆预测结果，得到真实预测结果，以使第一方利用此真实预测结果和样本标签计算预测层的梯度和传播至表征层的目标梯度；第二方根据上述反函数以及上述融合处理的对应方式，处理目标梯度，从而确定传播至第一表征层的第一梯度和第二表征层的第二梯度，进而各方根据梯度完成本地模型参数的更新。权利要求书4页说明书11页附图5页 CN 115186876 A 2022.10.14 CN 115186876 A 1.一种保护数据隐私的两方联合训练业务预测模型的方法，所述业务预测模型包括部署在第一方中的第一表征层和预测层，以及部署在第二方中的第二表征层；所述方法应用于所述第二方，包括：利用所述第二表征层处理本方持有的训练样本的第二特征部分，得到第二表征，并对所述第二表征和第一表征进行融合处理，得到融合表征；其中第一表征由所述第一方利用所述第一表征层处理其持有的所述训练样本的第一特征部分而得到；利用随机生成的可逆函数处理所述融合表征，得到混淆表征；利用所述可逆函数的反函数处理混淆预测结果，得到真实预测结果，所述混淆预测结果由所述第一方利用所述预测层处理所述混淆表征而得到；根据所述反函数以及所述融合处理的对应方式，处理目标梯度，从而确定传播至所述第一表征层的第一梯度和第二表征层的第二梯度，并将所述第一梯度发送至所述第一方，其中目标梯度由所述第一方基于所述真实预测结果和样本标签得到。 2.根据权利要求1所述的方法，其中，根据所述反函数以及所述融合处理的对应方式，处理目标梯度，从而确定传播至所述第一表征层的第一梯度和第二表征层的第二梯度，包括：利用所述反函数处理传播至表征层的与所述混淆表征对应的目标梯度，得到所述还原梯度；根据所述融合处理的对应方式，基于所述还原梯度确定所述第一梯度和第二梯度。 3.根据权利要求1或2所述的方法，其中，所述第二方中还部署可信执行环境TE E；其中，在对所述第二表征和第一表征进行融合处理，得到融合表征之前，所述方法还包括：从所述第一方接收第一加密表征，其通过利用所述TEE环境提供的公钥加密所述第一表征而得到；其中，对所述第二表征和第一表征进行融合处理，得到融合表征，包括：在所述TEE环境中，利用与所述公钥对应的私钥解密所述第一加密表征，得到所述第一表征，并对所述第一表征和加载到所述TE E环境中的第二表征进行所述融合处理，得到所述融合表征。 4.根据权利要去3所述的方法，其中，所述得到混淆表征、得到真实预测结果和得到所述还原梯度均在所述TE E环境中执行。 5.根据权利要求2所述的方法，其中，对所述第二表征和第一表征进行融合处理，得到融合表征，包括：对所述第二表征和第一表征进行求平均处理，得到所述融合表征；其中，根据所述融合处理的对应方式，基于所述还原梯度确定所述第一梯度和第二梯度，包括：将所述还原梯度的一半分别确定为所述第一梯度和第二梯度。 6.根据权利要求2所述的方法，其中，对所述第二表征和第一表征进行融合处理，得到融合表征，包括：对所述第二表征和第一表征进行求和，得到所述融合表征；其中，根据所述融合处理的对应方式，基于所述还原梯度确定所述第一梯度和第二梯度，包括：将所述还原梯度分别确定为所述第一梯度和第二梯度。权　利　要　求　书 1/4 页 2 CN 115186876 A 27.根据权利要求2所述的方法，其中，利用随机生成的可逆函数处理所述融合表征，得到混淆表征，包括：随机生成满秩矩阵；利用随机生成的满秩矩阵对所述融合表征进行乘积处理，得到所述混淆表征；其中，利用所述可逆函数的反函数处理混淆预测结果，得到真实预测结果，包括：利用所述满秩矩阵的逆矩阵对所述混淆预测结果进行乘积处理，得到所述真实预测结果；其中，利用所述反函数处理传播至表征层的与所述混淆表征对应的目标梯度，得到所述还原梯度，包括：利用所述逆矩阵对所述目标梯度进行乘积处理，得到所述还原梯度。 8.根据权利要求7所述的方法，其中，所述融合表征为n*m维矩阵；其中，随机生成满秩矩阵，包括：对n阶单位矩阵和随机生成的(N ‑n)*n维矩阵进行拼接，得到N*n维的拼接矩阵；对所述拼接矩阵按照行的方向打乱重组，得到所述满秩矩阵。 9.根据权利要求1所述的方法，其中，在确定传播至所述第一表征层的第一梯度和第二表征层的第二梯度之后，所述方法还包括：利用所述第二梯度更新所述第二表征层中的模型参数。 10.根据权利要求1所述的方法，其中，利用所述可逆函数的反函数处理混淆预测结果，得到真实预测结果，包括：利用所述反函数处理所述混淆预测结果，得到真实的原始预测结果；在所述原始预测结果中添加符合差分隐私机制的噪声，得到所述真实预测结果。 11.根据权利要求10所述的方法，其中，将所述第一梯度发送至所述第一方，包括：将所述第一梯度更新为在其基础上添加有符合差分隐私机制的噪声的梯度；将更新后的第一梯度发生至所述第一方。 12.一种保护数据隐私的两方联合训练业务预测模型的方法，所述业务预测模型包括部署在第一方中的第一表征层和预测层，以及部署在第二方中的第二表征层；所述方法应用于所述第一方，包括：利用所述第一表征层处理本方持有的训练样本的第一特征部分，得到第一表征；利用所述预测层处理从所述第二方接收的混淆表征，得到混淆预测结果；其中混淆表征由所述第二方利用随机生成的可逆函数处理融合表征而得到，所述融合表征是对第一表征和第二表征进行融合处理而得到，所述第二表征是利用所述第二表征层处理所述训练样本的第二特征部分而到；利用真实预测结果和所述训练样本的样本标签计算传播至表征层的目标梯度；所述真实预测结果由所述第二方利用所述可逆函数的反函数处理所述混淆预测结果而得到；利用从所述第二方接收第一梯度，更新所述第一表征层中的模型参数；所述第一梯度由所述第二方根据所述反函数以及所述融合处理的对应方式处理所述目标梯度而得到。 13.根据权利要求1 1所述的方法，其中，还包括：利用所述真实预测结果和所述样本标签计算所述预测层的训练梯度；利用所述训练梯度更新所述预测层中的模型参数。 14.一种保护数据隐私的多方联合训练业务预测模型的方法，所述业务预测模型包括部署在第一方中的第一特征表征层和预测层，以及部署在第二方中的第二特征表征层；所述方法应用于所述多方中的可信第三方，包括：权　利　要　求　书 2/4 页 3 CN 115186876 A 3

专利 保护数据隐私的两方联合训练业务预测模型的方法及装置

专利保护数据隐私的两方联合训练业务预测模型的方法及装置