公共安全标准网
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210086044.5 (22)申请日 2022.01.25 (65)同一申请的已公布的文献号 申请公布号 CN 114550817 A (43)申请公布日 2022.05.27 (73)专利权人 云南大学 地址 650091 云南省昆明市翠湖北路2号 (72)发明人 罗静 彭文钰 于小娟 林国亮  颜培祺  (74)专利代理 机构 成都行之智 信知识产权代理 有限公司 5125 6 专利代理师 温利平 (51)Int.Cl. G16B 20/30(2019.01) G16B 30/10(2019.01) G16B 40/00(2019.01) G16B 40/10(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01)(56)对比文件 CN 113096729 A,2021.07.09 CN 112951319 A,2021.0 6.11 CN 102231178 A,201 1.11.02 CN 113035273 A,2021.0 6.25 WO 03058201 A2,2003.07.17 CN 111199778 A,2020.0 5.26 CN 113355415 A,2021.09.07 CN 109415764 A,2019.0 3.01 CN 105861706 A,2016.08.17 CN 101384734 A,20 09.03.11 CN 109890424 A,2019.0 6.14 Yang Yang等. “Exploiting sequence- based features for predicti ng enhancer – promoter i nteracti ons”. 《Bioinformatics》 .2017, (续) 审查员 吕岩 (54)发明名称 基于多特征的CTCF介导染色质环预测方法 (57)摘要 本发明公开了一种基于多特征的CTCF介导 染色质环预测方法, 对于待预测的细胞系收集蛋 白质数据和样本DNA序列, 在样本DNA序列中确定 4个关键位点及对应的CTCF  motif数据, 根据所 有样本DNA序列的CTCF  motif数据训练Word2Vec 模型和Doc2Vec模型, 对于每个样本DNA序列分别 提取其序列特征和蛋白质特征, 然后拼接得到该 样本DNA序列的特征向量, 将样本DNA序列的特征 向量作为输入、 将CTC F介导染色质环是否存在的 样本标签作为期望输出, 对构建的CTCF介导染色 质环预测模 型进行训练, 当需要对待预测的细胞 系某个DNA序列中两个位点之前是否存在CTCF介 导染色质环进行预测时, 采用相同方法得到特征 向量, 输入训练好的CTCF介导染色质环预测模型得到预测结果。 本发明可有效提高CTCF介导染色 质环的预测准确率。 [转续页] 权利要求书3页 说明书10页 附图3页 CN 114550817 B 2022.12.23 CN 114550817 B (56)对比文件 安相静等. “基于互模式熵的DNA序列相似性分析”. 《智能计算机与应用》 .2019,第9卷(第6 期),2/2 页 2[接上页] CN 114550817 B1.一种基于多特 征的CTCF介导染色质环预测方法, 其特 征在于, 包括以下步骤: S1: 对于待预测的细胞系, 确定该细胞系中的组蛋白数据Chip ‑Seq和结合蛋白数据 RNA‑Seq, 记两种蛋白质的总数为K, 然后收集若干包含CTCF介导染色质环的样本DNA序列和 若干未包含CTCF介导染色质环的样 本DNA序列, 分别作为正样 本和负样 本, 并设置CTCF介导 染色质环是否存在的样本标签, 将每条样本DNA序列按照预设规则进行提取得到若干条长 度为N的CTCF motif数据; 对于正样本, 根据CTCF介导染色质环的位置确定染色质环起始位点Loop  Start和结束 位点Loop  End, 对于负样本, 在两个CTCF位点中指定染色质环起始位点Loop  Start和结束 位点Loop  End; 然后获取每个样本DNA序列中CTCF介导染色质环起始位点Loop  Start左侧 的CTCF位点Left  CTCF site, 结束位点Loop  End右侧CTCF位点Right  CTCF site, 将这4个 位点作为关键位点; 对于每条样本DNA序列的4个关键位点, 分别从所有CTCF  motif数据中 匹配得到这4个关键位点对应的CTCF  motif数据, 当某个关键位点未成功匹配到CTCF   motif数据时, 将该关键位 点的CTCF motif数据采用预设字符序列代替; S2: 对于所有样本DNA序列的所有CTCF  motif数据按照预设规则 进行分词, 分词完成后 按照染色质位置形成词袋, 使用W ord2Vec训练, 得到训练好的W ord2Vec模型; 对于所有样本DNA序列的所有CTCF  motif数据, 将每条CTCF  motif数据作为一条语句, 将所有CTCF  motif数据按照染色质的位置组成上下文, 使用Doc2Vec训练, 得到训练好的 Doc2Vec模型; S3: 对于每 个样本DNA序列分别提取其序列特 征, 具体方法包括以下步骤: S3.1: 对于每个样本DNA序列中位点Left  CTCF site、 位点Loop  Start、 位点Loop  End、 位点Right  CTCF site对应的CTCF  motif数据, 提取16种双核苷酸中每种双核在该CTCF   motif数据中的数量, 构成16维的双核苷酸数向量, 分别记为SLeft、 SStart、 SEnd、 SRight, 将4条 CTCF motif数据的双核苷酸数向量 拼接得到 64维的序列双核苷酸数向量S; S3.2: 对于每个样本DNA序列, 将位点Loop  Start和位点Loop  End位点对应的双核苷酸 数向量SStart、 SEnd作为一对, 将位点Left  CTCF site和位点Right  CTCF site对应的双核苷 酸数向量SLeft、 SRight作为一对, 分别计算两对双核苷酸数向量的皮尔森相关系数作为基于 皮尔森的序列相似度PLoop、 PCTCF; S3.3: 对于每个样本DNA序列, 将位点Loop  Start和位点Loop  End对应的CTCF  motif数 据作为一对, 将位点Left  CTCF site和位点Right  CTCF site对应的CTCF  motif数据作为 一对, 分别计 算每对CTCF motif数据基于Word2vec的序列相似度WLoop、 WCTCF, 具体方法为: 对 于一对CTCF  motif数据, 如果有任意一条CTCF  motif数据为空, 则 令该对CTCF  motif数据 基于Word2vec的序列相似度为绝对小值, 否则根据训练好的Word2Vec模型获取每条CTCF   motif数据中每个词的词向量, 然后计算两条CTCF  motif数据中对应位置词的词向量相似 度, 将所有词的词向量相似度求和即可得到该对CTCF  motif数据基于Word2vec的序列相似 度; S3.4: 对于每个样本DNA序列, 将位点Loop  Start和位点Loop  End位点对应的CTCF   motif数据作为一对, 将位点Left  CTCF site和位点Right  CTCF site对应的CTC F motif数 据作为一对, 分别计 算每对CTCF motif数据基于Doc2Vec的序列相似度DLoop、 DCTCF, 具体方法 如下: 对于一对CTCF  motif数据, 如果有任意一条CTCF  motif数据为空, 则令该对CTCF  权 利 要 求 书 1/3 页 2 CN 114550817 B 3

PDF文档 专利 基于多特征的CTCF介导染色质环预测方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多特征的CTCF介导染色质环预测方法 第 1 页 专利 基于多特征的CTCF介导染色质环预测方法 第 2 页 专利 基于多特征的CTCF介导染色质环预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。