专利名称: |
一种蛋白质糖化位点鉴定方法 |
摘要: |
本申请提供了一种蛋白质糖化位点鉴定方法,包括:收集蛋白质糖化位点数据,从所述蛋白质糖化位点数据中提取肽链获得肽链样本集,所述肽链以赖氨酸为中心;分别采用单热向量编码所述肽链的每个氨基酸,获得使用单热向量表示的肽链训练集;利用LSTM RNNs训练生产人工肽链样本,构建人工肽链样本集;将所述肽链样本集和人工肽链样本集中各肽链分割成一系列的生物学词,基于所述生物学词分别通过ProtVec构造所述肽链样本集和人工肽链样本集中各肽链的特征;基于CNN训练获得预测器、鉴定蛋白质糖化位点。本申请提供的种蛋白质糖化位点鉴定方法,用于鉴定蛋白质糖化位点,降低特征提取的繁复度,提高蛋白质糖化位点鉴定的准确度。 |
专利类型: |
发明专利 |
国家地区组织代码: |
山东;37 |
申请人: |
山东大学 |
发明人: |
杨润涛;陈金桂;张承进;张丽娜;宋勇 |
专利状态: |
有效 |
申请日期: |
2019-08-09T00:00:00+0800 |
发布日期: |
2019-11-22T00:00:00+0800 |
申请号: |
CN201910734943.X |
公开号: |
CN110488020A |
代理机构: |
北京弘权知识产权代理事务所(普通合伙) |
代理人: |
逯长明;许伟群 |
分类号: |
G01N33/68(2006.01);G;G01;G01N;G01N33 |
申请人地址: |
264200 山东省威海市文化西路180号 |
主权项: |
1.一种蛋白质糖化位点鉴定方法,其特征在于,所述方法包括: 收集蛋白质糖化位点数据,从所述蛋白质糖化位点数据中提取肽链获得肽链样本集,所述肽链以赖氨酸为中心,所述肽链的形式为P=A-ηA-(η-1)...A-2A-1KA1A2...Aη-1Aη,K为赖氨酸,η是赖氨酸上游或下游的氨基酸数量,A为20种天然氨基酸之一; 分别采用单热向量编码所述肽链的每个氨基酸,获得使用单热向量表示的肽链训练集,其中所述赖氨酸为000000000001000000000; 根据所述肽链训练集,利用LSTM RNNs训练获得人工肽链样本,构建人工肽链样本集; 将所述肽链样本集和人工肽链样本集中各肽链分割成一系列的生物学词,基于所述生物学词分别通过ProtVec构造所述肽链样本集和人工肽链样本集中各肽链的特征; 根据基于所述生物学词分别通过ProtVec构造所述肽链样本集和人工肽链样本集中各肽链的特征,基于CNN训练获得预测器,基于所述预测器鉴定蛋白质糖化位点。 2.根据权利要求1所述的蛋白质糖化位点鉴定方法,其特征在于,所述方法还包括: 当所述肽链中赖氨酸上游或下游的氨基酸数量小于η时,使用符号X对扩展所述肽链,其中X的单热向量编码为000000000000000000001。 3.根据权利要求1所述的蛋白质糖化位点鉴定方法,其特征在于,η=24。 4.根据权利要求1所述的蛋白质糖化位点鉴定方法,其特征在于,所述从所述蛋白质糖化位点数据集中提取肽链获得肽链样本集,包括: 从所述蛋白质糖化位点数据集中提取肽链,使用CD-HIT从提取的肽链中滤出相似度低于50%的肽链生成肽链样本集。 5.根据权利要求1所述的蛋白质糖化位点鉴定方法,其特征在于,利用LSTM RNNs构建人工肽链样本,获取人工肽链样本集,包括: 利用LSTM RNNs构建人工肽链样本,使用CD-HIT从人工肽链样本中滤出相似度低于50%的人工肽链样本,随机获取若干人工肽链样本形成人工肽链样本集。 6.根据权利要求5所述的蛋白质糖化位点鉴定方法,其特征在于,所述方法还包括: 将所述人工肽链样本集的人工肽链样本作为阳性样本,所述人工肽链样本集中样本的数量与所述肽链样本集中阳性样本的数量相加等于所述肽链样本集中阴性样本的数量。 7.根据权利要求6所述的蛋白质糖化位点鉴定方法,其特征在于,所述方法还包括: 使用GlyNN和Gly-PseAAC判断使用CD-HIT从人工肽链样本中滤出相似度低于50%的人工肽链样本是否为糖化肽链; 当使用GlyNN和Gly-PseAAC判断所述人工肽链样本为糖化肽链,则将所述人工肽链样本作为人工肽链样本集的样本。 |
所属类别: |
发明专利 |