专利名称: |
胃癌分型的蛋白标志物的筛选方法、筛选装置及其筛选的蛋白标志物的应用 |
摘要: |
本发明提供了一种胃癌分型的蛋白标志物的筛选方法、筛选装置及其筛选的蛋白标志物的应用。该筛选方法包括:从多个样本形成的蛋白表达质谱数据库中筛选出满足保留条件的蛋白,作为有效蛋白集;对有效蛋白集依次进行两次降维处理,得到降维蛋白集;对降维蛋白集进行聚类分析,得到不同类别的蛋白标志物。该方法通过从大量的胃癌样本的蛋白质谱数据库中筛选出在癌症样本中显著高表达的蛋白标志物,并根据不同蛋白标志物与生存率之间的相互关系,将胃癌分成不同类别的蛋白标志物,这些标志物在不同类别之间存在显著性差异,因而对胃癌分型更准确。 |
专利类型: |
发明专利 |
国家地区组织代码: |
北京;11 |
申请人: |
北京谷海天目生物医学科技有限公司 |
发明人: |
秦钧;汪宜;刘明伟;夏夏;宋雷;李恺;倪晓天 |
专利状态: |
有效 |
申请日期: |
2019-04-30T00:00:00+0800 |
发布日期: |
2019-08-20T00:00:00+0800 |
申请号: |
CN201910367519.6 |
公开号: |
CN110146636A |
代理机构: |
北京康信知识产权代理有限责任公司 |
代理人: |
路秀丽 |
分类号: |
G01N30/88(2006.01);G;G01;G01N;G01N30 |
申请人地址: |
102206 北京市海淀区杏石口路80号中央液态冷热源环境系统产业基地项目B区2号楼3层301—183号 |
主权项: |
1.一种胃癌分型蛋白标志物的筛选方法,其特征在于,所述筛选方法包括: 从多个样本形成的蛋白表达质谱数据库中筛选出满足保留条件的蛋白,作为有效蛋白集; 对所述有效蛋白集依次进行两次降维处理,得到降维蛋白集; 对所述降维蛋白集进行聚类分析,得到不同类别的蛋白标志物。 2.根据权利要求1所述的筛选方法,其特征在于,所述两次降维处理包括: 采用主成分分析法对有效蛋白集进行第一次降维处理,得到第一降维数据集; 采用t-SNE对所述第一降维数据集进行第二次降维处理,得到所述降维蛋白集。 3.根据权利要求1所述的筛选方法,其特征在于,所述保留条件包括质量条件和/或频次条件, 所述质量条件包括如下至少之一:具有至少两条满足质量要求的肽段且其中至少一条为满足质量要求的唯一性肽段、至少具有三条满足质量要求的肽段; 所述频次条件为至少在80%的样本中都出现的蛋白。 4.根据权利要求2所述的筛选方法,其特征在于,采用t-SNE对所述第一降维数据集进行第二次降维处理的步骤中,学习速率设为10~500,迭代次数设为7500以上,迭代停止设为100~400。 5.根据权利要求1所述的筛选方法,其特征在于,所述聚类分析的步骤中,类内平均距离≤4.58,类间平均距离≥9.68。 6.根据权利要求1至5中任一项所述的筛选方法,其特征在于,在对所述有效蛋白集依次进行两次降维处理之前,所述方法还包括:对所述有效蛋白集进行标准化处理,得到标准化的所述有效蛋白集; 优选地,所述标准化处理是指使所述有效蛋白集中的蛋白的均值为0,方差为1。 7.根据权利要求1至5中任一项所述的筛选方法,其特征在于,所述不同类别的蛋白标志物为基于方差检验P值小于10的-35次方的蛋白标志物; 优选地,所述基于方差检验P值小于10的-35次方的蛋白标志物包括: C0,H2AFZ、H2AFJ、H2AFV; C1,ACTG2、ACTA2、ACTC1; C2,FLNA、COL6A2、COL6A1; C3,TUBB2B、TUBB2A、TUBB; C4,H3F3C、H3F3A、H3F3B; C5,X; C6,PABPC1、HNRNPK、DDX39B。 8.根据权利要求7所述的筛选方法,其特征在于,所述不同类别的蛋白标志物还包括基于方差检验P值低于10的-20次方的蛋白标志物, 优选地,所述基于方差检验P值低于10的-20次方的蛋白标志物包括: C0,HIST2H2AC、HIST2H2AA3、HIST2H2AA4、HIST1H2AJ、HIST1H2AL、HIST1H2AG、HIST1H2AM、HIST1H2AI、HIST1H2AK、HIST1H2AH、HIST1H2AD、HIST1H2AA、HIST1H2AC、HIST1H2AE、HIST1H2AB、HIST3H2A、H2AFX、RPS3A、HIST1H1B、EEF1A2、RAN、LMNB1、HIST2H2AB; C1,ACTA1、DES、SYNM、MYL9、PGM5、SORBS1; C2,TPM1、MYH11、TPM2、LMOD1、TAGLN、MYH10、EHD2、COL6A3、FLNC、CNN1、HSPB6、TPM4、SYNPO2、MYLK、CALD1、DPYSL3、CRYAB、ACTN1、TF、TLN1、VCL、HSPG2、TGFBI、CKB、TPM3、KNG1、PDLIM7、ILK、RRAS、CSRP1、LUM、TTR、SOD3、MYL6、ALB、AOC3、OGN、ACTBL2; C3,TUBB3、TUBA3D、TUBA3C、TUBA3E、CAPZA2、IQGAP1、TUBB4B、GDI1、HPX、MYH9、TUBA4A、TUBB6、TUBA1A、TUBA1C、TUBA1B、TUBB4A、ANXA5、PLS3、CAPZA1、ACTR2、SRSF3、NPEPPS、CLTCL1、SERPINH1、PDLIM3、HNRNPD、TUBA8; C4,HIST3H3、HIST1H3A、HIST1H3D、HIST2H3C、HIST2H3A、HIST2H3D、HIST1H3C、HIST1H3J、HIST1H3I、HIST1H3B、HIST1H3F、HIST1H3E、HIST1H3G、HIST1H3H; C5,X; C6,HSPA8、DDX39A、EIF4A1、PABPC3、EEF1G、HNRNPM、RPN1、RPL4、NCL、ILF3、DHX9、RPS9、RPS19、RPS4X、XRCC5、HNRNPR、HSP90AA1、SYNCRIP、RPS15A、EIF4A3、GANAB、RBMX、EEF2、RPL13A、RPL7、RPS16、PSMA6、RPS24、FUBP1、EIF4A2、EIF2S1、RPL36、SRSF1、RPL7A、RPLP0、RPL6、TUBB8、ARF1、ARF3、RPSA、RAB14、EEF1A1、RPL27、DHX15、ILF2、SRSF7、STIP1、HNRNPA2B1、RPL10A、RPL23A、ARF4、RPS18、RPL38、NME1-NME2、GNB2L1、RPS6、PDIA6、HNRNPA1、PA2G4、RPS3、RAB7A、NONO、RPL9、YWHAQ、QARS、PDIA3、HNRNPA3、CCT5、RPS20、XRCC6、HSP90AB1、RPS28、PCBP2、HNRNPH2、DDX3X、ARPC1B、TAGLN2、EIF3F、DDOST、HSPA4、HNRNPA1L2、CNDP2、PPIB、CTNND1、RPS13、HSPA9、PRKDC、RPS27A、UBB、UBA52、UBC、CCT6A、RPL15、NME2、EIF3A、HNRNPC、RPL13、KHSRP、DDX5、SARNP、ALYREF、ATP2A2、ELAVL1、RUVBL2、ATP6V1A、RAB5C、UBA1、CCT8、STT3B、HSPA2、COPB2、DAD1、P4HB、RRBP1、RPL24、HSP90B1、EFHD2、PGD、DDX3Y、ANXA2、EEF1D、ARCN1、YWHAB、PKM、PSMA7、IDH1、SARS、SNRNP200、PSMD2、HNRNPF、TMED10、HNRNPH1、ENO1、EIF6、HNRNPH3、PGK2、PARP1、HDLBP、STT3A、PRDX6、HSPD1、PGK1、PHB、PPA1、HSPE1、DNM2、CAPN1、OTUB1、ATP6V1B2。 9.一种人群中胃癌的分型方法,其特征在于,所述分型方法包括利用权利要求1至8中任一项所述的胃癌分型蛋白标志物的筛选方法所筛选到的不同类别的蛋白标志物进行分型,得到不同的分型。 10.一种对个体胃癌样本进行分型的方法,包括按照胃癌分型标准进行分型,其特征在于,所述胃癌分型标准为权利要求1至8中任一项所述的筛选方法筛选到的不同类别的蛋白标志物所划分的不同的分型,或者为权利要求9所述的人群中胃癌的分型方法所获得的不同的分型。 11.一种对个体胃癌样本进行分型的方法,其特征在于,所述方法包括: 根据权利要求9所述的人群中胃癌的分型方法对已知胃癌样本集进行分型; 从待测胃癌样本的蛋白质谱数据中筛选出符合保留条件的蛋白,作为待测蛋白集; 按照与所述已知胃癌样本集中的所述有效蛋白集相同的条件,对所述待测蛋白集依次进行两次降维处理,得到所述待测胃癌样本的降维蛋白集; 对所述待测胃癌样本的降维蛋白集进行聚类分析,得到与所述已知胃癌样本集中相似度最高的分型即为所述待测胃癌样本对应的分型。 12.根据权利要求11所述的方法,其特征在于,所述两次降维处理包括: 采用主成分分析法对所述待测蛋白集进行第一次降维处理,得到第一降维数据集; 采用t-SNE对所述第一降维数据集进行第二次降维处理,得到所述降维蛋白集。 13.根据权利要求11所述的方法,其特征在于,所述保留条件包括质量条件和/或频次条件, 所述质量条件包括如下至少之一:具有至少两条满足质量要求的肽段且其中至少一条为满足质量要求的唯一性肽段、至少具有三条满足质量要求的肽段; 所述频次条件为至少在所述已知胃癌样本集中80%的样本中都出现的蛋白。 14.根据权利要求12所述的方法,其特征在于, 采用与对所述已知胃癌样本集中的蛋白质谱数据进行主成分分析降维处理相同的参数,对所述待测胃癌样本的蛋白质谱数据进行所述第一次降维处理,得到第一降维数据集。 15.根据权利要求12所述的方法,其特征在于,采用与对所述已知胃癌样本集中的蛋白质谱数据进行t-SNE降维处理相同的参数,对所述第一降维数据进行所述第二次降维处理,得到所述降维蛋白集。 16.根据权利要求11所述的方法,其特征在于,所述聚类分析的步骤中,类内平均距离≤4.58,类间平均距离≥9.68。 17.根据权利要求11至16中任一项所述的方法,其特征在于,在对所述有效蛋白集依次进行两次降维处理之前,所述方法还包括:对所述有效蛋白集进行标准化处理,得到标准化的所述有效蛋白集; 优选地,所述标准化处理是指使所述有效蛋白集中的蛋白的均值为0,方差为1。 18.一种检测胃癌的试剂、试剂盒或芯片,其特征在于,所述试剂、试剂盒或芯片包括权利要求1至8中任一项所述的筛选方法筛选得到的不同类别的蛋白标志物。 19.根据权利要求18所述的试剂、试剂盒或芯片,其特征在于,所述检测包括分型诊断、生存预后评估及化疗治疗用药筛选中的任意一种或多种。 20.权利要求1至8中任一项所述的方法筛选得到的不同类别的蛋白标志物在制备用于检测胃癌的试剂、试剂盒或芯片中的应用。 21.根据权利要求20所述的应用,其特征在于,所述蛋白标志物为表达量在所属类别中显著高于在其余类别中的蛋白标志物。 22.根据权利要求20或21所述的应用,其特征在于,所述检测包括分型诊断、生存预后评估及化疗治疗用药筛选中的任意一种或多种。 23.一种胃癌分型蛋白标志物的筛选装置,其特征在于,所述筛选装置包括: 筛选模块A,用于从多个样本形成的蛋白表达质谱数据库中筛选出满足保留条件的蛋白,作为有效蛋白集; 降维模块A,用于对所述有效蛋白集依次进行两次降维处理,得到降维蛋白集; 聚类分型模块A,用于对所述降维蛋白集进行聚类分析,得到不同类别的蛋白标志物。 24.根据权利要求23所述的筛选装置,其特征在于,所述降维模块A包括: 主成分降维模块A,用于采用主成分分析法对有效蛋白集进行第一次降维处理,得到第一降维数据集; t-SNE降维模块A,用于采用t-SNE对所述第一降维数据集进行第二次降维处理,得到所述降维蛋白集。 25.根据权利要求23所述的筛选装置,其特征在于,所述保留条件包括质量条件和/或频次条件, 所述质量条件包括如下至少之一:具有至少两条满足质量要求的肽段且其中至少一条为满足质量要求的唯一性肽段、具有三条满足质量要求的肽段; 所述频次条件为至少在80%的样本中都出现的蛋白。 26.根据权利要求24所述的筛选装置,其特征在于,所述t-SNE降维模块A中:学习速率设为10~500,迭代次数设为7500以上,迭代停止设为100~400。 27.根据权利要求23所述的筛选装置,其特征在于,所述聚类分型模块A中,类内平均距离≤4.58,类间平均距离≥9.68。 28.根据权利要求23至27中任一项所述的筛选装置,其特征在于,所述筛选装置还包括:标准化处理模块A,用于对所述有效蛋白集进行标准化处理,得到标准化的所述有效蛋白集; 优选地,所述标准化处理模块A用于指使所述有效蛋白集中的蛋白的均值为0,方差为1。 29.根据权利要求23至27中任一项所述的筛选装置,其特征在于,所述不同类别的蛋白标志物为基于方差检验P值小于10的-35次方的蛋白标志物; 优选地,所述基于方差检验P值小于10的-35次方的蛋白标志物包括: C0,H2AFZ、H2AFJ、H2AFV; C1,ACTG2、ACTA2、ACTC1; C2,FLNA、COL6A2、COL6A1; C3,TUBB2B、TUBB2A、TUBB; C4,H3F3C、H3F3A、H3F3B; C5,X; C6,PABPC1、HNRNPK、DDX39B。 30.根据权利要求29所述的筛选装置,其特征在于,所述不同类别的蛋白标志物还包括基于方差检验P值低于10的-20次方的蛋白标志物, 优选地,所述基于方差检验P值低于10的-20次方的蛋白标志物包括: 0,HIST2H2AC、HIST2H2AA3、HIST2H2AA4、HIST1H2AJ、HIST1H2AL、HIST1H2AG、HIST1H2AM、HIST1H2AI、HIST1H2AK、HIST1H2AH、HIST1H2AD、HIST1H2AA、HIST1H2AC、HIST1H2AE、HIST1H2AB、HIST3H2A、H2AFX、RPS3A、HIST1H1B、EEF1A2、RAN、LMNB1、HIST2H2AB; C1,ACTA1、DES、SYNM、MYL9、PGM5、SORBS1; C2,TPM1、MYH11、TPM2、LMOD1、TAGLN、MYH10、EHD2、COL6A3、FLNC、CNN1、HSPB6、TPM4、SYNPO2、MYLK、CALD1、DPYSL3、CRYAB、ACTN1、TF、TLN1、VCL、HSPG2、TGFBI、CKB、TPM3、KNG1、PDLIM7、ILK、RRAS、CSRP1、LUM、TTR、SOD3、MYL6、ALB、AOC3、OGN、ACTBL2; C3,TUBB3、TUBA3D、TUBA3C、TUBA3E、CAPZA2、IQGAP1、TUBB4B、GDI1、HPX、MYH9、TUBA4A、TUBB6、TUBA1A、TUBA1C、TUBA1B、TUBB4A、ANXA5、PLS3、CAPZA1、ACTR2、SRSF3、NPEPPS、CLTCL1、SERPINH1、PDLIM3、HNRNPD、TUBA8; C4,HIST3H3、HIST1H3A、HIST1H3D、HIST2H3C、HIST2H3A、HIST2H3D、HIST1H3C、HIST1H3J、HIST1H3I、HIST1H3B、HIST1H3F、HIST1H3E、HIST1H3G、HIST1H3H; C5,X; C6,HSPA8、DDX39A、EIF4A1、PABPC3、EEF1G、HNRNPM、RPN1、RPL4、NCL、ILF3、DHX9、RPS9、RPS19、RPS4X、XRCC5、HNRNPR、HSP90AA1、SYNCRIP、RPS15A、EIF4A3、GANAB、RBMX、EEF2、RPL13A、RPL7、RPS16、PSMA6、RPS24、FUBP1、EIF4A2、EIF2S1、RPL36、SRSF1、RPL7A、RPLP0、RPL6、TUBB8、ARF1、ARF3、RPSA、RAB14、EEF1A1、RPL27、DHX15、ILF2、SRSF7、STIP1、HNRNPA2B1、RPL10A、RPL23A、ARF4、RPS18、RPL38、NME1-NME2、GNB2L1、RPS6、PDIA6、HNRNPA1、PA2G4、RPS3、RAB7A、NONO、RPL9、YWHAQ、QARS、PDIA3、HNRNPA3、CCT5、RPS20、XRCC6、HSP90AB1、RPS28、PCBP2、HNRNPH2、DDX3X、ARPC1B、TAGLN2、EIF3F、DDOST、HSPA4、HNRNPA1L2、CNDP2、PPIB、CTNND1、RPS13、HSPA9、PRKDC、RPS27A、UBB、UBA52、UBC、CCT6A、RPL15、NME2、EIF3A、HNRNPC、RPL13、KHSRP、DDX5、SARNP、ALYREF、ATP2A2、ELAVL1、RUVBL2、ATP6V1A、RAB5C、UBA1、CCT8、STT3B、HSPA2、COPB2、DAD1、P4HB、RRBP1、RPL24、HSP90B1、EFHD2、PGD、DDX3Y、ANXA2、EEF1D、ARCN1、YWHAB、PKM、PSMA7、IDH1、SARS、SNRNP200、PSMD2、HNRNPF、TMED10、HNRNPH1、ENO1、EIF6、HNRNPH3、PGK2、PARP1、HDLBP、STT3A、PRDX6、HSPD1、PGK1、PHB、PPA1、HSPE1、DNM2、CAPN1、OTUB1、ATP6V1B2。 31.一种人群胃癌分型装置,其特征在于,所述胃癌分型装置包括: 筛选模块B,用于从多个样本形成的蛋白表达质谱数据库中筛选出满足保留条件的蛋白,作为有效蛋白集; 降维模块B,用于对所述有效蛋白集依次进行两次降维处理,得到降维蛋白集; 聚类分型模块B,用于对所述降维蛋白集进行聚类分析,得到按照不同类别的蛋白标志物所划分的不同的分型。 32.根据权利要求31所述的胃癌分型装置,其特征在于,所述降维模块B包括: 主成分降维模块B,用于采用主成分分析法对有效蛋白集进行第一次降维处理,得到第一降维数据集; t-SNE降维模块B,用于采用t-SNE对所述第一降维数据集进行第二次降维处理,得到所述降维蛋白集。 33.根据权利要求31所述的胃癌分型装置,其特征在于,所述保留条件包括质量条件和/或频次条件, 所述质量条件包括如下至少之一:具有至少两条满足质量要求的肽段且其中至少一条为满足质量要求的唯一性肽段、至少具有三条满足质量要求的肽段; 所述频次条件为至少在80%的样本中都出现的蛋白。 34.根据权利要求32所述的胃癌分型装置,其特征在于,所述t-SNE降维模块B中:学习速率设为10~500,迭代次数设为7500以上,迭代停止设为100~400。 35.根据权利要求31所述的胃癌分型装置,其特征在于,所述聚类分型模块B中,类内平均距离≤4.58,类间平均距离≥9.68。 36.根据权利要求31至35中任一项所述的胃癌分型装置,其特征在于,所述胃癌分型装置还包括标准化处理模块B,用于对所述有效蛋白集进行标准化处理,得到标准化的所述有效蛋白集; 优选地,所述标准化处理模块B用于使所述有效蛋白集中的蛋白的均值为0,方差为1。 37.根据权利要求31至35中任一项所述的胃癌分型装置,其特征在于,所述不同类别的蛋白标志物为基于方差检验P值小于10的-35次方的蛋白标志物; 优选地,所述基于方差检验P值小于10的-35次方的蛋白标志物包括: C0,H2AFZ、H2AFJ、H2AFV; C1,ACTG2、ACTA2、ACTC1; C2,FLNA、COL6A2、COL6A1; C3,TUBB2B、TUBB2A、TUBB; C4,H3F3C、H3F3A、H3F3B; C5,X; C6,PABPC1、HNRNPK、DDX39B。 38.根据权利要求37所述的胃癌分型装置,其特征在于,所述不同类别的蛋白标志物还包括基于方差检验P值低于10的-20次方的蛋白标志物, 优选地,所述基于方差检验P值低于10的-20次方的蛋白标志物包括: C0,HIST2H2AC、HIST2H2AA3、HIST2H2AA4、HIST1H2AJ、HIST1H2AL、HIST1H2AG、HIST1H2AM、HIST1H2AI、HIST1H2AK、HIST1H2AH、HIST1H2AD、HIST1H2AA、HIST1H2AC、HIST1H2AE、HIST1H2AB、HIST3H2A、H2AFX、RPS3A、HIST1H1B、EEF1A2、RAN、LMNB1、HIST2H2AB; C1,ACTA1、DES、SYNM、MYL9、PGM5、SORBS1; C2,TPM1、MYH11、TPM2、LMOD1、TAGLN、MYH10、EHD2、COL6A3、FLNC、CNN1、HSPB6、TPM4、SYNPO2、MYLK、CALD1、DPYSL3、CRYAB、ACTN1、TF、TLN1、VCL、HSPG2、TGFBI、CKB、TPM3、KNG1、PDLIM7、ILK、RRAS、CSRP1、LUM、TTR、SOD3、MYL6、ALB、AOC3、OGN、ACTBL2; C3,TUBB3、TUBA3D、TUBA3C、TUBA3E、CAPZA2、IQGAP1、TUBB4B、GDI1、HPX、MYH9、TUBA4A、TUBB6、TUBA1A、TUBA1C、TUBA1B、TUBB4A、ANXA5、PLS3、CAPZA1、ACTR2、SRSF3、NPEPPS、CLTCL1、SERPINH1、PDLIM3、HNRNPD、TUBA8; C4,HIST3H3、HIST1H3A、HIST1H3D、HIST2H3C、HIST2H3A、HIST2H3D、HIST1H3C、HIST1H3J、HIST1H3I、HIST1H3B、HIST1H3F、HIST1H3E、HIST1H3G、HIST1H3H; C5,X; C6,HSPA8、DDX39A、EIF4A1、PABPC3、EEF1G、HNRNPM、RPN1、RPL4、NCL、ILF3、DHX9、RPS9、RPS19、RPS4X、XRCC5、HNRNPR、HSP90AA1、SYNCRIP、RPS15A、EIF4A3、GANAB、RBMX、EEF2、RPL13A、RPL7、RPS16、PSMA6、RPS24、FUBP1、EIF4A2、EIF2S1、RPL36、SRSF1、RPL7A、RPLP0、RPL6、TUBB8、ARF1、ARF3、RPSA、RAB14、EEF1A1、RPL27、DHX15、ILF2、SRSF7、STIP1、HNRNPA2B1、RPL10A、RPL23A、ARF4、RPS18、RPL38、NME1-NME2、GNB2L1、RPS6、PDIA6、HNRNPA1、PA2G4、RPS3、RAB7A、NONO、RPL9、YWHAQ、QARS、PDIA3、HNRNPA3、CCT5、RPS20、XRCC6、HSP90AB1、RPS28、PCBP2、HNRNPH2、DDX3X、ARPC1B、TAGLN2、EIF3F、DDOST、HSPA4、HNRNPA1L2、CNDP2、PPIB、CTNND1、RPS13、HSPA9、PRKDC、RPS27A、UBB、UBA52、UBC、CCT6A、RPL15、NME2、EIF3A、HNRNPC、RPL13、KHSRP、DDX5、SARNP、ALYREF、ATP2A2、ELAVL1、RUVBL2、ATP6V1A、RAB5C、UBA1、CCT8、STT3B、HSPA2、COPB2、DAD1、P4HB、RRBP1、RPL24、HSP90B1、EFHD2、PGD、DDX3Y、ANXA2、EEF1D、ARCN1、YWHAB、PKM、PSMA7、IDH1、SARS、SNRNP200、PSMD2、HNRNPF、TMED10、HNRNPH1、ENO1、EIF6、HNRNPH3、PGK2、PARP1、HDLBP、STT3A、PRDX6、HSPD1、PGK1、PHB、PPA1、HSPE1、DNM2、CAPN1、OTUB1、ATP6V1B2。 39.一种对个体胃癌样本进行分型的装置,其特征在于,所述装置包括: 胃癌分型装置,用于根据已知胃癌样本集对胃癌进行分型,所述胃癌分型装置为权利要求31至38中任一项所述的胃癌分型装置; 筛选模块C,用于从待测胃癌样本的蛋白质谱数据中筛选出符合保留条件的蛋白,作为待测蛋白集; 降维模块C,用于按照与所述胃癌分型装置中对所述已知胃癌样本集中的所述有效蛋白集相同的条件,对所述待测蛋白集依次进行两次降维处理,得到所述待测胃癌样本的降维蛋白集; 聚类分型模块C,用于对所述所述待测胃癌样本的降维蛋白集进行聚类分析,得到与所述已知胃癌样本集中相似度最高的分型即为所述待测胃癌样本对应的分型。 40.根据权利要求39所述的装置,其特征在于,所述降维模块C包括: 主成分降维模块C,用于采用主成分分析法对所述待测蛋白集进行第一次降维处理,得到第一降维数据集; t-SNE降维模块C,用于采用t-SNE对所述第一降维数据集进行第二次降维处理,得到所述降维蛋白集。 41.根据权利要求39所述的装置,其特征在于,所述保留条件包括质量条件和/或频次条件, 所述质量条件包括如下至少之一:具有至少两条满足质量要求的肽段且其中至少一条为满足质量要求的唯一性肽段、至少具有三条满足质量要求的肽段; 所述频次条件为至少在所述已知胃癌样本集中80%的样本中都出现的蛋白。 42.根据权利要求40所述的装置,其特征在于,所述主成分降维模块C中,降维处理的参数设置与所述分型装置中对所述已知胃癌样本集中的蛋白质谱数据进行主成分分析降维处理的参数相同。 43.根据权利要求40所述的装置,其特征在于,所述t-SNE降维模块C中:降维处理的参数设置与所述分型装置中对所述已知胃癌样本集中的蛋白质谱数据进行t-SNE降维处理的参数相同。 44.根据权利要求39所述的装置,其特征在于,所述聚类分型模块C中,类内平均距离≤4.58,类间平均距离≥9.68。 45.根据权利要求39至44中任一项所述的装置,其特征在于,所述装置还包括标准化处理模块C,用于对所述待测蛋白集进行标准化处理,得到标准化的所述待测蛋白集; 优选地,所述标准化处理模块C用于使所述待测蛋白集中的蛋白的均值为0,方差为1。 46.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至8中任一项所述的胃癌分型蛋白标志物的筛选方法;或者所述程序执行权利要求9所述的对人群中胃癌进行分型的方法;或者所述程序执行权利要求10所述的对个体胃癌样本进行分型的方法;或者所述程序执行权利要求11至17中任一项所述的对个体胃癌样本进行分型的方法。 47.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序执行权利要求1至8中任一项所述的胃癌分型蛋白标志物的筛选方法;或者所述程序执行权利要求9所述的对人群中胃癌进行分型的方法;或者所述程序执行权利要求10所述的对个体胃癌样本进行分型的方法;或者所述程序执行权利要求11至17中任一项所述的对个体胃癌样本进行分型的方法。 |
所属类别: |
发明专利 |