主权项: |
1.一种基于分子地图的生物样本智能识别方法,其特征在于:根据生物样本分子地图所蕴含的空间特征,而这些特征在不同类生物样本中呈现不同的分布模式,对未知样本进行识别与分类。 2.根据权利要求1所述的基于分子地图的生物样本智能识别方法,其特征在于:生物样本提取物利用色谱-质谱仪器进行分析,根据得到的色谱-质谱(X-MS)数据,建立带有时间轴的生物样本分子地图;对未知样本分子地图中的点提取点簇,然后于参照样本的分子地图上沿时间轴移动点簇,扫描参照样本的分子地图;计算点簇在扫描过程中获得的最大匹配度,对各个点簇的最大匹配度进行加权处理,获得未知样本与参照样本的整体匹配度;根据匹配度大小和参照样本的类标,对未知样本进行识别与分类。 3.根据权利要求1或2所述的基于分子地图的生物样本智能识别方法,其特征在于: 包括如下主要步骤: A、生物样本提取物利用色谱-质谱仪器或离子迁移谱-质谱仪器进行分析,得到色谱-质谱或离子迁移谱-质谱仪器(X-MS;X代表气相色谱,液相色谱,离子色谱,凝胶色谱,毛细管电泳、离子迁移谱或任意一种能够在时间维度上对分子进行分离的方法;MS代表质谱)数据;该数据中每个离子(化合物)含有保留时间(t)、质荷比(m/z)或质量(m)、强度(I)三个维度的信息;色谱-质谱(X-MS)数据中总离子的数量≥10; B、X-MS原始数据经质谱信息提取工具(如Progenesis QI2.0或Peaks Studio7.0或Metlab16b等)处理,除去噪音,除去信噪比<1.5的离子,或者缺乏碳13同位素峰的离子,得到过滤后的X-MS数据; C、以X-MS数据中的t,m/z或m分别作为第一维度(横坐标)和第二维度(纵坐标),构建分子地图;图中的每个点对应X-MS数据中的一个离子,每个点具有自己的坐标(t,m/z或m),每个点强度由点的大小或亮度的强弱表示; D、分子地图的存储与分析格式可以为任一能够代表高维数据的格式(如mzXML,xls,txt,mat,bmp或jpg等中的一种或二种以上); E、在同一型号的仪器上采用相同的操作参数和条件,按上述A-D步骤操作,针对两个以上的类别的参照生物样本(每一类别中参照样本的数量为1个或1个以上)进行分析,获取X-MS原始数据;利用图像生成软件(如Matlab2016b)将X-MS原始数据或多维信息文本转化为分子地图,得到参照样本的分子地图库; F、采用相同的操作参数和条件,按上述A-D步骤操作,针对待分析的未知样本进行分析,获取X-MS数据;利用图像生成软件将X-MS数据或多维信息文本转化为分子地图,得到未知样本的分子地图; G、利用机器学习中的图像分割工具(如Matlab2016b自带的分割程序),或聚类工具(如K-Means,DBSCAN或Fanny等中的一种或二种以上),将未知样本分子地图中的点分割为n个点簇(n≥1整数)(见示意图1); 点簇指的是在空间上距离接近的点的集合,点簇内点的个数n≥3; 每个点簇可以有自己的中心点,点簇的形状可以为任意形状; H、将提取点簇后的未知样本分子地图与参照样本分子地图库中的参照样本分子地图逐一进行分别扫描和匹配; 扫描时,将两个分子地图的原点、t轴和m/z(m)轴对齐; 扫描时,点簇作为一个整体,移动的范围为0-Tk,Tk为参照样本对应的最大分析时间; 扫描时,未知样本的每个点簇保留其m/z(或m)轴的位置和几何形状,沿时间轴(t)进行扫描; 通过扫描,寻找未知样本点簇与参照样本分子地图中能够在t和m/z(或m)能够准确匹配的共同点;扫描过程中,在未知样本中的一个点簇中的点与参照样本分子地图中的点进行匹配时,每个点允许的t绝对偏移值(t tolerance)为≥T,T等于未知样本X-MS数据采集时色谱仪允许的保留时间平均偏移值(绝对值,可用1个或1个以上标准物质,或某样本中的1个或1个以上化合物的多次重复测定计算)与参照样本X-MS数据采集时色谱仪允许的保留时间平均偏移值(绝对值,可用1个或1个以上标准物质,或某样本中的1个或1个以上化合物的多次重复测定计算)之和; 扫描过程中,在未知样本中的一个点簇中的点与参照样本分子地图中的点进行匹配时,每个点允许的m/z(或m)绝对测定误差[m/z(或m)tolerance]≥A,A等于未知和参照样本X-MS数据采集时质谱仪扫描时允许的质量平均偏差(绝对值,可由仪器所用的校正液多次重复测定)之和; 当未知样本点簇内一个点与参照样本的某个点满足t偏差和m/z(或m)偏差时,认为该点符合匹配要求; 扫描时,点簇沿时间轴(t)扫描的步长≤T,通常情况下,0s<T<10000s; I、当一个点簇移动到参照样本分子地图的t轴的每一个位置时,记录匹配点的个数、每个匹配点的坐标和点簇几何中心点的坐标; J、计算每一个位置时,未知样本一个点簇(i,i≥1整数)与该参照样本分子地图之间的匹配度(Si),匹配度的大小可利用统计工具(如Matlab)计算点簇(i)与参照样本分子地图所匹配的点数、或相似度(如图像相似度计算中的欧氏距离法)、或相关度(如Matlab中的2D-correlation coefficient)中的一种或二种以上进行计算; 由上述三种方法得到的匹配度分别由点数(或点数的函数)、相似度和相关度表示; 点簇匹配度大小,与点簇匹配的点数、坐标位置(t,m/z)和强度这四个变量呈线性或非线性相关;计算点数(或点数的函数)、相似度或相关度的基础是基于四个变量的关系变换; 可选用不同的匹配度计算方法分别计算点簇和参照样本分子地图的整体匹配度;匹配点的个数指的是点簇符合匹配条件点的个数;基于上述步骤,对未知样本分子地图中每一个点簇的最大匹配度(Si)进行数学加权处理(如加和、平均或取对数),得到未知样本分子地图与参照样本分子地图的整体匹配度(Sc); K、重复上述步骤,逐一分析未知样本分子地图与其它参照样本分子地图之间的匹配度,得到其与每一个参照样本的整体匹配度(Sc); L、未知样本的所属类别可不借助阈值或借助阈值进行判定; 当不借助阈值时,利用上述步骤,将未知样本与参照样本进行匹配,对匹配度从大到小进行排序,若未知样本与某一参照样本的匹配度排名越靠前,表明未知样本为与该样本的可能性越大,反之越小; 当借助阈值时,设定阈值γ,用于判断不同来源未知样本与同类参照样本匹配的可信范围; 阈值可以根据统计学的方法设定:重复上述步骤A-D,采用相同或相近的操作参数和条件,选取2个以上同类别生物样本(类别已知)作为某一类样本的训练样本,进行分析,获取X-MS原始数据;利用图像生成软件(如Matlab2016b)将X-MS原始数据或多维信息文本转化为分子地图,得到该类样本的训练分子地图集;利用训练分子地图集,与同类参照样本分子地图进行匹配,通过统计学的方法(如概率,比率等)发现匹配度分布区间,选定分布区间中匹配度的下限作为该类样本的阈值γ; 或,阈值可以利用文献报道或实验观察得到某类样本(n≥2)与参照样本匹配度分布区间(采用与步骤A-D相同或相近的操作参数和条件所得到的分析结果),选定分布区间中匹配度的下限作为该类样本的阈值γ; 将未知样本与参照样本进行匹配,匹配度按照从大到小进行排序,若未知样本与某类参照样本的匹配度排名越靠前,且Sc大于由该类参照样本测定所得的阈值γ,表明未知样本为该类样本的可能性越大,反之越小。 4.根据权利要求3所述的基于分子地图的生物样本智能识别方法,其特征在于: 参照样本为类别信息明确,获取条件同一的样本,未知样本为类别信息待明确的样本。 5.根据权利要求3所述的基于分子地图的生物样本智能识别方法,其特征在于: 色谱仪的保留时间平均偏差(绝对值)指的是色谱仪器在同样条件下重复测定同一样本时各个化合物的时间偏差的均值(绝对值),可用混合标准品进行测定。 6.根据权利要求1所述的基于分子地图的生物样本智能识别方法,其特征在于: A1:生物样本可以为各种来源于生命体或其产物的样本; A2:为满足匹配和分类的要求,不同样本之间的提取方法和条件应该一致; A3:生物样本用溶剂按照质量比1∶n的比例(0.1≤n≤10000)进行提取,得到含有来自生物样本分子的提取物。 7.根据权利要求1所属的基于分子地图的生物样本智能识别方法,其特征在于: B1:色谱仪或离子迁移谱仪器通过选择性作用,将生物样本中混合的分子进行分离,获得不同的保留时间信息t; B2:质谱仪通过电场或磁场作用,根据分子的质荷比不同进行分离和检测,获得不同的质荷比信息m/z; B3:生物样本提取物利用色谱-质谱仪器进行分析,色谱分离所用的时间(t)范围为1-10000s.离子(m/z)扫描的范围50-10000Da;得到色谱-质谱(X-MS)数据。 8.根据权利要求1所属的基于分子地图的生物样本智能识别方法,其特征在于: C1:X-MS数据中包含的离子数量越多,构建出来的分子地图信息越丰富越有利于识别; C2:噪音会引起识别偏差,利用原始X-MS数据中每个离子的信噪比或同位素分布形态进行早期除噪,越有利于提高识别的准确度; C3:该步骤不需要强制的时间校正; C4:数据库中的色谱-质谱信息或离子迁移谱-质谱信息可拓展为二维、三维或更高维度; C5:数据库中用于生成多维分子地图的矩阵或图表视为分子地图的前体数据,可是被计算机或软件转化为人类视觉上的图像,此类矩阵或图表格式的高维数据称为广义上的分子地图,数据库中的数据能够进行各种格式的转化。 |