主权项: |
1.一种基于分子地图的生物样本快速智能识别方法,其特征在于:根据生物样本分子地图所蕴含的特征,而这些特征在不同类生物样本中呈现不同的分布模式,对待测样本进行识别与分类。 2.根据权利要求1所述的基于分子地图的生物样本快速智能识别方法,其特征在于:生物样本提取物利用色谱-质谱仪器进行分析,根据得到的色谱-质谱(X-MS)数据,建立带有时间轴的生物样本分子地图;基于深度学习技术,提取分子地图中的特征;利用已知类标的训练样本集进行训练机器学习能力;将待测样本训练样本的特征进行匹配,根据匹配结果进行快速识别与分类。 3.根据权利要求2所述的基于分子地图的生物样本快速智能识别方法,其特征在于: 包括如下主要步骤: A、生物样本提取物利用色谱-质谱仪器或离子迁移谱-质谱仪器进行分析,得到色谱-质谱或离子迁移谱-质谱仪器(X-MS;X代表气相色谱,液相色谱,离子色谱,凝胶色谱,毛细管电泳、离子迁移谱或任意一种能够在时间维度上对分子进行分离的方法;MS代表质谱)数据或多维信息文本;该数据(或多维信息文本)中每个离子(化合物)含有保留时间(t)、质荷比(m/z)或质量(m)、强度(I)三个维度的信息;X-MS数据中总离子的数量≥10; B、以X-MS数据中的t或其函数变换值,m/z(或m)或其函数变换值构建分子地图,图中的每个点对应X-MS数据中的一个离子(或分子),在分子地图中包括离子的位置,以及离子所形成的强度(用高度、颜色、亮度和大小中的一种或两种以上方式表示)、轮廓、边缘或纹理中的一种或两种以上; 分子地图构建方式可以是分别以t或其函数变换值作为第一维度(横坐标)和以m/z或其函数变换值作为第二维度(纵坐标),每个点强度用高度、颜色、亮度和大小中的一种或两种以上方式表示; 分子地图的构建方式或者是将每个离子按照t或其函数变换值的顺序或者m/z(m)或其函数变换值的顺序,于平面图中的线条上依次有序放置,对应离子形成一个像素点; C、分子地图的存储与分析格式可以为能够代表高维数据的格式(如mzXML,xls,t,mat,bmp或jpg等中的一种或二种以上); D、采用相同或相近的操作参数和条件,按上述A-C步骤操作,针对两个以上的已知生物样本进行分析,获取X-MS原始数据;利用图像生成软件(如Matlab2016b)将X-MS原始数据或多维信息文本转化为分子地图,得到类别已知训练样本的分子地图集; E、采用与已知样本相同或相近的操作参数和条件,按上述A-C步骤操作,针对待分析的待测样本进行分析,获取X-MS数据;利用图像生成软件将X-MS数据或多维信息文本转化为分子地图,得到待测样本的分子地图; F、在步骤D-E中,分子地图分辨率用像素表示,图形的规格为n*m(n≥1,m≥1);分子地图可利用图像处理工具(如高斯,小波过滤)等进行再处理,在分子地图中,根据离子分布的密集程度与空间关系,形成轮廓、边缘、斑块等中的一种或两种以上新的图形特征; G、上述的每个分子地图被分成一个或两个以上区域,将每一个区域图像的特征,包括像素的位置,以及参考特征(如像素所形成的亮度(或高度)、颜色、轮廓、边缘或纹理中的一种或两种以上)等,作为深度学习(通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示的技术)所用的深度神经网络(神经网络,主要包括输入层,输出层和隐含层)的输入层的输入; 利用类别已知训练样本的分子地图集,训练深度神经网络,提取各类训练样本分子地图的特征(低层特征和高层特征),用以表征不同类别训练样本的分子地图集中离子分布的不同模式; 深度神经网络可自带分类器; 或将深度神经网络获得的各类样本的特征导入到机器学习工具(如支持向量机(SVM)) 根据分类效果,进行样本的分类训练,得到训练好的深度神经网络; H、将步骤E-F中得到的待测样本的分子地图导入到训练好的神经网络中,对待测样本分子地图进行识别,计算待测样本分子地图为训练样本分子地图集中各类样本的所属类别的概率大小(P); I、分类工具样本进行分类时,待测样本可不借助阈值或借助阈值进行判定; 1)当不借助阈值时,对概率的大小进行排序,若待测样本与某类参照样本的概率排名越靠前,表明待测样本为与该类样本的可能性越大,反之越小; 2)当借助阈值时,设定阈值γ,用于判断不同来源待测样本与同类参照样本匹配的可信空间,利用阈值γ将不相关的样本排除之外; 由深度学习导出各类训练样本的概率分布范围,选定概率的下限作为该类样本的阈值γ;或,阈值可以利用文献报道、实验观察或统计学方法得到某类样本(样本数n≥2)概率分布范围(采用与步骤A-H相同或相近的操作参数和条件所得到的分析结果),选定概率的下限作为该类样本的阈值γ; 对概率的大小进行排序,当Sc>γ时,若待测样本与某类参照样本的概率排名越靠前,表明待测样本为与该类样本的可能性越大,反之越小。 4.根据权利要求3所述的基于分子地图的生物样本快速智能识别方 法,其特征在于,在步骤A中: 1):生物样本可以为各种来源于生命体或其产物的样本; 2)为满足匹配和分类的要求,不同样本之间的提取方法应该尽可能一致; 3):色谱仪(或离子迁移谱仪器)通过选择性作用,将生物样本中混合的分子进行分离,获得不同的保留时间信息t; 4):质谱仪通过电场或磁场作用,根据分子的质荷比不同进行分离和检测,获得不同的质荷比信息m/z。 5.根据权利要求3所述的基于分子地图的生物样本快速智能识别方法,其特征在于,在步骤B中: 1):分子地图的特征在具有离子位置,以及离子所形成的强度(用高度、颜色、亮度和大小中的一种或两种以上方式表示)、轮廓、边缘或纹理等特征; 2):X-MS数据中包含的化合物数量越多,构建出来的分子地图信息越丰富越有利于识别; 3):噪音会引起识别偏差,利用原始X-MS数据中每个离子的信噪比或同位素分布形态进行早期除噪,越有利于提高识别的准确度。 6.根据权利要求3所述的基于分子地图的生物样本快速智能识别方法,其特征在于,在步骤B-C中: 1):分子地图可以根据所获得的色谱-质谱信息(或离子迁移谱-质谱信息)拓展为二维、三维或更高维度; 2):用于生成多维分子地图的矩阵或图表视为地图的前体数据,可是被计算机或软件转化为人类视觉上的图像,此类矩阵或图表格式的高维数据称为广义上的分子地图。 7.根据权利要求3所述的基于分子地图的生物样本快速智能识别方 法,其特征在于,在步骤D-E中: 1):生物样本库应具有足够的样本容量,在种类上包括待检测样本; 2):生物样本库所包含的样本X-MS矩阵中所包含的最大化合物数量应相近或一致; 3):数据库中含训练样本和测试样本等 4):用作参照的已知样本应该和用于搜索的待测样本在同一类型或接近类型仪器类型上分析,使的比较的分子地图具有相同的格式和可比的强度等信息; 5):每个样本应该标注样本来源、种属、部位、仪器分析类型与参数等。 8.根据权利要求3所述的基于分子地图的生物样本快速智能识别方法,其特征在于,在步骤F中: 1):可通过图像处理工具(如Matlab2016b)将分子地图的分辨率可以设定在不同的水准; 2):可以利用图像分割工具(如Matlab2016b)对分子地图进行分割后进行深度学习。 9.根据权利要求3所述的基于分子地图的生物样本快速智能识别方法,其特征在于,在步骤G中: 1):深度神经网络的构建方法可以是使用人工智能的深度学习的任何形式、任何结构和任何方式训练的神经网络; 2)多种深度学习工具可用于分类,但是含有多个隐含层的网络分类效果会更加理想; 3):神经网络可通过训练产生预期分类效果,或者通过迁移学习实现准确分类的目的; 4):当使用神经网络学习时,训练集的样本数量越大,过拟合的可能性越小,分类效果越好;实践中训练集中样本的数量一般大于50; 5):分子地图中像素位置,亮度(强度或高度)、边缘或轮廓等信息中的一种或两种以上是深度学习是特征提取的重点对象。 10.根据权利要求3所述的基于分子地图的生物样本快速智能识别方法,其特征在于,在步骤G中: 1):将不同分辨率的分子地图作为输入层放入深度学习网络进行学习; 2):深度学习网络逐级提取分子地图中的高级特征; 3):神经网络包含n≥1个隐含层; 4):将深度学习提取到的高级特征放入分类器; 5):利用已知类标的样本训练和微调神经网络; 6):在进行分类时,需要及时评判分类效果,可利用混淆矩阵,假阳性、假阴性等方法中的一种或两种以上判断分类的可靠性。 |