当前位置: 首页> 交通专利数据库 >详情
原文传递 一种基于中药色谱-质谱高维图像数据库的中药识别方法
专利名称: 一种基于中药色谱-质谱高维图像数据库的中药识别方法
摘要: 本发明涉及一种基于中药色谱‑质谱高维图像数据库的中药识别方法,包括如下步骤:⑴中药色谱‑质谱高维图像数据库的建立:1)获取与处理已知中药样本的原始色谱‑质谱数据;2)生成已知中药样本的高维数据与高维图像;3)建立已知中药样本的色谱‑质谱高维图像数据库;⑵中药色谱‑质谱高维图像数据库的应用:1)未知样本图像数据的获取;2)未知样本的识别;3)未知样本识别结果的验证。与现有技术相比,本发明运用中药色谱‑质谱高维图像技术,能够对中药样本中大量化合物间的空间信息实现全面表征,并利用上述空间信息实现未知样本与已知中药样本匹配与识别。
专利类型: 发明专利
国家地区组织代码: 辽宁;21
申请人: 中国科学院大连化学物理研究所
发明人: 张晓哲;赵楠;程孟春
专利状态: 有效
申请日期: 2017-12-01T00:00:00+0800
发布日期: 2019-06-11T00:00:00+0800
申请号: CN201711246801.6
公开号: CN109870515A
代理机构: 沈阳科苑专利商标代理有限公司
代理人: 马驰
分类号: G01N30/02(2006.01);G;G01;G01N;G01N30
申请人地址: 116023 辽宁省大连市沙河口区中山路457-41号
主权项: 1.一种基于中药色谱-质谱高维图像数据库的中药识别方法,其特征在于,按以下步骤进行: ⑴中药色谱-质谱高维图像数据库的建立: 1)获取与处理已知中药样本的原始色谱-质谱(X-MS)数据:使用色谱和质谱获取已知中药样本的原始X-MS数据,将已知中药样本原始X-MS数据导入峰提取软件(如ProgenesisQI)中对色谱-质谱联用原始X-MS数据进行数据处理; 2)生成已知中药样本的高维数据与图像:获取样本中每个化合物的m/z、t、I、m、z值,产生高维数据矩阵(如m/z-t-I矩阵、m-z-t-I矩阵或m-t-I矩阵),生成已知中药样本色谱-质谱联用高维数据;将高维数据导入图像生成软件(如Matlab等)生成图像,使高维数据中的每个离子与构成图像中的点一一对应,每个点拥有自己的坐标信息(t,m/z或m或m与z),每个点的强度由点的大小或/和亮度的强弱表示,高维数据图像中的点与高维数据一一对应; 3)建立已知中药样本的色谱-质谱高维图像数据库:将获得的1类或2类以上已知中药样本高维数据图像作为中药色谱-质谱高维图像数据库(类别数≧1),每类已知中药样本中的样本数为1个或2个以上;中药色谱-质谱高维图像数据库,包括已知中药样本的样本信息、原始X-MS数据信息、高维数据信息、高维图像数据信息;数据库类型包括但不局限于文件夹数据集、网页数据库、基于商业化工作站或基于用户自研发工作站的数据库; ⑵中药色谱-质谱高维图像数据库的应用: 1)未知样本高维图像数据的获取:采用与步骤(1)相同或相似的操作参数和条件,按步骤(1)中1)~2)操作,针对待分析的未知样本进行分析,获取未知样本原始X-MS数据和高维数据;利用图像生成软件将X-MS数据得到未知样本的X-MS高维图像; 2)未知样本的识别; A、利用机器学习中的图像分割工具(如Matlab2016b自带的分割程序),或聚类工具(如K-Means,DBSCAN或Fanny等中的一种或二种以上),将未知样本X-MS高维图像中的点分割为n个点簇(n≥1整数); 点簇指的是在空间上距离接近的点的集合,点簇内点的个数n≥3; 每个点簇可以有自己的中心点,点簇的形状可以为任意形状; B、将提取点簇后的未知样本X-MS高维图像与中药X-MS高维图像数据库中的已知中药样本X-MS高维图像逐一进行分别扫描和匹配; 扫描时,将两个X-MS高维图像的原点、t轴和m/z(m)轴对齐; 扫描时,点簇作为一个整体,移动的范围为0-Tk,Tk为已知中药样本对应的最大分析时间; 扫描时,未知样本的每个点簇保留其m/z(或m)轴的位置和几何形状,沿时间轴(t)进行扫描; 通过扫描,寻找未知样本点簇与已知中药样本X-MS高维图像中能够在t和m/z(或m)能够准确匹配的共同点;扫描过程中,在未知样本中的一个点簇中的点与已知中药样本X-MS高维图像中的点进行匹配时,每个点允许的t绝对偏移值(t tolerance)为≥T,T等于未知样本X-MS数据采集时色谱仪允许的保留时间平均偏移值(绝对值,可用1个或1个以上标准物质,或某样本中的1个或1个以上化合物的多次重复测定计算)与已知中药样本X-MS数据采集时色谱仪允许的保留时间平均偏移值(绝对值,可用1个或1个以上标准物质,或某样本中的1个或1个以上化合物的多次重复测定计算)之和; 扫描过程中,在未知样本中的一个点簇中的点与已知中药样本X-MS高维图像中的点进行匹配时,每个点允许的m/z(或m)绝对测定误差[m/z(或m)tolerance]≥A,A等于未知和已知中药样本X-MS数据采集时质谱仪扫描时允许的质量平均偏差(绝对值,可由仪器所用的校正液多次重复测定)之和; 当未知样本点簇内一个点与已知中药样本的某个点满足t偏差和m/z(或m)偏差时,认为该点符合匹配要求; 扫描时,点簇沿时间轴(t)扫描的步长≤T,通常情况下,0s<T<10000s; C、当一个点簇移动到已知中药样本X-MS高维图像的t轴的每一个位置时,记录匹配点的个数、每个匹配点的坐标和点簇几何中心点的坐标; D、计算每一个位置时,未知样本一个点簇(i,i≥1整数)与该已知中药样本X-MS高维图像之间的匹配度(Si),匹配度的大小可利用统计工具(如Matlab)计算点簇(i)与已知中药样本X-MS高维图像所匹配的点数、或相似度(如图像相似度计算中的欧氏距离法)、或相关度(如Matlab中的2D-correlation coefficient)中的一种或二种以上进行计算; 由上述三种方法得到的匹配度分别由点数(或点数的函数)、相似度或相关度表示; 点簇匹配度大小,与点簇匹配的点数、坐标位置(t,m/z)和强度这四个变量呈线性或非线性相关;计算点数(或点数的函数)、相似度或相关度的基础是基于四个变量的关系变换; 可选用不同的匹配度计算方法分别计算点簇和已知中药样本X-MS高维图像的整体匹配度; 匹配点的个数指的是点簇符合匹配条件点的个数;基于上述步骤,对未知样本X-MS高维图像中每一个点簇的最大匹配度(Si)进行数学加权处理(如加和、平均或取对数),得到未知样本X-MS高维图像与已知中药样本X-MS高维图像的整体匹配度(Sc); E、重复上述步骤,逐一分析未知样本X-MS高维图像与其它已知中药样本X-MS高维图像之间的匹配度,得到其与每一个已知中药样本的整体匹配度(Sc); F、未知样本的所属类别可不借助阈值或借助阈值进行判定; 当不借助阈值时,利用上述步骤,将未知样本与已知中药样本进行匹配,对匹配度从大到小进行排序,若未知样本与某一已知中药样本的匹配度排名越靠前,表明未知样本为与该样本的可能性越大,反之越小; 或, 当借助阈值时,设定阈值γ,用于判断不同来源未知样本与同类已知中药样本匹配的可信范围; 阈值可以根据统计学的方法设定:按步骤(1)中1)~2)操作,采用相同或相近的操作参数和条件,选取2个以上同类别的已知中药样本作为某一类样本的训练样本,进行分析,获取X-MS原始数据;利用图像生成软件(如Matlab2016b)将X-MS原始数据或多维信息文本转化为X-MS高维图像,得到该类样本的训练X-MS高维图像集;利用训练X-MS高维图像集,与同类已知中药样本X-MS高维图像进行匹配,通过统计学的方法(如概率,比率等)发现匹配度分布区间,选定分布区间中匹配度的下限作为该类样本的阈值γ; 或,阈值可以利用文献报道或实验观察得到某类样本(n≥2)与已知中药样本匹配度分布区间(按步骤(1)中1)~2)操作采用相同或相近的操作参数和条件所得到的分析结果),选定分布区间中匹配度的下限作为该类样本的阈值γ; 将未知样本与已知中药样本进行匹配,匹配度按照从大到小进行排序,若未知样本与某类已知中药样本的匹配度排名越靠前,且Sc大于由该类已知中药样本测定所得的阈值γ,表明未知样本为该类样本的可能性越大,反之越小; 3)未知样本识别结果的验证 将步骤(2)中与未知样本匹配的已知中药样本按匹配度排名排列,在未知样品的原始X-MS数据信息和/或高维数据信息中按上述匹配度排名依次检索对应已知中药样本的标志性化合物(标志性化合物数目≧1),未知样本中检索到标志性化合物时即接受未知样本是该已知样本,停止检索;若第一排名已知中药样本在未知样本中未搜索到,接下来在未知样本中检索第二排名已知样本标志性化合物,以此类推,一直到检索到标志性化合物为止;若所有匹配到的已知样本中的标志性化合物在未知样本中都没有检索到,即认为已建立的数据库中没有包含该未知样本。 2.根据权利要求1所述的方法,步骤(2)中 A具有标准品的标志性化合物的检索:采用步骤⑴中的方法,获得标准品样本的高维数据。将标志性化合物高维数据与未知样本高维数据匹配,寻找未知样本中与标志性化合物保留时间t和m/z均满足阈值窗口的离子; 或B,不具有标准品的标志性化合物的检索:搜索未知样本中标志性化合物的m/z值,寻找未知样本中与已知中药样本中标志性化合物保留时间t和m/z均满足阈值窗口的离子。 3.根据权利要求1所述的方法,已知中药样本为类别信息明确的样本,类别信息为样本的种属、产地、部位、炮制方式等中的一种或二种以上;未知样本为类别信息待明确的样本; 可使用的已知中药样本包括中药原药材、饮片、粉末等中的一种或二种以上,同时也包含但不局限于中药的不同部位以及它们的各种加工品等等中的一种或二种以上; 可使用的未知样本可以为中药原药材、饮片、粉末、制剂(中药颗粒、中药注射液等中的一种或二种以上)中的一种或二种以上,同时也包含但不局限于中药的不同部位以及它们的各种加工品等等中的一种或二种以上。 4.根据权利要求1所述的方法,步骤(1)中, 已知中药样本的制备过程为:采用包括但不局限于溶剂提取法等适用于中药样本的制备方法,获得已知中药样本(样本数≧1); 制备质量控制样本;为提高测定的重复性和进行保留时间校正可有选择地使用混合标准品内标样本(标准品数目≧2); 混合标准品内标物用以校正各样本的色谱保留时间;内标物标准品为色谱保留时间介于整个色谱分析时间的标准品的混合物;不采用混合标准品内标物校正保留时间时待分析样本中不需要添加混合标准品内标物; 质量控制样本用于评价数据质量,可使用的质量控制样本包括但不局限于已知中药样本或混合物、未知样本或混合物、若干(≧2)标准品的混合物等中的一种或二种以上。 5.根据权利要求1所述的方法,其特征在于:为使未知样本与已知中药样本具有可比性,在进行未知样本制备、原始数据获取、数据处理时,各样本的均应采取相同或相似的可重复的样本处理、原始数据获取和数据处理方法; 色谱仪的保留时间平均偏差(绝对值)指的是色谱仪器在同样条件下重复测定同一样本时各个化合物的时间偏差的均值(绝对值),可用混合标准品进行测定。 6.根据权利要求1所述的方法,其特征在于: 1)色谱仪或离子迁移谱仪器通过选择性作用,将中药样本中混合的分子进行分离,获得不同的保留时间信息t; 2)质谱仪通过电场或磁场作用,根据分子的质荷比不同进行分离和检测,获得不同的质荷比信息m/z; 3)中药样本提取物利用色谱-质谱仪器进行分析,色谱分离所用的时间(t)范围为1-10000s.离子(m/z)扫描的范围50-10000Da;得到色谱-质谱(X-MS)数据。 7.根据权利要求1所述的方法,其特征在于:所获取的原始数据经过保留时间校正、过滤和归一化等中的一种或二种以上数据处理;其中保留时间校正可以采用待分析样本中的若干(≧2)化合物保留时间校正、混合标准品内标物保留时间校正或者其它保留时间校正方式; 高维数据代表样本信息,高维数据由高维数据矩阵产生,高维数据可以包括高维数据矩阵中所有离子,或也可以选择性保留高维数据矩阵中的离子。 8.根据权利要求1所述的方法,其特征在于:生成色谱-质谱联用高维数据,该高维数据表达样品中各数据点间的空间信息,包括下述中的一种或二种以上:①数据点间的距离信息如保留时间、m/z值、m值;②数据点间的角度关系信息;③数据点的坐标位置信息;④数据点的密度信息;⑤数据点集合的边缘范围信息;⑥数据点的亮度(强度)信息等; 生成色谱-质谱联用高维数据,表格文件可存储为.xls、.xlsx、.csv、.xml等一切表格存储格式中的一种或二种以上;文本文件可存储为.doc、.docx、.txt、.rtf等一切文本存储格式中的一种或二种以上; 图像文件可存储为.jpg、.png、.gif等一切图像文件格式中的一种或二种以上,图像形式包括原始图像,亦可是经过模糊化处理、不同分辨率生成等转化后的图像中的一种或二种以上; 生成色谱-质谱联用高维数据图像维数大于等于2,通常为二维图像,三维图像或四维图像; 高维数据图像的斑点位置由该化合物的性质决定:纵轴代表色谱保留时间,化合物按极性由大到小延纵轴方向分布;横轴代表m/z值,化合物按m/z值由小到大延横轴方向分布;同一化合物在质谱中可以存在准分子离子、加和离子、碎片离子等多种形式,每个化合物可以存在相同纵轴位置不同横轴位置的斑点;性质相近的化合物(斑点)会形成区域性的点簇,代表某一类型物质; 数据库格式包括但不局限于文本、EXCEL、Oracle、mysql、splite或microsoft sqlserver等中的一种或二种以上。 9.根据权利要求1所述的方法,其特征在于: 1)X-MS数据中包含的离子数量越多,构建出来的X-MS高维图像信息越丰富越有利于识别; 2)噪音会引起识别偏差,利用原始X-MS数据中每个离子的信噪比或同位素分布形态进行早期除噪,越有利于提高识别的准确度; 3)该步骤不需要强制的时间校正; 4)数据库中的色谱-质谱信息或离子迁移谱-质谱信息可拓展为二维、三维或更高维度。 10.根据权利要求1所述的方法,其特征在于:高维数据图像包括高维数据导入图像生成软件生成的原始图像、基于图像特征(点簇、共同离子、轮廓等中的一种或二种以上)生成的图像、对图像进行转化处理(图像模糊化处理,图像不同分辨率处理等)处理方式生成的图像、利用t,m/z,m,I的函数构建的图像等等中的一种或二种以上; 标志性化合物包括但不局限于《2015版中国药典》所述中药的对照品、文献报道的中药标志性成分、中药主要化学成分等等中的一种或二种以上。
所属类别: 发明专利
检索历史
应用推荐