当前位置: 首页> 交通专利数据库 >详情
原文传递 大型多参数数据集的可视化、比较分析和自动差异检测
专利名称: 大型多参数数据集的可视化、比较分析和自动差异检测
摘要: 本文提供的方法的一些实施例涉及用于大型多参数数据集的样品分析和粒子表征方法。频率差选通对至少两个不同的数据集进行比较以根据定义的阈值标识多变量空间中来自第一数据集的事件的频率不同于来自第二数据集的事件的频率的区域。
专利类型: 发明专利
国家地区组织代码: 美国;US
申请人: 佛罗乔有限责任公司
发明人: 马里奥·罗德尔;迈克尔·D·斯塔德尼斯凯
专利状态: 有效
申请日期: 2018-05-23T00:00:00+0800
发布日期: 2019-11-15T00:00:00+0800
申请号: CN201880022546.3
公开号: CN110462372A
代理机构: 北京英赛嘉华知识产权代理有限责任公司
代理人: 王达佐;王艳春
分类号: G01N15/14(2006.01);G;G01;G01N;G01N15
申请人地址: 美国俄勒冈州
主权项: 1.一种对n维数据集之间的差异进行可视化的计算机实施的方法,该计算机实施的方法包括: 在一个或多个处理设备的控制下, 对n维数据的第一数据集和n维数据的第二数据集执行频率差选通,其中,该n维数据包括多个维度上的多个事件;以及 从经频率差选通的数据生成可视化以经由显示设备进行显示,该可视化根据定义的阈值示出了多变量空间中来自该第一数据集的事件的频率不同于来自该第二数据集的事件的频率的区域。 2.如权利要求1所述的计算机实施的方法,其中,该第一数据集和该第二数据集包括多参数细胞样品数据。 3.如权利要求1所述的计算机实施的方法,进一步包括: 响应于用户输入来调整该定义的阈值;以及 基于调整后的定义的阈值来调整该可视化。 4.如权利要求1所述的计算机实施的方法,其中,该定义的阈值包括多个定义的阈值。 5.如权利要求1所述的计算机实施的方法,其中,生成该可视化包括至少部分地基于该频率差选通来对这些区域进行颜色编码。 6.如权利要求1所述的计算机实施的方法,其中,该定义的阈值包括上限阈值,该上限阈值标识被分类为来自该第一数据集的事件的频率大于来自该第二数据集的事件的频率的一个或多个区域。 7.如权利要求1所述的计算机实施的方法,其中,该定义的阈值包括下限阈值,该下限阈值标识来自该第二数据集的事件的频率大于来自该第一数据集的事件的频率的一个或多个区域。 8.如权利要求1所述的计算机实施的方法,其中,该定义的阈值包括中间范围边界,该中间范围边界标识在该第一数据集与该第二数据集之间具有相似的事件频率的一个或多个区域。 9.如权利要求1所述的计算机实施的方法,其中,执行频率差选通包括: 根据该第一数据集和该第二数据集内的多个定义的分布中的每一个分布的二元频率估算量,生成每维度具有多个区间的多维直方图。 10.如权利要求9所述的计算机实施的方法,其中,执行频率差选通进一步包括: 通过事件计数对该直方图进行归一化。 11.如权利要求9所述的计算机实施的方法,其中,执行频率差选通进一步包括: 针对归一化直方图中的每个元素生成差异直方图。 12.如权利要求11所述的计算机实施的方法,其中,执行频率差选通进一步包括: 处理器对这些差异直方图进行双归一化。 13.如权利要求12所述的计算机实施的方法,其中,生成该可视化包括: 对这些双归一化差异直方图的热图进行渲染。 14.如权利要求1所述的计算机实施的方法,进一步包括: 基于由用户通过该可视化定义的至少一个选通来生成第三数据集。 15.如权利要求1所述的计算机实施的方法,其中,该第一数据集包括对照样品。 16.如权利要求15所述的计算机实施的方法,其中,该对照样品对应于来自健康物质的细胞数据。 17.如权利要求15所述的计算机实施的方法,其中,该对照样品对应于来自癌性物质的细胞数据。 18.一种系统,包括: 一个或多个处理设备;以及 计算机可读存储介质,该计算机可读存储介质包括指令,这些指令当由该一个或多个处理设备执行时使该系统进行以下操作: 接收用于频率差选通所接收数据集的阈值; 接收n维数据的包括多个维度上的第一多个事件的第一数据集; 接收n维数据的包括至少该多个维度上的第二多个事件的第二集; 至少部分地基于对n维数据的该第一数据集和n维数据的该第二数据集的频率差选通来标识定义事件群体的频率差选通,该选通根据该阈值标识多变量空间中来自该第一数据集的事件的频率不同于来自该第二数据集的事件的频率的区域;以及 使得显示包括来自该第一数据集和该第二数据集的被包括在由该频率差选通定义群体中的事件的表示的可视化,该可视化根据该阈值示出了该多变量空间中来自该第一数据集的事件的频率不同于来自该第二数据集的事件的频率的区域。 19.如权利要求18所述的系统,其中,该阈值包括以下各项中的至少一项: 上限阈值,该上限阈值标识被分类为来自该第一数据集的事件的频率大于来自该第二数据集的事件的频率的一个或多个区域; 下限阈值,该下限阈值标识来自该第二数据集的事件的频率大于来自该第一数据集的事件的频率的一个或多个区域;或者 中间范围边界,该中间范围边界标识在该第一数据集与该第二数据集之间具有相似的事件频率的一个或多个区域。 20.如权利要求18所述的系统,其中,该计算机可读存储介质包括指令,这些指令当由该一个或多个处理设备执行时使该系统至少通过以下方式来标识该频率差选通: 根据该第一数据集和该第二数据集内的多个定义的分布中的每一个分布的二元频率估算量,生成每维度具有多个区间的多维直方图。
所属类别: 发明专利
检索历史
应用推荐