论文题名: | 激发试验数据在哮喘诊断中的应用研究 |
关键词: | 支气管激发试验;数据挖掘;Logistic回归;随机森林 |
摘要: | 近些年来,随着大数据存储技术的提高以及数据共享等更多便捷方法的出现,数据挖掘技术在很大程度上推动了对许多行业的进一步发展。在智能化的就医现状下,大数据能给患者带来更加准确、有效并且具有安全性的预测诊断情况以及治疗方案。本文在上述背景下,通过数据挖掘算法对支气管激发试验的数据进行研究,来预测支气管哮喘的诊断情况,从而让人工智能在医学界更好的发挥作用。 本文是通过对支气管激发试验数据集的研究,在数据挖掘算法基础上构建并比较哮喘诊断预测模型。首先,对原始数据进行预处理,其中包含对数据缺失值、数据异常值的处理以及数据标准化,通过R语言和Python语言,从可视化分析与相关性分析两方面对数据进行探索分析,可以发现身体元数据对哮喘存在一定影响,且得到FEV1/FVC比值、外周道参数A以及外周道参数B对判断哮喘确诊的重要性更高。接着将支气管激发试验数据分为训练集和测试集,选择Logistic回归算法、随机森林分类算法、XGBoost算法以及LightGBM算法对训练集数据进行了训练,分别构建了四个模型,并对测试集数据进行了预测,得到了四个模型各自的预测准确率、混淆矩阵、F1-score以及AUC值。最后,以准确率和F1-score为主要指标对四个模型进行比较评估,发现XGBoost模型以及LightGBM模型在哮喘诊断中具有更好的预测效果,其中LightGBM模型的预测效果要比XGBoost模型优胜少许,且其运行速度要更快一些,考虑到实际应用中数据量可能远大于本文所用数据,故决定把LightGBM模型作为最佳的哮喘诊断预测模型。 在对支气管激发试验数据的研究过程中,本文构建的四个模型都对哮喘疾病诊断的预测问题有一定的参考意义,同时结合实际应用情况,选择合适的特征,做合理的检测,减少哮喘病患因诊治不力所带来的痛苦。 |
作者: | 沈芝灵 |
专业: | 应用统计 |
导师: | 许凯 |
授予学位: | 硕士 |
授予学位单位: | 安徽师范大学 |
学位年度: | 2021 |