摘要: |
随着我国铁路信息化建设的快速发展,铁路运输中产生的信息数据的规模迅速膨胀,且数据类型纷繁复杂,对铁路运输管理技术人员提出了全新的挑战。然而,目前铁路运输信息系统却只能提供一些常规查询和统计功能,还不具备对铁路运输信息进行实时分析和预测的能力,故无法完全满足铁路运输的实际需要。如何有效地组织和利用海量的铁路运输信息数据,揭示隐藏在数据背后本质联系,为铁路运输管理提供更为准确、直观的指导方案是铁路信息化建设亟待解决的重要课题,同时也是本论文研究的主旨所在。
本文系统的介绍了数据挖掘领域的发展概况,阐述了基于统计的数据分类的一般内容。在充分比较分析了基于朴素贝叶斯和支持向量机两种统计分类算法的基础上,针对将它们应用于铁路运输信息数据分类时存在的一些问题进行了深入剖析。通过研究发现,当类别之间交叉现象比较严重时(即类间的特征重复较多时),分类器的精度会大大下降,尤其是在多层分类中,有些子类之间的特征交叉更为严重,即使在大类别基本正确的情况下,子类的分类精度也会大幅度降低,严重影响对子类数据进行进一步预测分析,从而导致整体预测结果失效。
针对基于统计的分类方法的上述不足,本文进一步提出了新的基于规则的铁路运输信息数据分类方法。该方法结合统计分类方法,通过定制面向铁路信息系统的行业分类规则,设计出基于专家规则的分类器,并构建出具有高准确性的分类模型。此外,进一步将本研究所提出的分类策略应用于铁路运输管理信息系统的数据分类中,进行实际系统测试,取得了较好的分类性能。
最后,本文还对于基于统计的各种分类方法所得到的结果进行了比较分析,结果表明,由于铁路运输信息数据的特殊性(强周期和季节性等),只有在基于统计的分类方法基础上引入专家规则,使二者有机结合,才能取得较好的分类结果。同时,本文所提出的基于规则的分类器的泛化和扩展能力方面也优于基于统计的分类方法,故在铁路运输信息管理领域有着广泛的应用前景。
|