论文题名: | 基于百度指数的公众关注度对铁路客运量的混频预测研究 |
关键词: | 铁路客运量;混频预测;公众关注度;估计窗口 |
摘要: | 大数据网络搜索引擎在推动我国综合交通运输体系中的重要地位日益凸显。本文首先通过对微博文本进行处理,选取关键词词库,并划分为三类关键词,即客运基础词、疫情相关词和月份特征词,然后基于百度指数构建公众关注度指标,选取“百度”作为中性词,计算百度搜索热度指标作为公众关注度指标。在实证部分通过递归特征消除和四种特征重要性回归方法,对公众关注度指标进行筛选将Lasso回归系数的绝对值占比作为衡量公众关注度指标特征重要性的依据,从而对公众关注度指标进行降维合并。之后按照Lasso回归系数的绝对值占比将月度公众关注度指标还原成日数据和周数据,利用混频数据模型探究公众关注度和铁路客运量之间的统计关系。其过程为分别采用三种不同的估计窗口进行混频回归,即固定窗口、滚动窗口和递归窗口,同时用三种同频低频回归方法进行预测效果的对比,即普通最小二乘回归OLS、自回归分布滞后模型ARDL和广义自回归条件异方差模型GARCH。预测效果的衡量指标采用均方根误差RMSE,为了方便比较进一步计算相对均方根误差rRMSE进行预测效果的对比。之后将计算结果与1进行比较,得出不同时段混频回归预测效果相对于同频回归预测效果更强的结论。 论文结论可以从数据频率预测效果和混频估计窗口预测效果两个方面进行阐述:首先在数据频率预测效果方面,2011年1月至2017年6月的第一阶段中,混频估计相对于三种同频估计方法的72次估计均优于同频模型,优化占比为100%,其中日-月混频和周-月混频均被选择6次,因此选择日-月或周-月混频方法均可,两者的预测效果可视为一致。2017年7月至2020年1月的第二阶段中,混频估计相对于三种同频估计方法的72次估计中有69次优于同频模型预测效果,优化占比为95.83%,其中日-月混频被选择6次,周-月混频被选择5次,因此最终选择频率较高的日-月混频方法作为估计方法。2020年2月至2021年8月的第三阶段中,日-月混频相对于三种同频估计方法的36次估计中有29次优于同频模型预测效果,优化占比为80.56%,周-月混频相对于三种同频估计方法的36次估计中有33次优于同频模型预测效果,优化占比91.67%,两者的算术平均值为86.12%,其中日-月混频被选择6次,周-月混频也被选择6次,因此最终选择日-月或周-月混频方法均可,两者的预测效果可视为一致。 其次在混频估计窗口预测效果方面,第一阶段所选两种混频回归方法均可,但两种混频模型对估计窗口选择的优劣排序不完全一致,其中日-月混频的预测效果排序为滚动窗口>递归窗口>固定窗口,周-月混频的预测效果排序为滚动窗口=递归窗口>固定窗口。第二阶段所选混频频率为日-月混频,两种混频模型对估计窗口选择的优劣排序一致,均为滚动窗口>固定窗口>递归窗口。第三阶段所选混频频率为两种混频方法均可,两种混频模型对估计窗口选择的优劣排序一致,均为递归窗口>滚动窗口>固定窗口。最后对三个时间段中混频预测的优化占比求算术平均值,为93.98%,高于50%,说明混频预测的效果在全部三个时间阶段的预测中强于三种同频低频估计方法。 最后,本文对样本外数据,即2021年9月至2022年2月的铁路客运量进行了估计方法分别为beta和expAlmon的预测,混频的频率依然为日-月和周-月混频,发现对于日-月混频预测来说,估计方法为expAlmon的混频预测均方误差小于beta估计方法,而对于周-月混频预测,两种估计方法的均方误差和预测结果完全一致,因此建议采用估计方法为expAlmon的固定窗口混频方法预测样本外数据。 总体来说,混频模型相对同频低频模型能够更加精确地对铁路客运量进行预测。采用三种时间窗口的估计和不同数据频率的估计使得估计结果和预测效果不同,不同时间段的划分也使得估计结果和预测效果不同,但最终具体采用哪一种混频回归周期和估计窗口方法是根据预测误差指标来进行衡量,并据此选择最优的混频频率和估计窗口。同时,本文根据得出的结论为铁路相关部门制定政策规划和游客出行线路规划提供一定的参考依据。 |
作者: | 宋頔 |
专业: | 统计学;应用统计 |
导师: | 刘明 |
授予学位: | 硕士 |
授予学位单位: | 兰州财经大学 |
学位年度: | 2022 |