论文题名: | 基于Spark的上车点推荐系统的设计与实现 |
关键词: | 上车点;推荐系统;软件开发;功能模块 |
摘要: | 随着“互联网+”时代的到来,互联网+交通在近几年得到了快速发展。D公司作为一家快速成长的互联网科技公司,它的产品改变了人们传统的出行方式,极大提高城市交通效率。当网约车已经成为一种普遍现象,用户出行数据便呈爆炸式增长;交通数据的积累与大数据处理技术的日渐成熟,为基于交通大数据的深度学习、机器学习应用提供了可能。通过对订单的分析,本文发现当用户通过D公司的应用软件叫车后,一般需要与网约车司机经过一次或者多次电话沟通才能确定上车位置。为了减少司机与乘客的沟通成本、降低接驾时长,对用户网约车行为数据进行了深入的调研分析,旨在通过表面的现象挖掘出目前产品的真正问题和痛点。通过对大量数据的分析,发现目前的产品存在绕路、沟通修改上车位置、修改发单位置等三种不同严重程度的用户体验问题。为了改善网约车接驾的用户体验,可以借助更多订单过程中的信息综合推荐上车点,比如司机接单时的定位位置、订单终点位置以及用户历史打车行为等。上车点推荐的策略优化能够减少司机与乘客沟通成本;对于司机而言,上车点推荐的优化可以提高整个行程的性价比,获得更好的利润;从企业角度,上车点推荐的精准能够提高接驾效率,同时增加用户的粘性。 本文通过分析订单中司机与乘客的轨迹数据、用户位置信息、订单基础信息,设计并实现了一个基于Spark框架的上车点推荐系统,该系统包括基础上车点挖掘、日志解析整合模块、订单抽取模块、特征提取模块、样本标注模块、模型训练以及离线效果评估模块。该上车点推荐系统采用机器学习方法解决上车点推荐的排序问题。基础上车点挖掘是指为每个订单挖掘出乘客的真实上车位置;日志解析整合模块是将订单的相关数据进行解析整合,以便进行订单抽取;订单数据抽取模块基于日志解析整合模块的输出结果进行订单随机采样,是构建训练数据的基础模块;特征提取模块对每一个候选上车点提取特征向量;样本标注模块可以灵活的针对不同建模思路进行标注;模型训练模块采用Spark MLlib和LightGBM框架,对上车点推荐问题抽象为“二分类问题”或者“排序问题”进行模型训练;离线效果评估模块评估模型在预测集上的表现,业务评价指标为离线定点率。“成单后”上车点推荐系统通过对用户场景的进一步理解,改善了上车点推荐的用户体验问题,同时增强了推荐结果的可解释性。 本文通过切分流量进行AB Test方法对新的推荐模型与线上已有的基线模型对比,模型效果观察期间模型分支的订单定点率相比基线分支的定点率提升将近2个百分点。 |
作者: | 贺明慧 |
专业: | 软件工程 |
导师: | 邢薇薇 |
授予学位: | 硕士 |
授予学位单位: | 北京交通大学 |
学位年度: | 2018 |
正文语种: | 中文 |