当前位置: 首页> 交通专利数据库 >详情
原文传递 一种基于卷积神经网络的高精度自动识别驾驶员不安全行为的方法与装置
专利名称: 一种基于卷积神经网络的高精度自动识别驾驶员不安全行为的方法与装置
摘要: 本发明实施例公开了一种基于卷积神经网络的高精度自动识别驾驶员不安全行为的方法与装置,涉及图像识别、模式识别及自动化领域。本发明针对重要货物运输或者载人客车驾驶员的不安全行为检测问题,提出了DriverBeCog的解决方法:利用胶囊神经网络和卷积神经网络对驾驶员的实时图像提取特征;并行对多种行为分别进行二分类;通过监控设备传回画面进行实时监测,对不安全行为进行警告,同时相关信息记录进数据库。本发明采用多个模型并发处理;提出一种网络层次少、参数少、计算量小且易于实用的卷积神经网络模型;对于不安全行为的识别率超出已有成果,利于实用;并采用权重参数调整方法解决正反类数据量差距过大的问题。
专利类型: 发明专利
国家地区组织代码: 四川;51
申请人: 田文洪
发明人: 不公告发明人
专利状态: 有效
申请日期: 2018-01-03T00:00:00+0800
发布日期: 2019-07-09T00:00:00+0800
申请号: CN201810003621.3
公开号: CN109987102A
分类号: B60W40/09(2012.01);B;B60;B60W;B60W40
申请人地址: 610000 四川省成都市成华区建设北路二段四号电子科技大学
主权项: 1.一种基于卷积神经网络的高精度自动识别驾驶员不安全行为的方法,其特征在于,所述方法包括步骤: (1)采集特定车内实时图像传输到本地识别系统; (2)用特定卷积神经网络提取图像的底层特征; (3)对多种不安全行为,并行使用胶囊神经网络处理底层特征以获得图像的高层特征并进行分类;对网络训练时采用调节权重的方法处理样本不均衡问题; (4)将得到的分类结果传到报警模块,引发相关警告,并记录在案。 2.根据权利要求1所述的方法,其特征在于,所述的自动识别方法的图像采集来源为实时监控设备,为了在种类繁多的实时监控设备中选取一种设备与后端的识别过程相搭配,进行了大量实践发现下面一个事实:简单的低分辨率黑白摄像头难以采集足够多的行为信息;而高成本的红外双目摄像头则造价高昂,没有必要,因此DriverBeCog在整个生命周期使用360P及以上分辨率的三通道摄像头; 检测与识别过程中,摄像头位于车辆车内后视镜旁,采集驾驶位的正面信息,包含驾驶员的面部信息、手臂位置信息、整个上半身的正面图像信息等;摄像头的位置与采集的信息是本方法的特征之一。 3.根据权利要求1所述的方法,其特征在于: 特定卷积神经网络的层数不超过10层,卷积核大小在3*3到5*5之间,用于提取图像底层的信息,包括图像的边、点、形状、颜色等;此卷积神经网络的输入为图像像素RGB值,通过机器学习中的神经元模型、深度学习中的相关方法实现对底层特征的提取; DriverBeCog中卷积神经网络模型的训练采用有监督学习的方式,将事先收集好的监控视频提取关键帧进行采样,然后人工对采样的图像帧进行标注(违规或不违规),最后在大量数据的条件下通过梯度下降算法训练出卷积网络模型的参数; DriverBeCog在视频提取关键帧时,采用了每40帧采样1次的频率,根据实验,这样有助于防止模型过拟合。 4.根据权利要求1所述的方法,其特征在于: 并行对多种不安全行为进行分类,因为对驾驶员违规行为的识别可以看做是多标签分类问题,即一个样本(行为)具有多个特性(是否系安全带、是否抽烟、是否打电话等),所以处理这样的问题通常采用两种做法:单个模型处理和多个模型并发处理,DriverBeCog采用多个模型并发处理的方法,因为单个模型虽然实现简单,等同于多分类问题(一个正常类,多个交叉的错误类),缺点在于不同行为之间的耦合较强,从软件工程的角度来讲,不利于软件开发,而多个模型对每种违规行为的判定可作为一个模块,易于功能扩展,加入新模块无需对已训练好的模块重新训练; 由于不同模块的复杂度不同,处理同样的原图像,程序各模块独立性高,当后期开发需要加入新的模块(如对于其他违规行为的识别)时,这种方式有更大的优势; 在训练时,由于样本是不均衡的,即采集的图像中安全与不安全图像的数据量严重失衡,在具体训练模型的过程中,本方法采用了增加正类(违规与不安全类)在loss贡献中权重参数的做法,解决了其样本不均衡问题。 5.根据权利要求1所述的方法,其特征在于,用胶囊网络(CapsuleNet)处理卷积神经网络得到的特征,实现分类;胶囊网络是Hinton在2017NIPS会议上重新构造的神经网络,其具有一系列优点。DriverBeCog基于此设计了更加完善的结构,使用了姿态向量的长度来表示由一个capsule所表示的实体存在的概率;使用了向量之间的角的余弦来测量它们之间的一致性;使用了长度为n的向量,而不是有n个元素的矩阵来表示一个状态,所以其变换矩阵具有n*n个参数,而不只是n个。胶囊神经网络具有更强的表现能力,更加适合用作高层特征的处理。 6.根据权利要求1所述的方法,其特征在于,所述的报警模块位于本地而非云端,当驾驶员有不安全行为时,对其的记录位于本地,但会定时在有网络的形况下(到达据点)传入云端数据库,以备数据分析和对驾驶员的加强教育。 7.一种基于卷积神经网络的高精度自动识别驾驶员不安全行为的装置,其特征在于,所述装置包括: (1)监控模块:实时传入视频流; (2)识别软件模块;解析视频流,通过神经网络进行分类; (3)报警模块:对驾驶员进行报警,并记录进数据库; (4)反馈模块:事后用户根据实际和数据库中的日志对识别情况进行反馈。 8.根据权利要求7所述的装置,其特征在于,所述监控模块: DriverBeCog在整个生命周期使用360P及以上分辨率的三通道摄像头;检测与识别过程中,摄像头位于车辆车内后视镜旁,采集驾驶位的正面信息,包含驾驶员的面部信息、手臂位置信息、整个上半身的正面图像信息等。 9.根据权利要求7所述的装置,其特征在于,所述识别软件模块: 将三通道的图像作为输入,通过卷积神经网络提取底层特征,继而通过胶囊网络提取高层特征以达到分类识别的目的;卷积神经网络这种深度前馈神经网络,在图像识别的应用效果较好。DriverBeCog训练神经网络的数据来自车内摄像头采集视频提取的特征帧,数据由预处理流入、卷积神经网络流出、经过胶囊网络得到输出;使用卷积神经网络+胶囊网络的方法是DriverBeCog装置的一大创新点。 10.根据权利要求7所述的装置,其特征在于,所述报警模块: 报警模块不仅提供声音的报警功能,并且能将事件记录到数据库中,每一条记录包括且不限于:发生时间、行为、持续时间、瞬时图像等,当驾驶员改善行为,报警模块做出相应的反应(停止报警)。 11.根据权利要求7所述的装置,其特征在于,所述反馈模块: 在后台(或者云端服务上),反馈模块定时要求用户(驾驶员与评审员)对报警发生的记录和未发生的记录抽样进行人工评估;反馈模块用于检查出软件识别模块的不精确之处,以在新一代的产品中对软件识别模块中的卷积神经网络和胶囊神经网络进行调整训练(fine tuning)。
所属类别: 发明专利
检索历史
应用推荐