本发明涉及排放监测,尤其涉及一种适用于obd远程排放监控数据的快速预处理方法。
背景技术:
1、重型柴油车作为道路移动源的重要组成部分,是氮氧化物(nox)等污染物的主要排放源。尽管新能源车在轻型车领域取得了显著进展,但在重型车领域,新能源化进程相对缓慢,重型柴油车仍将维持巨大的保有量和稳定的年产销量。为控制其排放,各国不断加严排放标准,尾气后处理技术也不断升级,但台架测试达标的发动机在实际行驶中常出现排放超标现象,因此整车实际道路排放监测成为必要手段。
2、目前,实际道路排放监测方法主要包括pems试验、遥感测试、跟车测试、隧道测试及远程obd等。pems试验成本高、耗时长、数据量少;而遥感测试、跟车测试、隧道测试等非接触式方法获取不到发动机数据。远程obd依赖于车辆原始的obd系统,只需额外安装通信终端,改动成本较小,可获取的数据量大,具有同步的发动机数据且可对单一车辆进行长期追踪分析,是一种极具实用性的排放监控手段。随着远程obd系统的广泛应用,海量数据处理的低速低效成为研究瓶颈。obd远程排放监控数据不仅包含同步的发动机数据,还涉及车辆运行状态的全面记录,存在着不容忽视的数据质量问题(如传感器在低排温下停止工作、精度不足,传输过程中的数据乱序、丢失、重发等),这使得数据预处理成为必要工作。因此,优化预处理流程,提高处理速度,对提升整体研究效率至关重要。
技术实现思路
1、本发明的目的是提供一种适用于obd远程排放监控数据的快速预处理方法,其面向远程大体量obd数据,高效识别及处理数据存在的质量问题(如传感器在低排温下停止工作、精度不足,传输过程中的数据乱序、丢失、重发等),为排放结果分析必要的前导工作提速提效。
2、为了实现上述目的,本发明采用了如下技术方案:
3、一种适用于obd远程排放监控数据的快速预处理方法,包括以下步骤:
4、将原始行式存储数据文件转换为列式存储格式;
5、采用自适应桶排序算法对转换后的列式存储数据进行时序重塑,同时清除重传帧,在时间轴整理完成后进行行程分割;
6、对整理后的数据进行异常数据清洗,包括识别并清除标准无效值、超限值、不合理的连续重复值;
7、评估清洗后数据的里程覆盖率和有效数据比率,综合评估数据代表度。
8、优选的,所述列式存储格式采用apache parquet格式,以提高数据读取速度和压缩效率。
9、优选的,所述自适应桶排序算法包括:
10、遍历数据确定时间戳范围,将覆盖范围内的时间轴分为多个桶;
11、将数据帧按照时间戳放入相应桶内;
12、对每个桶内的数据帧进行快速排序;
13、按顺序合并桶内数据帧,得到时间顺序的数据表。
14、优选的,所述异常数据清洗步骤包括:
15、基于标准无效返回值表,识别并清除标准无效值;
16、基于有效上下限表,识别并清除不合常理的超限值;
17、通过基于差分二值化的连续重复检测算法,识别并清除不合理的连续重复值;
18、在清洗前排除发动机未启动状态的数据。
19、优选的,所述数据代表度评估步骤包括:
20、计算清洗后数据的里程覆盖率;
21、用加权过的里程覆盖率乘以有效数据比率,综合计算数据代表度。
22、优选的,还包括对特定研究需求的专项数据处理步骤,包括:
23、重塑scr下游nox浓度的非负性;
24、利用基于车轮转动计算的obd车速对照修正gps定位的跳变和漂移问题。
25、优选的,包括:存储格式转换模块,用于将原始行式存储数据文件转换为列式存储格式;
26、时间轴整理模块,采用自适应桶排序算法对转换后的数据进行时间轴整理,根据相邻帧时间戳是否雷同清除重传帧,基于大时间戳跳变和低scr出口温度进行行程分割;
27、异常数据清洗模块,用于清洗整理后的数据中的异常值;
28、数据评估模块,用于评估清洗后数据的里程覆盖率和有效数据比率,综合评估数据代表度;
29、专项处理模块,用于对特定研究需求的数据进行专项处理。
30、本发明至少具备以下有益效果:
31、数据文件准备:将原始行式存储文件转换为列式存储格式(如apache parquet),提高数据读取速度,减少io操作,支持列特征的选择性读入,优化存储和压缩效率。
32、时间轴整理:采用自适应桶排序算法,通过遍历数据确定时间戳范围,将范围内的时间轴分为多个桶,分别排序后再合并,有效缩短排序时间,支持多线程处理以进一步提升速度。根据相邻帧时间戳是否雷同清除重传帧,基于大时间戳跳变和低scr出口温度进行行程分割。
33、异常数据清洗:针对标准无效值、超限值、不合理的连续重复值,分别制定清洗策略。特别地,在清洗前排除发动机未启动状态的数据,以减少后续清洗工作量。清洗后评估数据的里程覆盖率和有效数据比率,综合评估数据代表度。
34、专项处理:针对特定研究需求,如nox排放分析和gps定位修正,进行专门处理。通过将低于0的nox浓度数据取0重塑非负性,利用基于车轮转动计算的obd车速对照修正gps定位跳变和漂移问题。
1.一种适用于obd远程排放监控数据的快速预处理方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种适用于obd远程排放监控数据的快速预处理方法,其特征在于,所述列式存储格式采用apache parquet格式,以提高数据读取速度和压缩效率。
3.根据权利要求1所述的一种适用于obd远程排放监控数据的快速预处理方法,其特征在于,所述自适应桶排序算法包括:
4.根据权利要求1所述的一种适用于obd远程排放监控数据的快速预处理方法,其特征在于,所述异常数据清洗步骤包括:
5.根据权利要求1所述的一种适用于obd远程排放监控数据的快速预处理方法,其特征在于,所述数据代表度评估步骤包括:
6.根据权利要求1所述的一种适用于obd远程排放监控数据的快速预处理方法,其特征在于,还包括对特定研究需求的专项数据处理步骤,包括:
7.根据权利要求1所述的一种适用于obd远程排放监控数据的快速预处理方法,其特征在于,包括:
