本发明涉及大数据处理,尤其涉及一种基于思维导图的大数据标签处理方法及装置。
背景技术:
1、大媒体广告投放产生很多数据,需要对每条数据进行打标签,然后打标签按变化情况分二种,一种是非常稳定的标签数据,另一种是经常变化的标签数据。对于第一种情况,使用管理后台配置好规则,然后程序处理即可,但对于第二种情况,由于标签复杂且经常需要变化,采用常规的配置规则往往无法满足下游的统计和分析需求。针对目前采用稳定的标签规则无法快速灵活处理非稳定类标签的问题,有必要进行对标签处理技术的进一步研究。
技术实现思路
1、本发明实施例提供一种基于思维导图的大数据标签处理方法及装置,以解决目前采用稳定的标签规则无法快速灵活处理非稳定类标签的问题。
2、一方面,本发明提供了一种基于思维导图的大数据标签处理方法,包括:
3、获取待处理数据,待处理数据包括大媒体广告投放产生的交易数据;
4、获取思维导图,思维导图包括变量定义、函数定义、数据映射定义和执行字段;
5、将思维导图翻译成语法树;
6、将语法树翻译成相应的处理代码;
7、调用处理代码处理待处理数据,得到带标签的数据。
8、进一步地,在获取思维导图的步骤之前,还包括定义思维导图,定义思维导图的方法包括:
9、获取输入数据,输入数据为json格式;
10、基于输入数据,使用树型思维导图来定义逻辑,得到思维导图。
11、进一步地,基于输入数据,使用树型思维导图来定义逻辑的步骤,包括:
12、引用输入数据以得到变量定义;
13、获取函数定义,函数定义由内置实现且具有返回值;
14、获取在线表格文档中的数据映射定义;
15、获取执行字段。
16、进一步地,引用输入数据以得到变量定义的步骤,包括:
17、直接引用输入数据,或引用输入数据在程序运行的环境里引用值,以得到变量定义。
18、进一步地,执行字段为对输入数据进行加工的处理程序,当存在多个执行字段则顺序执行。
19、进一步地,调用处理代码处理待处理数据的步骤,包括:
20、以类库的形式将处理代码插入数据库以处理待处理数据。
21、进一步地,以类库的形式将处理代码插入数据库以处理待处理数据的步骤,包括:
22、使用勾子调用函数入口顺序调用处理代码处理待处理数据,得到带标签的数据。
23、进一步地,在获取待处理数据的步骤之前,还包括:
24、获取广告投放后的大媒体消耗数据;
25、对大媒体消耗数据进行预处理,得到待处理数据。
26、进一步地,对大媒体消耗数据进行预处理,得到待处理数据的步骤,包括:
27、将大媒体消耗数据写入kafka数据存储平台,得到第一预处理数据;
28、使用doris数据库的routine load功能把第一预处理数据写入ods原始表,得到第二预处理数据;
29、使用sql按小时对第二预处理数据进行聚合,得到聚合数据;
30、对聚合数据进行稳定性标签处理,得到待处理数据。
31、与现有技术相比,本发明具有如下优点:
32、通过采用更灵活的配置做法,使用思维导图来配置树型逻辑(配置更灵活,也更容易理解),程序生成语法树进行解析,从而实现灵活打标签的功能,可用于快速满足下游的统计和分析需求,解决了目前采用稳定的标签规则无法快速灵活处理非稳定类标签的问题。
33、另一方面,本发明提供了一种基于思维导图的大数据标签处理装置,用于实现上述的基于思维导图的大数据标签处理方法,基于思维导图的大数据标签处理装置包括:
34、第一获取模块,用于获取待处理数据,待处理数据包括大媒体广告投放产生的交易数据;
35、第二获取模块,用于获取思维导图,思维导图包括变量定义、函数定义、数据映射定义和执行字段;
36、第一翻译模块,用于将思维导图翻译成语法树;
37、第二翻译模块,用于将语法树翻译成相应的处理代码;
38、调用模块,用于调用处理代码处理待处理数据,得到带标签的数据。
1.一种基于思维导图的大数据标签处理方法,其特征在于,包括:
2.根据权利要求1所述的基于思维导图的大数据标签处理方法,其特征在于,在所述获取思维导图的步骤之前,还包括定义所述思维导图,定义所述思维导图的方法包括:
3.根据权利要求2所述的基于思维导图的大数据标签处理方法,其特征在于,所述基于所述输入数据,使用树型思维导图来定义逻辑的步骤,包括:
4.根据权利要求3所述的基于思维导图的大数据标签处理方法,其特征在于,所述引用所述输入数据以得到所述变量定义的步骤,包括:
5.根据权利要求3所述的基于思维导图的大数据标签处理方法,其特征在于,所述执行字段为对所述输入数据进行加工的处理程序,当存在多个所述执行字段则顺序执行。
6.根据权利要求1所述的基于思维导图的大数据标签处理方法,其特征在于,所述调用所述处理代码处理所述待处理数据的步骤,包括:
7.根据权利要求6所述的基于思维导图的大数据标签处理方法,其特征在于,所述以类库的形式将所述处理代码插入数据库以处理所述待处理数据的步骤,包括:
8.根据权利要求1所述的基于思维导图的大数据标签处理方法,其特征在于,在所述获取待处理数据的步骤之前,还包括:
9.根据权利要求8所述的基于思维导图的大数据标签处理方法,其特征在于,所述对所述大媒体消耗数据进行预处理,得到所述待处理数据的步骤,包括:
10.一种基于思维导图的大数据标签处理装置,其特征在于,所述基于思维导图的大数据标签处理装置用于实现权利要求1至9任一项所述的基于思维导图的大数据标签处理方法,所述基于思维导图的大数据标签处理装置包括: