氛围巡查方法及系统与流程

专利查询2023-2-11  159



1.本发明涉及数据处理技术领域,尤其涉及一种氛围巡查方法及系统。


背景技术:

2.对于社区类产品,及时处理恶劣的社区氛围是很困难的,通常为氛围问 题已经形成、特别严重时才能感知到,处理时只能点对点去处理用户反馈的 典型数据。不仅难以前置或及时发现不良氛围问题,还无法覆盖大部分氛围 问题并对齐进行处理。
3.现有技术对应氛围问题(评论大范围歪楼、贴评结合起来违规),主要 通过高曝光召回(站内点击量较高内容)、用户自发进行的举报反馈、回查 召回的用户主动性行为、审核员通过固定素材召回等手段,高度依赖用户反 馈数据、典型违规素材发现违规数据,一旦用户不反馈或反馈不及时,素材 不常见等就无法召回进行处理。


技术实现要素:

4.为克服相关技术中存在的问题,本发明提供一种氛围巡查方法及系统, 以在氛围问题未形成大范围影响前将其召回,缩短发现问题的时间,增加氛 围问题的覆盖面,从而快速控制恶劣的氛围问题,避免因为少量恶劣内容、 用户,影响整个社区的氛围感。
5.根据本发明实施例的第一方面,提供一种氛围巡查方法,所述方法包括:
6.监测线上已展示的海量帖子及其评论数据,并通过上下文结合策略、评 论违规率策略和违规评论相似策略确定存在违规风险的召回数据;
7.将所述召回数据置于审核平台上,以对所述召回数据进行审核,确定所 述召回数据是否存在违规现象;
8.对于存在违规现象的违规召回数据,进行对应的处理操作。
9.在一个实施例中,优选地,所述上下文结合策略包括:
10.获取海量的上下文数据;
11.根据所述预设的上下文结合标准和所述海量的上下文数据,训练得到上 下文结合的bert模型;
12.通过所述上下文结合的bert模型对所述海量帖子及其评论数据进行检 测,以得到存在违规风险的目标数据;
13.确定所述目标数据对应的父级特征,并将所述父级特征和所述目标数据 的特征进行拼接,以得到目标特征;
14.将所述目标特征输入至违规检测模型,以确定存在违规风险的召回数据。
15.在一个实施例中,优选地,评论违规率策略包括:
16.统计每个帖子下所有违规评论的数量,并计算违规评论的数量占该帖子 下总评论数量的比例,以得到评论违规率;
17.当帖子的曝光值大于或等于预设曝光值且帖子下的评论总量大于或等于 预设量级,且所述评论违规率大于或等于预设违规率时,将所述帖子下,可 展示的排列在前的预
设数量的评论数据确定为所述召回数据。
18.在一个实施例中,优选地,所述违规评论相似策略包括:
19.获取每个帖子下的人审违规评论;
20.使用文本相似算法将每个帖子下的人审违规评论与已线上展示的评论仅 相似度评分;
21.当所述相似度评分大于预设评分值时,将所述相似度评分对应的目标评 论确定为所述召回数据。
22.在一个实施例中,优选地,所述方法还包括:
23.在所述审核平台上,以一帖多评式审核页面显示每个帖子下所有的召回 数据;
24.对于所述违规召回数据,实时抽样至质量监控模块,以通过所述质量监 控模块进行重新审核,确定判断一致性。
25.根据本发明实施例的第二方面,提供一种氛围巡查系统,所述系统包括:
26.风险数据召回模块,用于监测线上已展示的海量帖子及其评论数据,并 通过上下文结合策略、评论违规率策略和违规评论相似策略确定存在风险的 召回数据;
27.氛围巡查审核模块,用于将所述召回数据置于审核平台上,以对所述召 回数据进行审核,确定所述召回数据是否存在违规现象;
28.处理模块,用于对于存在违规现象的违规召回数据,进行对应的处理操 作。
29.在一个实施例中,优选地,所述上下文结合策略包括:
30.获取海量的上下文数据;
31.根据所述预设的上下文结合标准和所述海量的上下文数据,训练得到上 下文结合的bert模型;
32.通过所述上下文结合的bert模型对所述海量帖子及其评论数据进行检 测,以得到存在违规风险的目标数据;
33.确定所述目标数据对应的父级特征,并将所述父级特征和所述目标数据 的特征进行拼接,以得到目标特征;
34.将所述目标特征输入至违规检测模型,以确定存在违规风险的召回数据。
35.在一个实施例中,优选地,评论违规率策略包括:
36.统计每个帖子下所有违规评论的数量,并计算违规评论的数量占该帖子 下总评论数量的比例,以得到评论违规率;
37.当帖子的曝光值大于或等于预设曝光值且帖子下的评论总量大于或等于 预设量级,且所述评论违规率大于或等于预设违规率时,将所述帖子下,可 展示的排列在前的预设数量的评论数据确定为所述召回数据。
38.在一个实施例中,优选地,所述违规评论相似策略包括:
39.获取每个帖子下的人审违规评论;
40.使用文本相似算法将每个帖子下的人审违规评论与已线上展示的评论仅 相似度评分;
41.当所述相似度评分大于预设评分值时,将所述相似度评分对应的目标评 论确定为所述召回数据。
42.在一个实施例中,优选地,所述系统还包括:
43.展示模块,用于在所述审核平台上,以一帖多评式审核页面显示每个帖 子下所有的召回数据;
44.质量监控模块,用于对于所述违规召回数据,实时抽样至质量监控模块, 以通过所述质量监控模块进行重新审核,确定判断一致性。
45.根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存 储有计算机指令,所述指令被处理器执行时实现如第二方面的实施例中任一 项所述方法的步骤。
46.本发明的实施例提供的技术方案可以包括以下有益效果:
47.本发明实施例中,通过上下文结合策略、评论违规率策略和违规评论相 似策略等确定存在违规风险的召回数据,从而进行进一步人工审核确认,以 在氛围问题未形成大范围影响前将其召回,缩短发现问题的时间,增加氛围 问题的覆盖面,从而快速控制恶劣的氛围问题,避免因为少量恶劣内容、用 户,影响整个社区的氛围感。
48.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性 的,并不能限制本发明。
附图说明
49.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发 明的实施例,并与说明书一起用于解释本发明的原理。
50.图1是根据一示例性实施例示出的一种氛围巡查方法的流程图。
51.图2是根据一示例性实施例示出的上下文结合策略流程图。
52.图3是根据一示例性实施例示出的评论违规率策略流程图。
53.图4是根据一示例性实施例示出的违规评论相似策略流程图。
54.图5是根据一示例性实施例示出的一种氛围巡查系统的框图。
具体实施方式
55.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的 描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的 要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所 有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一 些方面相一致的装置和方法的例子。
56.图1是根据一示例性实施例示出的一种氛围巡查方法的流程图。
57.如图1所示,根据本发明实施例的第一方面,提供一种氛围巡查方法, 包括:
58.步骤s101,监测线上已展示的海量帖子及其评论数据,并通过上下文结 合策略、评论违规率策略和违规评论相似策略确定存在违规风险的召回数据;
59.步骤s102,将所述召回数据置于审核平台上,以对所述召回数据进行审 核,确定所述召回数据是否存在违规现象;
60.在一个实施例中,优选地,所述方法还包括:
61.在所述审核平台上,以一帖多评式审核页面显示每个帖子下所有的召回 数据;通过该模式,可以快速理解贴子下评论的氛围整体情况,并提高审核 处理速度。
62.对于所述违规召回数据,实时抽样至质量监控模块,以通过所述质量监 控模块进行重新审核,确定判断一致性。
63.氛围巡查人工已审核数据,实时抽样流入至质量监控模块,通过更高级 别的专业人员审核,判断是否一致,当一致率较低时,进行重新审核、数据 废弃不回调等操作。
64.步骤s103,对于存在违规现象的违规召回数据,进行对应的处理操作。 其中,针对内容,有自见、不可见等处置;针对账号,单位时间内,违规次 数达到一定量级,会进行封禁处罚。
65.如图2所示,在一个实施例中,优选地,所述上下文结合策略包括:
66.步骤s201,获取海量的上下文数据;
67.步骤s202,根据所述预设的上下文结合标准和所述海量的上下文数据, 训练得到上下文结合的bert模型;
68.步骤s203,通过所述上下文结合的bert模型对所述海量帖子及其评论数 据进行检测,以得到存在违规风险的目标数据;
69.步骤s204,确定所述目标数据对应的父级特征,并将所述父级特征和所 述目标数据的特征进行拼接,以得到目标特征;
70.步骤s205,将所述目标特征输入至违规检测模型,以确定存在违规风险 的召回数据。
[0071]“上下文结合”策略针对的是帖子无明显违规、评论无明显违规,但该 内容在一些特定的贴评结合场景是违规的。通过定义上下文结合标准,海量 的上下文数据,训练出一个上下文结合的bert模型,将线上的数据过该模型, 命中模型的取该内容的父级特征后,将父子级特征拼在一起,过线上的风控 模型,将风控模型召回的数据打入到氛围巡查审核系统。
[0072]
如图3所示,在一个实施例中,优选地,评论违规率策略包括:
[0073]
步骤s301,统计每个帖子下所有违规评论的数量,并计算违规评论的数 量占该帖子下总评论数量的比例,以得到评论违规率;
[0074]
步骤s302,当帖子的曝光值大于或等于预设曝光值且帖子下的评论总量 大于或等于预设量级,且所述评论违规率大于或等于预设违规率时,将所述 帖子下,可展示的排列在前的预设数量的评论数据确定为所述召回数据。
[0075]
评论违规率策略:计算以帖子为维度,帖子下所有经过人审、机审后违 规的总量占该帖子下评论总量的比例。当帖子曝光达到一定值且帖子下评 论量达到一定量级(防止因评论量太少,单个违规评论对违规率产生较大影 响)且帖子下,评论违规率达到一定值,将该帖子下,可展示的top n数 据召回到氛围巡查审核系统。
[0076]
如图4所示,在一个实施例中,优选地,所述违规评论相似策略包括:
[0077]
步骤s401,获取每个帖子下的人审违规评论;
[0078]
步骤s402,使用文本相似算法将每个帖子下的人审违规评论与已线上展 示的评论仅相似度评分;
[0079]
步骤s403,当所述相似度评分大于预设评分值时,将所述相似度评分对 应的目标评论确定为所述召回数据。
[0080]
如图5所示,根据本发明实施例的第二方面,提供一种氛围巡查系统, 所述系统包括:
[0081]
风险数据召回模块51,用于监测线上已展示的海量帖子及其评论数据, 并通过上
下文结合策略、评论违规率策略和违规评论相似策略确定存在风险 的召回数据;
[0082]
氛围巡查审核模块52,用于将所述召回数据置于审核平台上,以对所述 召回数据进行审核,确定所述召回数据是否存在违规现象;
[0083]
处理模块53,用于对于存在违规现象的违规召回数据,进行对应的处理 操作。
[0084]
在一个实施例中,优选地,所述上下文结合策略包括:
[0085]
获取海量的上下文数据;
[0086]
根据所述预设的上下文结合标准和所述海量的上下文数据,训练得到上 下文结合的bert模型;
[0087]
通过所述上下文结合的bert模型对所述海量帖子及其评论数据进行检 测,以得到存在违规风险的目标数据;
[0088]
确定所述目标数据对应的父级特征,并将所述父级特征和所述目标数据 的特征进行拼接,以得到目标特征;
[0089]
将所述目标特征输入至违规检测模型,以确定存在违规风险的召回数据。
[0090]
在一个实施例中,优选地,评论违规率策略包括:
[0091]
统计每个帖子下所有违规评论的数量,并计算违规评论的数量占该帖子 下总评论数量的比例,以得到评论违规率;
[0092]
当帖子的曝光值大于或等于预设曝光值且帖子下的评论总量大于或等于 预设量级,且所述评论违规率大于或等于预设违规率时,将所述帖子下,可 展示的排列在前的预设数量的评论数据确定为所述召回数据。
[0093]
在一个实施例中,优选地,所述违规评论相似策略包括:
[0094]
获取每个帖子下的人审违规评论;
[0095]
使用文本相似算法将每个帖子下的人审违规评论与已线上展示的评论仅 相似度评分;
[0096]
当所述相似度评分大于预设评分值时,将所述相似度评分对应的目标评 论确定为所述召回数据。
[0097]
在一个实施例中,优选地,所述系统还包括:
[0098]
展示模块,用于在所述审核平台上,以一帖多评式审核页面显示每个帖 子下所有的召回数据;
[0099]
质量监控模块,用于对于所述违规召回数据,实时抽样至质量监控模块, 以通过所述质量监控模块进行重新审核,确定判断一致性。
[0100]
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存 储有计算机指令,所述指令被处理器执行时实现如第二方面的实施例中任一 项所述方法的步骤。
[0101]
进一步可以理解的是,本发明中“多个”是指两个或两个以上,其它量 词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系, 例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这 三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式 的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表 示其他含义。
[0102]
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息, 但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分 开,并不表示特定的顺序或
者重要程度。实际上,“第一”、“第二”等表 述完全可以互换使用。例如,在不脱离本发明范围的情况下,第一信息也可 以被称为第二信息,类似地,第二信息也可以被称为第一信息。
[0103]
进一步可以理解的是,本发明实施例中尽管在附图中以特定的顺序描述 操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这 些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中, 多任务和并行处理可能是有利的。
[0104]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本 发明的其它实施方案。本技术旨在涵盖本发明的任何变型、用途或者适应性 变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发 明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被 视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
[0105]
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确 结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所 附的权利要求来限制。

技术特征:
1.一种氛围巡查方法,其特征在于,所述方法包括:监测线上已展示的海量帖子及其评论数据,并通过上下文结合策略、评论违规率策略和违规评论相似策略确定存在违规风险的召回数据;将所述召回数据置于审核平台上,以对所述召回数据进行审核,确定所述召回数据是否存在违规现象;对于存在违规现象的违规召回数据,进行对应的处理操作。2.根据权利要求1所述的方法,其特征在于,所述上下文结合策略包括:获取海量的上下文数据;根据所述预设的上下文结合标准和所述海量的上下文数据,训练得到上下文结合的bert模型;通过所述上下文结合的bert模型对所述海量帖子及其评论数据进行检测,以得到存在违规风险的目标数据;确定所述目标数据对应的父级特征,并将所述父级特征和所述目标数据的特征进行拼接,以得到目标特征;将所述目标特征输入至违规检测模型,以确定存在违规风险的召回数据。3.根据权利要求1所述的方法,其特征在于,评论违规率策略包括:统计每个帖子下所有违规评论的数量,并计算违规评论的数量占该帖子下总评论数量的比例,以得到评论违规率;当帖子的曝光值大于或等于预设曝光值且帖子下的评论总量大于或等于预设量级,且所述评论违规率大于或等于预设违规率时,将所述帖子下,可展示的排列在前的预设数量的评论数据确定为所述召回数据。4.根据权利要求1所述的方法,其特征在于,所述违规评论相似策略包括:获取每个帖子下的人审违规评论;使用文本相似算法将每个帖子下的人审违规评论与已线上展示的评论仅相似度评分;当所述相似度评分大于预设评分值时,将所述相似度评分对应的目标评论确定为所述召回数据。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述审核平台上,以一帖多评式审核页面显示每个帖子下所有的召回数据;对于所述违规召回数据,实时抽样至质量监控模块,以通过所述质量监控模块进行重新审核,确定判断一致性。6.一种氛围巡查系统,其特征在于,所述系统包括:风险数据召回模块,用于监测线上已展示的海量帖子及其评论数据,并通过上下文结合策略、评论违规率策略和违规评论相似策略确定存在风险的召回数据;氛围巡查审核模块,用于将所述召回数据置于审核平台上,以对所述召回数据进行审核,确定所述召回数据是否存在违规现象;处理模块,用于对于存在违规现象的违规召回数据,进行对应的处理操作。7.根据权利要求6所述的系统,其特征在于,所述上下文结合策略包括:获取海量的上下文数据;根据所述预设的上下文结合标准和所述海量的上下文数据,训练得到上下文结合的
bert模型;通过所述上下文结合的bert模型对所述海量帖子及其评论数据进行检测,以得到存在违规风险的目标数据;确定所述目标数据对应的父级特征,并将所述父级特征和所述目标数据的特征进行拼接,以得到目标特征;将所述目标特征输入至违规检测模型,以确定存在违规风险的召回数据。8.根据权利要求6所述的系统,其特征在于,评论违规率策略包括:统计每个帖子下所有违规评论的数量,并计算违规评论的数量占该帖子下总评论数量的比例,以得到评论违规率;当帖子的曝光值大于或等于预设曝光值且帖子下的评论总量大于或等于预设量级,且所述评论违规率大于或等于预设违规率时,将所述帖子下,可展示的排列在前的预设数量的评论数据确定为所述召回数据。9.根据权利要求6所述的系统,其特征在于,所述违规评论相似策略包括:获取每个帖子下的人审违规评论;使用文本相似算法将每个帖子下的人审违规评论与已线上展示的评论仅相似度评分;当所述相似度评分大于预设评分值时,将所述相似度评分对应的目标评论确定为所述召回数据。10.根据权利要求6所述的系统,其特征在于,所述系统还包括:展示模块,用于在所述审核平台上,以一帖多评式审核页面显示每个帖子下所有的召回数据;质量监控模块,用于对于所述违规召回数据,实时抽样至质量监控模块,以通过所述质量监控模块进行重新审核,确定判断一致性。

技术总结
本发明是关于一种氛围巡查方法及装置,方法包括:监测线上已展示的海量帖子及其评论数据,并通过上下文结合策略、评论违规率策略和违规评论相似策略确定存在违规风险的召回数据;将所述召回数据置于审核平台上,以对所述召回数据进行审核,确定所述召回数据是否存在违规现象;对于存在违规现象的违规召回数据,进行对应的处理操作。通过该技术方案,可以快速控制恶劣的氛围问题,避免因为少量恶劣内容、用户,影响整个社区的氛围感。影响整个社区的氛围感。影响整个社区的氛围感。


技术研发人员:王彩霞 刘堡萱 文成明 徐进 胡伟林
受保护的技术使用者:北京小川科技有限公司
技术研发日:2021.12.03
技术公布日:2022/3/8

最新回复(0)