【专利下载】【专利代理】【商标和版权申请】Tel:18215660330

一种网络信息聚合方法及基于聚合方法的自动发布方法与流程

专利查询2023-2-8  81

【专利下载】【专利代理】【商标和版权申请】Tel:18215660330



1.本发明涉及网络信息领域,尤其涉及一种网络信息聚合方法及一种基于网络信息聚合的自动发布方法。


背景技术:

2.传统的资讯管理方式依靠手工检索、转载、编辑加工,对图片的转载流程更繁琐,极大的增加了时间耗费。随着网络资讯越来越发达以及社会化媒体的迅速发展,人们对特定领域的资讯转向专业化、个性化,因此从网络聚合专业资讯成为需求,对信息内容的自动化采集、监控、发布成为平台内容编辑系统的重要功能。
3.为此,我们设计出了一种网络信息聚合方法及一种基于网络信息聚合的自动发布方法。


技术实现要素:

4.本发明的目的是为了解决现有技术中存在的缺点,而提出的一种网络信息聚合方法及一种基于网络信息聚合的自动发布方法。
5.为了实现上述目的,本发明采用了如下技术方案:
6.一种网络信息聚合方法,其特征在于,其方法包括:设置参数提取资讯网址后,通过网址获取网页源代码,网页源代码对象化提取资讯标题、内容,并进行敏感词过滤、聚类标签、图片转存,利用中文分词工具分词,据分词结果将资讯内容进行聚类,匹配到资讯分类和关键词系统再进行整合生成,得到新的资讯的标签。
7.所述资讯网址是通过设置参数灵活的进行网址获取,网络工具访问参数要随机,以避开频繁访问的服务器限制,获取方式为间隔式循环获取,获取时,用代码工具把源代码格式化成网页对象,可以递归获取各级对象里的文本,然后把文件里的结构化标签过滤掉。
8.一种基于上述的网络信息聚合方法的自动发布方法,其特征在于,具体包括:
9.s1.根据网页资讯列表的分页展示提取分页网址、每页数量、总页数、需采集条数等形成采集参数,将资讯的网址进行域名补全后储存起来;
10.s2.利用网页分析工具,从资讯网页里提取标题、内容、配图、时间等资讯结构内容;
11.s3.对提取的内容进行敏感词分析,过滤掉平台上的敏感词,然后把相关的内容内容以文件形式保存起来;
12.s4.利用中文分词工具,对资讯标题以及对应的内容进行分词,形成资讯内容的主要关键词;
13.s5.据分词结果将资讯内容进行聚类,匹配到资讯分类和关键词系统,得到资讯的标签;
14.s6.分析资讯配图及内容图片,进行域名补全,然后通过图片处理模块将远程图片上传到图片服务器,得到对应的图片路径,替换资讯内容中的原图片路径;
15.s7.整理资讯的标题和内容、配图替换、资讯标签,加入转载平台帐号,形成最终待发布的内容,生成数据库ddl代码,实现自动发布。
16.所述步骤s1的资讯网址采集包括:
17.资讯平台网址库:包括平台网址、分页网址、资讯内容网址;
18.分页网址参数:在分页网址里的页数以参数的形式替换;
19.总页数:从分页区域提出最大的页数;
20.起始页数:记录上次采集到的页数,没有采集过就填0;
21.本次页数:可以设置本次采集的页数;
22.网址补全:部分平台的资讯内容网址没有域名,所以要用平台网址进行域名补全。
23.网址保存:把以上参数及得到的资讯内容网址以数组结构保存到文件里。
24.所述步骤s2的网页分析包括:
25.页面源代码:用网络工具打开步骤s1采集到的资讯内容网址,获取网页源代码;
26.代码格式化:将网页源代码格式化,将html标签对象化,从中提取标题、内容、配图、时间对象里的文本,文本里的内容去除html标签。
27.所述步骤s3的敏感词过滤包括调用平台的敏感词库,依次遍历资讯标题和资讯内容,依照敏感词规则对资讯作出相应处理,处理后台的标题、内容、时间等内容用文件形式保存,文件以资讯网址序列化命名。
28.所述步骤s4的分词处理包括对资讯标题和内容进行分词,将资讯内容转化成一个个词语,分词过程中,对每个词语进行词性标注,分词结束后再进行词性筛选和词频筛选;
29.词性筛选是指将分词结果中的名词、形容词、动词保留,将其他词性的词语去掉,对分词进行词性筛选能提高新闻评论的分类精度;
30.词频筛选是指将分词结果中的低频词和高频词去掉。
31.所述步骤s5的标签聚类包括把步骤s4得到的分词结果构建特征矩阵,按平台系统的关键词库进行匹配,将资讯内容进行分类,设置标签;
32.所述步骤s6的图片处理包括:
33.图片网址补全:分析图片网址,并用网址域名补全图片网址。
34.获取图片:利用网络工具获取图片内容,该网络工具要进行参数设置;
35.保存图片:利用文件工具把图片内容保存到服务器上,获得新图片的网址;
36.替换图片:把旧、新图片网址用kv结构对资讯内容里的图片网址进行替换。
37.所述步骤s7的自动发布包括按资讯网址依次提取资讯内容数据,检查发布标记,或已发布则删除内容文件,未发布的把标题和内容、图片、关键词、平台帐号等信息组合成数据库ddl语言,提交执行,将资讯内容保存到数据库中持久化保存,发布成功则删除内容文件。
38.与现有技术相比,本发明的有益效果是:
39.1)其聚合方法能够智能分析网络资讯的结构、列表与内容的连接、图片提取与转存。
40.2)其聚合方法实现系统对资讯进行分类,同时和关键词智能分析手段相结合,建立针对网络资讯进行采集、分析、去重、过滤、标签化、自动发布、审核上线的信息聚合流程。
41.3)聚合方法简单直接、有效。
42.4)聚合专业资讯,对信息内容的自动化采集、监控,最后实现资讯自动发布。
具体实施方式
43.下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
44.一种网络信息聚合方法,其特征在于,其方法包括:设置参数提取资讯网址后,通过网址获取网页源代码,网页源代码对象化提取资讯标题、内容,并进行敏感词过滤、聚类标签、图片转存,利用中文分词工具分词,据分词结果将资讯内容进行聚类,匹配到资讯分类和关键词系统再进行整合生成,得到新的资讯的标签。
45.所述资讯网址是通过设置参数灵活的进行网址获取,网络工具访问参数要随机,以避开频繁访问的服务器限制,获取方式为间隔式循环获取,获取时,用代码工具把源代码格式化成网页对象,可以递归获取各级对象里的文本,然后把文件里的结构化标签过滤掉。
46.一种基于上述的网络信息聚合方法的自动发布方法,其特征在于,具体包括:
47.s1.根据网页资讯列表的分页展示提取分页网址、每页数量、总页数、需采集条数等形成采集参数,将资讯的网址进行域名补全后储存起来;
48.s2.利用网页分析工具,从资讯网页里提取标题、内容、配图、时间等资讯结构内容;
49.s3.对提取的内容进行敏感词分析,过滤掉平台上的敏感词,然后把相关的内容内容以文件形式保存起来;
50.s4.利用中文分词工具,对资讯标题以及对应的内容进行分词,形成资讯内容的主要关键词;
51.s5.据分词结果将资讯内容进行聚类,匹配到资讯分类和关键词系统,得到资讯的标签;
52.s6.分析资讯配图及内容图片,进行域名补全,然后通过图片处理模块将远程图片上传到图片服务器,得到对应的图片路径,替换资讯内容中的原图片路径;
53.s7.整理资讯的标题和内容、配图替换、资讯标签,加入转载平台帐号,形成最终待发布的内容,生成数据库ddl代码,实现自动发布。
54.所述步骤s1的资讯网址采集包括:
55.资讯平台网址库:包括平台网址、分页网址、资讯内容网址;
56.分页网址参数:在分页网址里的页数以参数的形式替换;
57.总页数:从分页区域提出最大的页数;
58.起始页数:记录上次采集到的页数,没有采集过就填0;
59.本次页数:可以设置本次采集的页数;
60.网址补全:部分平台的资讯内容网址没有域名,所以要用平台网址进行域名补全。
61.网址保存:把以上参数及得到的资讯内容网址以数组结构保存到文件里。
62.所述步骤s2的网页分析包括:
63.页面源代码:用网络工具打开步骤s1采集到的资讯内容网址,获取网页源代码;
64.代码格式化:将网页源代码格式化,将html标签对象化,从中提取标题、内容、配图、时间对象里的文本,文本里的内容去除html标签。
65.所述步骤s3的敏感词过滤包括调用平台的敏感词库,依次遍历资讯标题和资讯内容,依照敏感词规则对资讯作出相应处理,处理后台的标题、内容、时间等内容用文件形式保存,文件以资讯网址序列化命名。
66.所述步骤s4的分词处理包括对资讯标题和内容进行分词,将资讯内容转化成一个个词语,分词过程中,对每个词语进行词性标注,分词结束后再进行词性筛选和词频筛选;
67.词性筛选是指将分词结果中的名词、形容词、动词保留,将其他词性的词语去掉,对分词进行词性筛选能提高新闻评论的分类精度;
68.词频筛选是指将分词结果中的低频词和高频词去掉。
69.所述步骤s5的标签聚类包括把步骤s4得到的分词结果构建特征矩阵,按平台系统的关键词库进行匹配,将资讯内容进行分类,设置标签;
70.所述步骤s6的图片处理包括:
71.图片网址补全:分析图片网址,并用网址域名补全图片网址。
72.获取图片:利用网络工具获取图片内容,该网络工具要进行参数设置;
73.保存图片:利用文件工具把图片内容保存到服务器上,获得新图片的网址;
74.替换图片:把旧、新图片网址用kv结构对资讯内容里的图片网址进行替换。
75.所述步骤s7的自动发布包括按资讯网址依次提取资讯内容数据,检查发布标记,或已发布则删除内容文件,未发布的把标题和内容、图片、关键词、平台帐号等信息组合成数据库ddl语言,提交执行,将资讯内容保存到数据库中持久化保存,发布成功则删除内容文件。
76.数据采集其主要功能就是通过设置网站的参数来获取数据(多条、多页数据);数据处理其作用是将每一条采集到的数据删除、过滤掉不需要的数据,再提取需要的数据并保存;数据发布其功能就是通过参数来记录发布起始条数与发布条数并实现数据发布和上传数据库。
77.其方法形成系统结构及功能:
78.[0079][0080]
注:1.采集参数配置包括列表起始网址、网址前缀、列表总条(页)数、本次采集条(页)数、本次采集起始条(页)数、网址参数拼接、采集发布账号、采集来源网站名称、采集来源账号名称;
[0081]
2.发布参数配置包括采集发布账号、采集来源网站名称、采集来源账号名称、第几条开始发布、发布条数、发布每条随机时间间隔。
[0082]
采集资讯结构包括标题、用户与平台信息、内容标签(分类)、内容(文字、图片);首先通过网站域名链接获取采集网站的数据列表,再通过列表拿到单个数据跳转链接并保存到数组中,然后通过这个数组中的链接来获取每一条数据的详细数据(也就是采集资讯结构的内容),然后用数组存储这些数据,并将文字与图片一一对应起来,然后将图片下载到本地再上传到自己的服务器,然后将图片拼接成自己域名的图片链接并保存到数据库。
[0083]
如:采集某某网站(以下统一简称为某某)的案例文章的数据。
[0084]
1、首先,要获取某某的域名(用于详情页链接的拼接)、案例文章列表页面的链接(用于列表数据的采集与详情页链接的获取)、案例文章详情页面与案例文章列表页面的结构(用于获取详情页数据与详情页链接)、案例文章分页链接结构(用于获取多页多条数据)、案例文章详情页链接结构(是否是带域名链接)、案例文章图片链接结构(是否是防盗链)等信息或参数,再根据系统需求设置用户账号(用于后面的资讯发布)、数据来源标注、平台名称等设置;
[0085]
2、其次,用案例文章列表页面的链接来获取装修案例详情页链接并保存到数组中,再循环数组的链接获取对应的资讯数据(包括标题、图片、内容文字、资讯分类、标签),并将这些数据以文件形式保存;
[0086]
3、再次,跳转到发布页面,设置发布的参数(发布参数包括:发布账号,账号名称,数据来源,本次第几条开始发布,本次要发布几条,每一条数据发布时间间隔的随机数等);
[0087]
4、最后,点击保存并发布,实现保存本次的记录(比如:本次发布从第1条开始发布10条数据,那么下次进来再发布就是从第11条开始,本次的这10条数据下一次不会再出现,除非重新开始采集,前面的分页采集也是同理)和发布文章数据。
[0088]
聚合专业资讯,对信息内容的自动化采集、监控,最后实现资讯自动发布。
[0089]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,
任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

技术特征:
1.一种网络信息聚合方法,其特征在于,其方法包括:设置参数提取资讯网址后,通过网址获取网页源代码,网页源代码对象化提取资讯标题、内容,并进行敏感词过滤、聚类标签、图片转存,利用中文分词工具分词,据分词结果将资讯内容进行聚类,匹配到资讯分类和关键词系统再进行整合生成,得到新的资讯的标签。2.根据权利要求1所述的一种网络信息聚合方法,其特征在于,其资讯网址是通过设置参数灵活的进行网址获取,网络工具访问参数要随机,以避开频繁访问的服务器限制,获取方式为间隔式循环获取,获取时,用代码工具把源代码格式化成网页对象,可以递归获取各级对象里的文本,然后把文件里的结构化标签过滤掉。3.一种基于如权利要求1~2所述的网络信息聚合方法的自动发布方法,其特征在于,具体包括:s1.根据网页资讯列表的分页展示提取分页网址、每页数量、总页数、需采集条数等形成采集参数,将资讯的网址进行域名补全后储存起来;s2.利用网页分析工具,从资讯网页里提取标题、内容、配图、时间等资讯结构内容;s3.对提取的内容进行敏感词分析,过滤掉平台上的敏感词,然后把相关的内容内容以文件形式保存起来;s4.利用中文分词工具,对资讯标题以及对应的内容进行分词,形成资讯内容的主要关键词;s5.据分词结果将资讯内容进行聚类,匹配到资讯分类和关键词系统,得到资讯的标签;s6.分析资讯配图及内容图片,进行域名补全,然后通过图片处理模块将远程图片上传到图片服务器,得到对应的图片路径,替换资讯内容中的原图片路径;s7.整理资讯的标题和内容、配图替换、资讯标签,加入转载平台帐号,形成最终待发布的内容,生成数据库ddl代码,实现自动发布。4.根据权利要求3所述的一种基于网络信息聚合的自动发布方法,其特征在于,所述步骤s1的资讯网址采集包括:资讯平台网址库:包括平台网址、分页网址、资讯内容网址;分页网址参数:在分页网址里的页数以参数的形式替换;总页数:从分页区域提出最大的页数;起始页数:记录上次采集到的页数,没有采集过就填0;本次页数:可以设置本次采集的页数;网址补全:部分平台的资讯内容网址没有域名,所以要用平台网址进行域名补全。网址保存:把以上参数及得到的资讯内容网址以数组结构保存到文件里。5.根据权利要求3所述的一种基于网络信息聚合的自动发布方法,其特征在于,所述步骤s2的网页分析包括:页面源代码:用网络工具打开步骤s1采集到的资讯内容网址,获取网页源代码;代码格式化:将网页源代码格式化,将html标签对象化,从中提取标题、内容、配图、时间对象里的文本,文本里的内容去除html 标签。6.根据权利要求3所述的一种基于网络信息聚合的自动发布方法,其特征在于,所述步骤s3的敏感词过滤包括调用平台的敏感词库,依次遍历资讯标题和资讯内容,依照敏感词
规则对资讯作出相应处理,处理后台的标题、内容、时间等内容用文件形式保存,文件以资讯网址序列化命名。7.根据权利要求3所述的一种基于网络信息聚合的自动发布方法,其特征在于,所述步骤s4的分词处理包括对资讯标题和内容进行分词,将资讯内容转化成一个个词语,分词过程中,对每个词语进行词性标注,分词结束后再进行词性筛选和词频筛选;词性筛选是指将分词结果中的名词、形容词、动词保留,将其他词性的词语去掉,对分词进行词性筛选能提高新闻评论的分类精度;词频筛选是指将分词结果中的低频词和高频词去掉。8.根据权利要求3所述的一种基于网络信息聚合的自动发布方法,其特征在于,所述步骤s5的标签聚类包括把步骤s4得到的分词结果构建特征矩阵,按平台系统的关键词库进行匹配,将资讯内容进行分类,设置标签。9.根据权利要求3所述的一种基于网络信息聚合的自动发布方法,其特征在于,所述步骤s6的图片处理包括:图片网址补全:分析图片网址,并用网址域名补全图片网址。获取图片:利用网络工具获取图片内容,该网络工具要进行参数设置;保存图片:利用文件工具把图片内容保存到服务器上,获得新图片的网址;替换图片:把旧、新图片网址用kv结构对资讯内容里的图片网址进行替换。10.根据权利要求3所述的一种基于网络信息聚合的自动发布方法,其特征在于,所述步骤s7的自动发布包括按资讯网址依次提取资讯内容数据,检查发布标记,或已发布则删除内容文件,未发布的把标题和内容、图片、关键词、平台帐号等信息组合成数据库ddl语言,提交执行,将资讯内容保存到数据库中持久化保存,发布成功则删除内容文件。

技术总结
本发明公开了一种网络信息聚合方法及基于聚合方法的自动发布方法,其特征在于,其方法包括:设置参数提取资讯网址后,通过网址获取网页源代码,网页源代码对象化提取资讯标题、内容,并进行敏感词过滤、聚类标签、图片转存,利用中文分词工具分词,据分词结果将资讯内容进行聚类,匹配到资讯分类和关键词系统再进行整合生成,得到新的资讯的标签,本发明聚合方法简单直接、有效。通过聚合专业资讯,对信息内容的自动化采集、监控,最后实现资讯自动发布。发布。


技术研发人员:张成文
受保护的技术使用者:蜂蜜家(广州)科技有限公司
技术研发日:2021.12.01
技术公布日:2022/3/8

最新回复(0)