1.本发明属于国防科技领域,具体涉及一种国防科技领域报告的自动生成方法。
背景技术:
2.随着互联网信息量的指数式增长,国防科技领域科研人员在跟踪获取信息数据的过程中会接触到大量冗余信息和垃圾信息,加大了研究者发现和理解热点话题信息、撰写报告的困难。自动摘录式摘要技术虽然得到了广泛应用,但自动摘录式摘要存在内容理解层次浅、逻辑性差的问题,自动生成式摘要存在通用性低、受领域知识限制性强、可控性差的问题。
3.综上所述,由于现有的自动摘录式和自动生成式摘要获取方式存在的弊端,导致基于获取的摘要生成国防科技领域报告时,生成报告的质量不好,因此无法支撑研究人员实现高质量报告的自动生成。
技术实现要素:
4.本发明的目的是为解决基于现有方法获取的摘要生成国防科技领域报告时,生成报告的质量差的问题,而提出了一种国防科技领域报告的自动生成方法。
5.本发明为解决上述技术问题所采取的技术方案是:一种国防科技领域报告的自动生成方法,所述方法具体包括以下步骤:
6.步骤一、构建国防科技信源数据系统;
7.步骤二、从国防科技信源数据系统中获取训练样本,基于获取的训练样本对基于深度学习的分词模型进行训练,获得训练好的分词工具;
8.步骤三、构建国防科技领域自动摘要生成模型,利用从国防科技信源数据系统中获取并处理后的数据对自动摘要生成模型进行训练,获得训练好的自动摘要生成模型;
9.步骤四、基于步骤二获得的分词工具和步骤三获得的自动摘要生成模型来自动生成报告。
10.进一步地,所述步骤一的具体过程为:
11.步骤一一、选择国防科技机构网站和国防科技在线数据库;
12.步骤一二、构建爬虫工具,利用爬虫工具从步骤一一中选择的网站和在线数据库中爬取信息;
13.步骤一三、构建国防科技领域数据的提取规则,利用构建的提取规则从爬取的信息中获取文献数据的基本信息;
14.所述文献数据的基本信息包括标题、摘要、关键词、作者、作者单位、发布机构、发布时间、会议名称、学位、期刊名称和原文链接;
15.步骤一四、通过原文链接对原文进行下载,并将下载的原文转换为文本数据形式;
16.步骤一五、建立文献信息服务器,文献信息服务器用于存储文献数据的基本信息表,所述基本信息表中包括文献数据的基本信息和文献编号;
17.步骤一六、建立数据文件服务器,数据文件服务器用于存储步骤一四中获得的文本数据;
18.基本信息表中的原文链接指向数据文件服务器中对应文件的位置;
19.步骤一七、设计用户界面;
20.用户界面用于实现文献数据的可视化、文献数据的查找搜索、文献数据的预览、文献数据的推荐功能。
21.进一步地,所述将下载的原文信息转换为文本数据,其具体为:
22.若原文为文本数据形式,则不作处理,若原文为图片或者pdf格式,则对图片和pdf格式进行ocr识别,将原文转换为文本数据形式。
23.进一步地,所述步骤二的具体过程为:
24.步骤二一、从国防科技信源数据系统中获取文本数据作为训练样本;
25.步骤二二、将训练样本统一转换为半角形式,获得转换后的训练样本;
26.步骤二三、收集专有名词,专有名词包括专业术语和习惯用语;
27.步骤二四、对收集到的专有名词进行统一规范,即对专有名词进行标注,获得标注后的专有名词;
28.步骤二五、根据步骤二二得到的训练样本和步骤二四获得的标注后专有名词,对步骤二二得到的训练样本进行人工分词标注;
29.步骤二六、利用人工分词标注后的训练样本对基于深度学习的分词模型进行训练,得到训练好的分词工具。
30.进一步地,所述步骤三的具体过程为:
31.步骤三一、从国防科技信源数据系统中获取文本数据作为训练样本,训练样本包括原文文档以及原文文档对应的摘要信息;
32.步骤三二、将原文文档以及原文文档对应的摘要信息统一转换为半角形式;
33.步骤三三、利用步骤二中训练好的分词工具对步骤三二中原文文档对应的转换结果进行分词;
34.步骤三四、对步骤三三的分词结果进行去除停用词处理,获得处理结果;
35.对处理结果中的各个词进行词频统计,按照词频由高到低的顺序对各个词进行排序,得到构建好的词表;
36.步骤三五、使用开源工具word2vec将处理结果中的单词转换为词向量,按照句子中的单词顺序,将词向量拼接得到文本向量;
37.步骤三六、构建国防科技领域自动摘要生成模型,所述自动摘要生成模型为编码器-解码器模型;
38.利用步骤三五中的文本向量和步骤三四构建好的词表对自动摘要生成模型进行反复迭代训练;
39.直至目标函数值不再减小、1-gram的rouge值达到40,且2-gram的rouge值达到18时停止训练,获得训练好的自动摘要生成模型。
40.进一步地,所述自动摘要生成模型训练时的目标函数为:
41.42.其中,t为参考摘要的长度,p(w
t
)为第t个位置的词的预测概率。
43.更进一步地,所述步骤四的具体过程为:
44.步骤四一、用户从构建的国防科技信源数据系统中选取生成报告所需要的文献;
45.步骤四二、检测选取出的每个文献所对应的文档编号的记录中“摘要”字段是否为空,对于“摘要”字段不为空的文献,不需要处理;对于“摘要”字段为空的文献,将文献内容转换为半角形式;
46.步骤四三、采用训练好的分词工具对转换结果进行分词,并去除分词结果中的停用词,得到分词后的文本;
47.步骤四四、将分词后的文本输入训练好的自动摘要生成模型,为“摘要”字段为空的文献生成文本摘要;
48.步骤四五、判断选取出的每个文献所对应的文本摘要是否均满足用户需求,若存在不满足要求的文本摘要,则转到步骤四六,否则转到步骤四九;
49.步骤四六、对生成的文本摘要进行修改;
50.步骤四七、收集步骤四六的修改结果,将文献数据和对文本摘要的修改结果作为新的训练数据,对自动摘要生成模型继续进行训练,以实现对自动摘要生成模型的优化更新;
51.步骤四八、利用优化更新后的自动摘要生成模型重复步骤四四至步骤四七的过程,直至每个文献所对应的文本摘要均满足用户需求;
52.步骤四九、判断是否需要自定义模板,若不需要,则转到步骤四十,否则转到步骤四十一;
53.步骤四十、基于步骤四八中获得的每个文献所对应的文本摘要,根据预定义模板自动生成报告,并转到步骤四十二;
54.步骤四十一、自定义模板的填充规则和模板格式,基于步骤四八中获得的每个文献所对应的文本摘要,自动生成报告,并转到步骤四十二;
55.步骤四十二、点击“导出”按钮,选择报告的保存格式和保存路径;
56.步骤四十三、流程结束,返回国防科技信源数据系统界面。
57.本发明的有益效果是:
58.本发明将自动摘录式和生成式摘要技术相融合,保证了文档内容理解层次的同时,实现了摘要生成的可控。再通过用户反馈,对模型进行迭代优化,提高自动摘要生成的深度和流畅;再构建报告模板和填写规则,结合用户反馈进行完善补充,实现国防领域综述类高质量报告的自动快速生成,为用户提供更加优良的自动化服务。
附图说明
59.图1为本发明方法的流程图;
60.图2为用户界面的截图;
61.图3为自定义修改界面的截图;
62.图4为模板自定义界面的截图;
63.图5为自定义模板的内容填充界面的截图。
具体实施方式
64.具体实施方式一、结合图1说明本实施方式。本实施方式所述的一种国防科技领域报告的自动生成方法,所述方法具体包括以下步骤:
65.步骤一、构建国防科技信源数据系统;
66.步骤二、针对核、航天、航空、兵器、船舶、电子等不同领域,从国防科技信源数据系统中获取特定领域的训练样本,基于获取的训练样本对基于深度学习的分词模型进行训练,获得训练好的符合领域特色的分词工具;
67.步骤三、构建国防科技领域自动摘要生成模型,利用从国防科技信源数据系统中获取并处理后的数据对自动摘要生成模型进行训练,获得训练好的自动摘要生成模型;
68.步骤四、基于步骤二获得的分词工具和步骤三获得的自动摘要生成模型来自动生成报告。
69.本发明的国防科技领域概念特征数据库的构建,包括概念体系的构建和特征判断规则的设计。
70.基于概念特征判断和自动摘要技术融合,实现对国防科技领域信息文本的摘要自动生成。
71.基于多摘要的国防科技领域发展综述类报告自动组织方法。
72.基于样本训练实现对国防科技领域信息文本摘要自动生成效果的持续改善。
73.基于样本训练实现对国防科技领域发展综述类报告自动生成效果的持续改善。
74.针对核、航天、航空、兵器、船舶、电子等不同的国防领域,当我们需要生成其中某个具体领域的报告时,训练分词工具和自动摘要生成模型时所采用的训练样本都应该是该领域的文献。
75.具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一的具体过程为:
76.步骤一一、选择国防科技机构网站和国防科技在线数据库;
77.可以包括知名新闻媒体、科研院所等相关机构网站和在线数据库等;
78.步骤一二、构建爬虫工具,利用爬虫工具从步骤一一中选择的网站和在线数据库中爬取信息;
79.爬虫工具不仅可以处理静态页面和动态加载页面,还能实现ip隐匿和防跟踪;
80.步骤一三、针对不同网站,根据长期工作积累形成的国防科技网站数据展示特点,构建国防科技领域数据的提取规则,利用构建的提取规则从爬取的信息中获取文献数据的基本信息;
81.所述文献数据的基本信息包括标题、摘要、关键词、作者、作者单位、发布机构、发布时间、会议名称、学位、期刊名称和原文链接;
82.例如,html标记“《meta name=title》《/meta》”中的文本是标题信息;
83.步骤一四、通过原文链接对原文进行下载,并将下载的原文转换为文本数据形式;
84.步骤一五、建立文献信息服务器,文献信息服务器用于存储文献数据的基本信息表,所述基本信息表中包括文献数据的基本信息和文献编号;
85.文献编号作为文献的唯一标识;
86.步骤一六、建立数据文件服务器,数据文件服务器用于存储步骤一四中获得的文
本数据,实现文件的本地化;
87.并对每篇文献对应的文本数据进行关键词抽取,作为后续相关文档推荐功能的凭据;
88.基本信息表中的原文链接指向数据文件服务器中对应文件的位置;
89.步骤一七、设计用户界面;
90.用户界面用于实现文献数据的可视化、文献数据的查找搜索、文献数据的预览、文献数据的推荐功能。具体的图形界面如图2所示;
91.左侧部分是信源以及信源内的文献的选取;中间部分是文件的全文浏览;右侧部分是当前文献的基本信息以及相关文档的推荐。上方为工具栏,支持缩放、复制和高亮等常见的文档编辑功能。
92.其它步骤及参数与具体实施方式一相同。
93.具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述将下载的原文信息转换为文本数据,其具体为:
94.若原文为文本数据形式,则不作处理,若原文为图片或者pdf格式,则对图片和pdf格式进行ocr识别,将原文转换为文本数据形式。
95.其它步骤及参数与具体实施方式一或二相同。
96.具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤二的具体过程为:
97.步骤二一、对于某一具体领域,从国防科技信源数据系统中获取该领域的文本数据作为训练样本;
98.对于国防科技中的某一领域(例如船舶、航天等),若需要生成该领域的报告,则就从国防科技信源数据系统中获取该领域的相关电子文本数据作为训练样本,可以包括科技报告、会议论文、期刊文章、新闻资讯、图书、学位论文和专利信息,训练样本的数据量在20000篇以上;
99.步骤二二、将训练样本统一转换为半角形式,获得转换后的训练样本;
100.日期统一为yyyy-mm-dd,数字统一为阿拉伯数字,去除复杂和无意义符号;同时将一些专业术语的表达格式进行统一;
101.步骤二三、收集该领域的专有名词,专有名词包括专业术语和习惯用语等;
102.步骤二四、对收集到的专有名词进行统一规范,即对专有名词进行标注,获得标注后的专有名词;
103.对专有名词中的同义词、近义词和多义词进行标注,形成国防领域特色词表;
104.步骤二五、根据步骤二二得到的训练样本和步骤二四获得的标注后专有名词,对步骤二二得到的训练样本进行人工分词标注,标注过程以特色词表为准,同时分两组进行,之后交叉校对,最后形成大规模的标注预料;
105.步骤二六、利用人工分词标注后的训练样本对基于深度学习的分词模型进行训练,得到训练好的符合该领域特点的分词工具。
106.训练好的分词工具能够对该领域的习惯用语和专业术语实现精准识别和切分。
107.其它步骤及参数与具体实施方式一至三之一相同。
108.具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤三
的具体过程为:
109.步骤三一、对于某一具体领域,从国防科技信源数据系统中获取该领域的文本数据作为训练样本,训练样本包括原文文档以及原文文档对应的摘要信息;
110.获取的文本数据包括科技报告、会议论文、期刊文章、新闻资讯、图书、学位论文和专利信息,获取的训练样本在50000篇以上,每篇均包括原文文档和对应的摘要信息,摘要源自官方给定的题录信息,具备较高的权威性和准确性。其中原文文献用于训练自动摘要模型,官方摘要作为训练时的参考摘要(即自动摘要生成模型要达到的目标);
111.步骤三二、将原文文档以及原文文档对应的摘要信息统一转换为半角形式;
112.即日期统一为yyyy-mm-dd,数字统一为阿拉伯数字,去除复杂和无意义符号;同时针对专业术语的不同表述形式进行统一;
113.步骤三三、利用步骤二中训练好的分词工具对步骤三二中原文文档对应的转换结果进行分词;
114.步骤三四、对步骤三三的分词结果进行去除停用词处理(即去除对文本意思影响不大的词),获得处理结果;
115.对处理结果中的各个词进行词频统计,按照词频由高到低的顺序对各个词进行排序,得到构建好的词表;
116.步骤三五、使用开源工具word2vec将处理结果中的单词转换为词向量,按照句子中的单词顺序,将词向量拼接得到文本向量;
117.步骤三六、构建国防科技领域自动摘要生成模型,所述自动摘要生成模型为编码器-解码器模型;
118.利用步骤三五中的文本向量和步骤三四构建好的词表对自动摘要生成模型进行反复迭代训练;
119.将从国防科技信源数据系统中获取的摘要文本作为参考摘要,将文本向量输入编码器-解码器模型,编码器负责将文献中的重要信息提取出来,
120.编码器将输入的文本向量编码为一个低维实值向量,解码器根据步骤三四中得到的词表对实值向量进行解码,重组为文本信息,即获得模型输出的文献摘要;
121.直至目标函数值不再减小(即趋于稳定)、1-gram的rouge值达到40,且2-gram的rouge值达到18时停止训练,获得训练好的自动摘要生成模型。
122.使用测试集对模型效果进行评测,评价指标采用rouge值,计算方法如下:
[0123][0124]
其中,n为n-gram,设置为2,即计算1-gram和2-gram的rouge值。以“山东舰是国产航母”中,1-gram即“山”、“东”、“舰
”…“
母”;2-gram即“山东”、“东舰”、“舰是
”…“
航母”。
[0125]
其它步骤及参数与具体实施方式一至四之一相同。
[0126]
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述自动摘要生成模型训练时的目标函数为:
[0127]
[0128]
其中,t为参考摘要的长度,p(w
t
)为第t个位置的词的预测概率。
[0129]
其它步骤及参数与具体实施方式一至五之一相同。
[0130]
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述步骤四的具体过程为:
[0131]
步骤四一、用户从构建的国防科技信源数据系统中选取生成报告所需要的文献;
[0132]
并点击右上方的“报告生成”按钮;
[0133]
步骤四二、检测选取出的每个文献所对应的文档编号的记录中“摘要”字段是否为空,对于“摘要”字段不为空的文献,不需要处理;对于“摘要”字段为空的文献,将文献内容转换为半角形式;
[0134]
即日期统一为yyyy-mm-dd,数字统一为阿拉伯数字,去除复杂和无意义符号;同时将一些专业术语的表达格式进行统一;
[0135]
步骤四三、采用训练好的分词工具对转换结果进行分词,并去除分词结果中的停用词(对文本意思影响不大的词),得到分词后的文本;
[0136]
步骤四四、将分词后的文本输入训练好的自动摘要生成模型,为“摘要”字段为空的文献生成文本摘要,并呈现给用户;
[0137]
步骤四五、判断选取出的每个文献所对应的文本摘要是否均满足用户需求,若存在不满足要求的文本摘要,则转到步骤四六,否则转到步骤四九;
[0138]
步骤四六、对生成的文本摘要进行自定义修改;
[0139]
如图3所示,摘要内容和原文内容存在点击关联逻辑(即点击摘要/原文,相应的原文/摘要内容会被高亮),便于用户根据原文内容,对生成的摘要进行修改;
[0140]
步骤四七、收集步骤四六的修改结果,将文献数据和对文本摘要的修改结果作为新的训练数据,对自动摘要生成模型继续进行训练(即在现有模型的基础上,使用新的数据对模型再训练一次),以实现对自动摘要生成模型的优化更新;
[0141]
步骤四八、利用优化更新后的自动摘要生成模型重复步骤四四至步骤四七的过程,直至每个文献所对应的文本摘要均满足用户需求;
[0142]
步骤四九、判断是否需要自定义模板,若不需要,则转到步骤四十,否则转到步骤四十一;
[0143]
步骤四十、基于步骤四八中获得的每个文献所对应的文本摘要,根据预定义模板自动生成报告,并转到步骤四十二;
[0144]
根据国防领域重要文件/重大事件类专题报道的特点,以模块为单位,对专报内容进行切分,统计模块内容特征,创建模块内容填充规则,最终形成的模板如表1所示:
[0145]
表1
[0146][0147]
步骤四十一、自定义模板的填充规则和模板格式,基于步骤四八中获得的每个文献所对应的文本摘要,自动生成报告,并转到步骤四十二;
[0148]
自定义模板界面如图4所示,包括填充规则和模板格式。用户可以在界面右侧写入模块填充规则(即,使用什么内容进行填充,例如:第几段摘要、标题、作者等等),并设置填充格式,相关预览会在左侧生成。
[0149]
用户得到自己想要的模板后,进入内容填充界面,如图5所示。系统同样会对模块填充内容进行推荐(根据模板中模块的填充规则进行推荐),用户也可自行选择需要填充的内容。
[0150]
步骤四十二、将填充内容设置完成后,点击“导出”按钮,选择报告的保存格式和保存路径;
[0151]
步骤四十三、流程结束,返回国防科技信源数据系统界面。
[0152]
其它步骤及参数与具体实施方式一至六之一相同。
[0153]
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
技术特征:
1.一种国防科技领域报告的自动生成方法,其特征在于,所述方法具体包括以下步骤:步骤一、构建国防科技信源数据系统;步骤二、从国防科技信源数据系统中获取训练样本,基于获取的训练样本对基于深度学习的分词模型进行训练,获得训练好的分词工具;步骤三、构建国防科技领域自动摘要生成模型,利用从国防科技信源数据系统中获取并处理后的数据对自动摘要生成模型进行训练,获得训练好的自动摘要生成模型;步骤四、基于步骤二获得的分词工具和步骤三获得的自动摘要生成模型来自动生成报告。2.根据权利要求1所述的一种国防科技领域报告的自动生成方法,其特征在于,所述步骤一的具体过程为:步骤一一、选择国防科技机构网站和国防科技在线数据库;步骤一二、构建爬虫工具,利用爬虫工具从步骤一一中选择的网站和在线数据库中爬取信息;步骤一三、构建国防科技领域数据的提取规则,利用构建的提取规则从爬取的信息中获取文献数据的基本信息;所述文献数据的基本信息包括标题、摘要、关键词、作者、作者单位、发布机构、发布时间、会议名称、学位、期刊名称和原文链接;步骤一四、通过原文链接对原文进行下载,并将下载的原文转换为文本数据形式;步骤一五、建立文献信息服务器,文献信息服务器用于存储文献数据的基本信息表,所述基本信息表中包括文献数据的基本信息和文献编号;步骤一六、建立数据文件服务器,数据文件服务器用于存储步骤一四中获得的文本数据;基本信息表中的原文链接指向数据文件服务器中对应文件的位置;步骤一七、设计用户界面;用户界面用于实现文献数据的可视化、文献数据的查找搜索、文献数据的预览、文献数据的推荐功能。3.根据权利要求2所述的一种国防科技领域报告的自动生成方法,其特征在于,所述将下载的原文信息转换为文本数据,其具体为:若原文为文本数据形式,则不作处理,若原文为图片或者pdf格式,则对图片和pdf格式进行ocr识别,将原文转换为文本数据形式。4.根据权利要求3所述的一种国防科技领域报告的自动生成方法,其特征在于,所述步骤二的具体过程为:步骤二一、从国防科技信源数据系统中获取文本数据作为训练样本;步骤二二、将训练样本统一转换为半角形式,获得转换后的训练样本;步骤二三、收集专有名词,专有名词包括专业术语和习惯用语;步骤二四、对收集到的专有名词进行统一规范,即对专有名词进行标注,获得标注后的专有名词;步骤二五、根据步骤二二得到的训练样本和步骤二四获得的标注后专有名词,对步骤二二得到的训练样本进行人工分词标注;
步骤二六、利用人工分词标注后的训练样本对基于深度学习的分词模型进行训练,得到训练好的分词工具。5.根据权利要求4所述的一种国防科技领域报告的自动生成方法,其特征在于,所述步骤三的具体过程为:步骤三一、从国防科技信源数据系统中获取文本数据作为训练样本,训练样本包括原文文档以及原文文档对应的摘要信息;步骤三二、将原文文档以及原文文档对应的摘要信息统一转换为半角形式;步骤三三、利用步骤二中训练好的分词工具对步骤三二中原文文档对应的转换结果进行分词;步骤三四、对步骤三三的分词结果进行去除停用词处理,获得处理结果;对处理结果中的各个词进行词频统计,按照词频由高到低的顺序对各个词进行排序,得到构建好的词表;步骤三五、使用开源工具word2vec将处理结果中的单词转换为词向量,按照句子中的单词顺序,将词向量拼接得到文本向量;步骤三六、构建国防科技领域自动摘要生成模型,所述自动摘要生成模型为编码器-解码器模型;利用步骤三五中的文本向量和步骤三四构建好的词表对自动摘要生成模型进行反复迭代训练;直至目标函数值不再减小、1-gram的rouge值达到40,且2-gram的rouge值达到18时停止训练,获得训练好的自动摘要生成模型。6.根据权利要求5所述的一种国防科技领域报告的自动生成方法,其特征在于,所述自动摘要生成模型训练时的目标函数为:其中,t为参考摘要的长度,p(w
t
)为第t个位置的词的预测概率。7.根据权利要求6所述的一种国防科技领域报告的自动生成方法,其特征在于,所述步骤四的具体过程为:步骤四一、用户从构建的国防科技信源数据系统中选取生成报告所需要的文献;步骤四二、检测选取出的每个文献所对应的文档编号的记录中“摘要”字段是否为空,对于“摘要”字段不为空的文献,不需要处理;对于“摘要”字段为空的文献,将文献内容转换为半角形式;步骤四三、采用训练好的分词工具对转换结果进行分词,并去除分词结果中的停用词,得到分词后的文本;步骤四四、将分词后的文本输入训练好的自动摘要生成模型,为“摘要”字段为空的文献生成文本摘要;步骤四五、判断选取出的每个文献所对应的文本摘要是否均满足用户需求,若存在不满足要求的文本摘要,则转到步骤四六,否则转到步骤四九;步骤四六、对生成的文本摘要进行修改;步骤四七、收集步骤四六的修改结果,将文献数据和对文本摘要的修改结果作为新的
训练数据,对自动摘要生成模型继续进行训练,以实现对自动摘要生成模型的优化更新;步骤四八、利用优化更新后的自动摘要生成模型重复步骤四四至步骤四七的过程,直至每个文献所对应的文本摘要均满足用户需求;步骤四九、判断是否需要自定义模板,若不需要,则转到步骤四十,否则转到步骤四十一;步骤四十、基于步骤四八中获得的每个文献所对应的文本摘要,根据预定义模板自动生成报告,并转到步骤四十二;步骤四十一、自定义模板的填充规则和模板格式,基于步骤四八中获得的每个文献所对应的文本摘要,自动生成报告,并转到步骤四十二;步骤四十二、点击“导出”按钮,选择报告的保存格式和保存路径;步骤四十三、流程结束,返回国防科技信源数据系统界面。
技术总结
一种国防科技领域报告的自动生成方法,它属于国防科技领域。本发明解决了基于现有方法获取的摘要生成国防科技领域报告时,生成报告的质量差的问题。本发明将自动摘录式和生成式摘要技术相融合,保证了文档内容理解层次的同时,实现了摘要生成的可控。再通过用户反馈,对模型进行迭代优化,提高自动摘要生成的深度和流畅;再构建报告模板和填写规则,结合用户反馈进行完善补充,实现国防领域综述类高质量报告的自动快速生成,为用户提供更加优良的自动化服务。本发明可以应用于国防科技领域报告的自动生成。自动生成。自动生成。
技术研发人员:史腾飞 江洋 孙孟阳 李仲铀 谢祥生 王珊珊 徐智斌 王洪树 高萌 雷贺功
受保护的技术使用者:中国船舶重工集团公司第七一四研究所
技术研发日:2021.12.01
技术公布日:2022/3/8