一种基于大模型的知识图谱构建方法与流程

本发明涉及电商平台，更具体地说，涉及一种基于大模型的知识图谱构建方法。

背景技术：

1、知识图谱能够整合来自不同来源的知识，并通过推理机制发现新的知识和关系，提高信息检索的准确性和效率，在搜索引擎中，知识图谱可以更精确地理解用户的查询意图和上下文，提供更相关和丰富的搜索结果，知识图谱使得机器能够理解和回答更复杂的问题，实现更准确的信息检索和知识发现，通过分析用户的行为和偏好，知识图谱可以帮助推荐系统提供个性化和精准的推荐结果，知识图谱在人工智能领域的应用广泛且越来越重要；

2、随着电商平台的发展，为了使得对用户智能推荐适合的商品，越来越多电商平台也会构建自己的知识图谱，但是在实际的使用过程中，由于电商平台上的商品信息往往以标题和图片为主，缺乏详尽的描述性信息，而且商户上传的商品数据可能存在信息不完整的情况，尤其是在lbs（基于位置服务）的电商场景下，大量商品数据的录入往往伴随着信息质量参差不齐的问题，此外，商品详情页虽然蕴含大量知识信息，但其质量不一，结构各异，使得从中提取知识变得困难；

3、商品领域涉及的数据维度众多，包括通用属性（如品牌、规格、包装、口味等）和品类特有的属性（如脂肪含量、是否含糖、电池容量等），这导致了数据建设的效率问题，需要处理和维护大量的属性维度，这在知识图谱的构建和更新中都是一项挑战；

4、用户在日常生活中依赖丰富的常识知识来理解商品信息，例如通过简短的描述推断商品的真实含义，知识图谱的构建需要结合这些常识知识，这通常涉及对大量非结构化文本的语义理解，同时，在医药、个护等专业领域，图谱的建设还需要依赖专业知识，这些领域的知识准确性要求极高，需要专家和算法相结合的方式进行高效的图谱构建。

技术实现思路

1、为解决上述问题，本发明提供了一种基于大模型的知识图谱构建方法。

2、本发明提供了一种基于大模型的知识图谱构建方法，包括以下步骤：

3、收集平台的商品的内部数据和外部数据，并将收集到的数据整合到统一的数据仓库中，具体步骤如下：

4、定期对收集到的数据进行质量评估，根据评估的结果来进行筛选，去除准确性、一致性和可靠性不足的数据；

5、对于评估通过的数据再进行完整性判断，将判断通过的数据传输至下一步骤；

6、对于经过完整性判断的数据进行数据补全，之后再将数据补全后传输至下一步骤；

7、对数据仓库中的商品数据进行预处理，提取出需要特征信息；

8、将提取出的特征信息输入大模型中，识别文本中的实体，并且识别实体间的关系；

9、确定文本本体中分类体系以及实体间的关系，将本体的分类体系、实体和实体间的关系存储在数据库中构建知识图谱；

10、获得用户的数据信息，根据用户的数据信息和知识图谱中商品的相似性对用户进行推荐。

11、优选的，所述定期对收集到的数据进行质量评估，根据评估的结果来进行筛选，去除准确性、一致性和可靠性不足的数据的具体方式如下：

12、将收集到的数据中的文本进行抽查，获取得到抽查错误的次数，将文本抽查错误的次数除以总抽查的次数得到该数据的准确性；

13、检查收集到的数据中的每个文本是否遵循预定义的格式，通过符合一致性要求的文本数量除以数据中总文本的数量获得该数据的一致性；

14、获取得到该数据中稳定的文本数量，将稳定的文本数量除以数据中总文本的数量，获得该数据的可靠性；

15、将获取得到数据的准确性、一致性和可靠性跟对应的历史数据平均值对比，如果该数据准确性、一致性和可靠性中任意一项低于对应的历史数据平均值，则判断该数据不符合要求，反之，则判断该数据符合要求，并且传输至下一步骤。

16、优选的，所述对于评估通过的数据再进行完整性判断的具体过程如下：

17、对于评估数据中的文本，事先设定每个文本应包含的信息点数量n，获取得到实际包含的信息点数量n；

18、根据公式t，计算获取得到每个文本的覆盖率t；

19、对数据中所有文本的覆盖率求平均值，得到整个数据的平均信息点覆盖率；

20、如果整个数据的平均信息点覆盖率低于预设的标准范围，则将该数据标记为非完整数据，反之，则将该数据标记为完整数据传输至下一步骤。

21、优选的，所述对于经过完整性判断的数据进行数据补全的具体过程如下：

22、确定非完整数据中的文本数据是否为数值数据，如果是，则判断非完整数据呈正态分布还是偏态分布；

23、如果呈正态分布或者近似正态分布，则使用均值插补填补非完整数据缺失的数值；

24、如果呈偏态分布，则使用中位数插补填补非完整数据；

25、如果非完整数据具有明显的众数，则使用众数插补填补非完整数据。

26、优选的，如果非完整数据中的文本数据为商品文字数据，则判断非完整数据缺失的为商品描述的长度还是数据稀疏性；

27、如果缺失的是商品描述的长度，则使用中位数长度作为插补；

28、如果缺失的是数据稀疏性，则判断非完整数据是否有常见的描述短语，如果是，则使用众数插补，如果否，则使用大模型生成缺失描述。

29、优选的，所述对数据仓库中的商品数据进行预处理的具体过程如下：

30、首先进行数据清洗，移除重复记录的数据；

31、之后将数据转换成适合分析的格式，具体为日期格式统一、文本编码标准化；

32、将数据中的数据数据缩放到特定的范围或分布。

33、优选的，所述识别文本中的实体，并且识别实体间的关系的具体如下，首先进行实体识别，具体为：将文本分割成单独的词汇或标记，为每个词汇标注词性；

34、使用预定义的模式或正则表达式识别特定类型的实体；

35、使用预训练模型进行实体识别；

36、之后识别实体间关系，具体为：

37、依存句法分析，分析句子中词汇之间的依存关系，确定它们之间的语法结构；

38、路径分析，在依存句法树中查找实体对之间的路径，以确定它们之间的关系；

39、关系分类，使用机器学习或深度学习方法对实体对之间的关系进行分类。

40、优选的，所述识别文本中的实体，并且识别实体间的关系后，还需要评估实体识别和关系抽取任务的表现，具体方式为：

41、通过正确识别的实体数量除以正确识别的实体数量和错误识别为实体的实例得到识别文本中实体的准确得分；

42、通过正确识别的实体数量除以实际存在的实体但被模型错误地未识别为实体的实例和正确识别的实体数量的和获得识别文本中实体中的召回率。

43、优选的，所述根据用户的数据信息和知识图谱中商品的相似性对用户进行推荐的具体工作方式如下：

44、获取得到用户数据中文本的词汇集合g，获取得到每个商品文本的词汇集合h；

45、获取得到词汇集合g和词汇集合h的交集，获取得到词汇集合g和词汇集合h的交集的并集；

46、通过词汇集合g和词汇集合h的交集除以词汇集合g和词汇集合h的并集获取得到用户和商品的相似度k；

47、事先设定一个相似度k的最低值，将所有相似度k大于最低值的商品推荐至用户的电商平台。

48、优选的，所述根据用户的数据信息和知识图谱中商品的相似性对用户进行推荐的具体工作方式还可以为：

49、在对用户的文本进行分割前，进行预处理，去除停用词、标点符号、进行词干提取或词形还原等，以提高词汇集合的质量；

50、为词汇集合中的每个词汇分配权重；

51、即使相似度k低于最低值，也间隔一段时间推送一个该商品至用户的手机终端。

52、有益效果：通过精确的文本相似度计算，确保推荐系统提供的商品与用户的兴趣和偏好高度相关，从而提高用户满意度，用户收到的推荐更加贴合其实际需求，减少了筛选商品的时间，提升了用户在电商平台上的浏览和购物体验，相关性强的推荐更有可能促使用户进行购买，从而提高电商平台的销售转化率，通过分析用户偏好和购买行为，可以帮助电商平台更准确地预测热销商品，优化库存管理和供应链效率，知识图谱使得推荐系统能够提供更加个性化的服务，满足不同用户的特定需求。

技术特征：

1.一种基于大模型的知识图谱构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于大模型的知识图谱构建方法，其特征在于，所述定期对收集到的数据进行质量评估，根据评估的结果来进行筛选，去除准确性、一致性和可靠性不足的数据的具体方式如下：

3.根据权利要求1所述的一种基于大模型的知识图谱构建方法，其特征在于，所述对于评估通过的数据再进行完整性判断的具体过程如下：

4.根据权利要求1所述的一种基于大模型的知识图谱构建方法，其特征在于，所述对于经过完整性判断的数据进行数据补全的具体过程如下：

5.根据权利要求4所述的一种基于大模型的知识图谱构建方法，其特征在于，如果非完整数据中的文本数据为商品文字数据，则判断非完整数据缺失的为商品描述的长度还是数据稀疏性；

6.根据权利要求1所述的一种基于大模型的知识图谱构建方法，其特征在于，所述对数据仓库中的商品数据进行预处理的具体过程如下：

7.根据权利要求6所述的一种基于大模型的知识图谱构建方法，其特征在于，所述识别文本中的实体，并且识别实体间的关系的具体如下，首先进行实体识别，具体为：将文本分割成单独的词汇或标记，为每个词汇标注词性；

8.根据权利要求7所述的一种基于大模型的知识图谱构建方法，其特征在于，所述识别文本中的实体，并且识别实体间的关系后，还需要评估实体识别和关系抽取任务的表现，具体方式为：

9.根据权利要求1所述的一种基于大模型的知识图谱构建方法，其特征在于，所述根据用户的数据信息和知识图谱中商品的相似性对用户进行推荐的具体工作方式如下：

10.根据权利要求9所述的一种基于大模型的知识图谱构建方法，其特征在于，所述根据用户的数据信息和知识图谱中商品的相似性对用户进行推荐的具体工作方式还可以为：

技术总结
本发明公开了一种基于大模型的知识图谱构建方法，涉及电商平台技术领域，包括定期对收集到的数据进行质量评估，根据评估的结果来进行筛选，去除准确性、一致性和可靠性不足的数据；对于评估通过的数据再进行完整性判断，将判断通过的数据传输至下一步骤；对于经过完整性判断的数据进行数据补全，之后再将数据补全后的传输至下一步骤：通过精确的文本相似度计算，确保推荐系统提供的商品与用户的兴趣和偏好高度相关，从而提高用户满意度，用户收到的推荐更加贴合其实际需求，减少了筛选商品的时间，提升了用户在电商平台上的浏览和购物体验，相关性强的推荐更有可能促使用户进行购买，从而提高电商平台的销售转化率。

技术研发人员：陈军,刘海东,康夺
受保护的技术使用者：江苏红网技术股份有限公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)