一种数据迁移方法、装置、电子设备及存储介质与流程

专利查询2023-8-3  132



1.本技术涉及数据处理技术领域,具体而言,涉及一种数据迁移方法、装置、电子设备及存储介质。


背景技术:

2.目前,伴随着互联网技术的快速发展,数据正呈现爆发式增长,人类进入了大数据时代。在大数据时代,越来越多的企业建立起自己的数据平台,然而随着业务的增长以及集群规模的不断扩大,一个数据集群已无法满足数据开发和业务拓展的需求,这就需要对集群数据进行迁移。
3.现有的数据迁移方式中,通常是将待迁移数据迁移至原集群迁移服务器,从原集群迁移服务器迁移至新集群迁移服务器,最后从新集群迁移服务器迁移至新集群数据库。然而,迁移服务器对应的本地磁盘的存储空间有限,常规的本地磁盘只有2t(太字节),由于存储的数据量不能超过85%且受制于磁盘本身的限制,实际可使用的存储空间仅为1.5t左右,当待迁移数据为几百t的数据量时,需要人为对待迁移数据进行多次迁移才能完成迁移任务,造成迁移过程繁琐以及迁移效率低的问题。


技术实现要素:

4.有鉴于此,本技术的目的在于提供一种数据迁移方法、装置、电子设备及存储介质,能够至少部分地解决现有技术中迁移过程繁琐以及迁移效率低的问题。
5.第一方面,本技术实施例提供了一种数据迁移方法,包括:
6.基于数据迁移任务,确定多个待迁移项目以及每个待迁移项目的迁移数据清单,数据迁移任务包括原集群标识以及目标集群标识,迁移数据清单包括多个待迁移项目之间的依赖关系、数据表大小以及数据表存储路径;
7.基于迁移数据清单中的多个待迁移项目之间的依赖关系、数据表大小以及数据表存储路径,确定多个待迁移项目的数据迁移顺序;
8.按照数据迁移顺序,将多个待迁移项目从原集群标识对应的原集群迁移至目标集群标识对应的目标集群;
9.针对每个待迁移项目,基于待迁移项目对应的迁移数据清单中的数据表大小以及数据表存储路径,对迁移后目标集群中的数据进行校验。
10.可选地,基于数据迁移任务,确定多个待迁移项目以及每个待迁移项目的迁移数据清单,包括:基于数据迁移任务中的迁移项目标识,确定多个待迁移项目;针对每个待迁移项目,对待迁移项目对应的数据库进行扫描,获取待迁移项目对应的迁移数据清单。
11.可选地,基于迁移数据清单中的多个待迁移项目之间的依赖关系、数据表大小以及数据表存储路径,确定多个待迁移项目的数据迁移顺序,包括:基于多个待迁移项目之间的依赖关系,确定项目间迁移顺序;针对每个待迁移项目,基于待迁移项目对应的迁移数据清单中的数据表大小及存储路径,确定项目内迁移顺序;基于项目间迁移顺序以及项目内
迁移顺序,确定多个待迁移项目的数据迁移顺序。
12.可选地,按照数据迁移顺序,将多个待迁移项目从原集群标识对应的原集群迁移至目标集群标识对应的目标集群,包括:将多个待迁移项目中的数据从原集群标识对应的原集群中的数据库迁入第一分布式文件系统;基于迁移数据清单,对迁移至第一分布式文件系统中的数据进行校验;如果校验成功,将迁移至第一分布式文件系统中的数据迁入第二分布式文件系统;基于迁移数据清单,对迁移至第二分布式文件系统中的数据进行校验;如果校验成功,将迁移至第二分布式文件系统中的数据迁入目标数据库。
13.可选地,针对每个待迁移项目,基于待迁移项目对应的迁移数据清单中的数据表大小以及数据表存储路径,对迁移后目标集群中的数据进行校验,包括:对迁移后目标集群中待迁移项目的数据表的个数是否正确进行校验;对迁移后目标集群中待迁移项目的数据表的存储路径是否正确进行校验;对迁移后目标集群中待迁移项目的数据表的大小是否正确进行校验。
14.可选地,方法还包括:显示数据迁移信息,数据迁移信息包括数据迁移进度以及数据迁移速度。
15.可选地,第一分布式文件系统与原集群的数据库同属于原集群;第二分布式文件系统与目标数据库同属于目标集群。
16.第二方面,本技术实施例还提供了一种数据迁移装置,所述装置包括:
17.迁移项目确定模块,用于基于数据迁移任务,确定多个待迁移项目以及每个待迁移项目的迁移数据清单,数据迁移任务包括原集群标识以及目标集群标识,迁移数据清单包括多个待迁移项目之间的依赖关系、数据表大小以及数据表存储路径;
18.迁移顺序获取模块,用于基于迁移数据清单中的多个待迁移项目之间的依赖关系、数据表大小以及数据表存储路径,确定多个待迁移项目的数据迁移顺序;
19.数据迁移模块,用于按照数据迁移顺序,将多个待迁移项目从原集群标识对应的原集群迁移至目标集群标识对应的目标集群;
20.数据校验模块,用于针对每个待迁移项目,基于待迁移项目对应的迁移数据清单中的数据表大小以及数据表存储路径,对迁移后目标集群中的数据进行校验。
21.第三方面,本技术实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的数据迁移方法的步骤。
22.第四方面,本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的数据迁移方法的步骤。
23.本技术实施例带来了以下有益效果:
24.本技术实施例提供的一种数据迁移方法、装置、电子设备及存储介质,能够通过两个不同的集群,实现对多个待迁移项目的自动迁移,同时,不但能对迁移数据的准确性进行校验,还能对迁移过程进行监控,减少人为参与,与现有技术中的数据迁移方法相比,解决了现有技术中迁移过程繁琐以及迁移效率低的问题。
25.为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合
所附附图,作详细说明如下。
附图说明
26.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
27.图1示出了本技术实施例所提供的数据迁移方法的流程图;
28.图2示出了本技术实施例所提供的数据迁移装置的结构示意图;
29.图3示出了本技术实施例所提供的一种电子设备的结构示意图。
具体实施方式
30.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本技术保护的范围。
31.值得注意的是,在本技术提出之前,伴随着互联网技术的快速发展,数据正呈现爆发式增长,人类进入了大数据时代。在大数据时代,越来越多的企业建立起自己的数据平台,然而随着业务的增长以及集群规模的不断扩大,一个数据集群已无法满足数据开发和业务拓展的需求,这就需要对集群数据进行迁移。现有的数据迁移方式中,通常是将待迁移数据迁移至原集群迁移服务器,从原集群迁移服务器迁移至新集群迁移服务器,最后从新集群迁移服务器迁移至新集群数据库。然而,迁移服务器对应的本地磁盘的存储空间有限,常规的本地磁盘只有2t(太字节),由于存储的数据量不能超过85%且受制于磁盘本身的限制,实际可使用的存储空间仅为1.5t左右,当待迁移数据为几百t的数据量时,需要人为对待迁移数据进行多次迁移才能完成迁移任务,造成迁移过程繁琐以及迁移效率低的问题。
32.基于此,本技术实施例提供了一种数据迁移方法,以简化数据迁移过程,提高数据迁移效率。
33.请参阅图1,图1为本技术实施例所提供的一种数据迁移方法的流程图。如图1所示,本技术实施例提供的数据迁移方法,包括:
34.步骤s101,基于数据迁移任务,确定多个待迁移项目以及每个待迁移项目的迁移数据清单。
35.该步骤中,数据迁移任务用于指示待迁移的项目、待迁移项目的迁出集群以及待迁移项目的迁入集群,作为示例,数据迁移任务包括迁移项目标识、原集群标识以及目标集群标识、执行数据迁移任务的时间、执行数据迁移任务的用户的标识。
36.迁移项目标识可指待迁移项目的标识,用于指示被迁移的项目,迁移项目标识为多个,每个迁移项目对应一个待迁移项目。作为示例,迁移项目标识可以是项目名称或者项
目编号。
37.待迁移项目可指从原集群迁移至目标集群的项目,每个待迁移项目对应一个管理与维护该项目的用户,该用户可以是在大数据平台上注册的企业或者个人,用户可以在大数据平台上购买资源、申请组件,以对项目进行管理与维护。这里,每个待迁移项目对应至少一个数据库,用于存储该项目的数据资源。可以理解的,随着数据量的不断扩大,一个集群已无法满足全部用户的需求,因此,需要将多个项目迁移至其他集群。
38.原集群标识可指原集群的唯一标识,用于指示待迁移项目被迁出前所在的集群,作为示例,原集群标识可以是集群名称或者集群编号。
39.目标集群标识可指目标集群的唯一标识,用于指示待迁移项目迁入的集群,作为示例,目标集群标识可以是集群名称或者集群编号。
40.迁移数据清单可指待迁移数据表的清单,用于记录每个待迁移项目的多个待迁移数据表以及每个待迁移数据表的相关信息。这里,每个待迁移项目对应的数据库中包括多个数据表,这些数据表即是待迁移数据表,迁移数据清单中记录了该清单对应的待迁移项目的数据库标识、用户标识,还记录了每张待迁移数据表的表标识、大小、记录数量、字段名称、存储路径以及依赖关系,通过迁移数据清单可以对迁移后的数据进行校验。
41.其中,数据库标识是指待迁移项目对应的数据库的标识,例如:数据库名称,用户标识是指管理待迁移项目的用户的标识,例如:用户名或者用户id,表标识可以是数据表的名称,大小是指数据表的字节数,记录数量是指数据表有多少条记录,例如:有多少行或者多少个主键,字段名称可以是数据表中的主要字段的名称,存储路径是指数据表在数据库中的存储目录,依赖关系是指数据表之间的依赖关系,例如:不同项目的a和b两张表中a表依赖于b表,因此,需要先将b表迁移过去,然后再对a表进行迁移,这里所说的a表依赖于b表,可以理解为获取a表数据时需要先获取b表的数据。
42.迁移数据清单还包括权限清单,权限清单是指对该迁移数据清单对应的待迁移项目的数据库的操作权限的清单,在权限清单中列举出了能够访问该数据库的所有用户的操作权限,操作权限包括但不限于以下项中的至少一项:插入、删除、查询。
43.在一可选实施例中,执行步骤s101时包括:基于数据迁移任务中的迁移项目标识,确定多个待迁移项目;针对每个待迁移项目,对待迁移项目对应的数据库进行扫描,获取待迁移项目对应的迁移数据清单。
44.这里,数据迁移任务中包括了迁移项目标识,可根据该迁移项目标识确定所要迁移的项目,如果迁移的项目为多个,则针对每一个项目对应的数据库进行扫描,获取该项目的迁移数据清单。
45.同时,可根据该迁移数据清单,确定迁移项目时启动的进程数量、占用cpu的资源大小以及占用内存大小。例如:当待迁移项目包括多个数据量较小的数据表时,由于这些数据表占用内存较少,迁移速度块,因此,可启动多个线程进行并发处理,以提高迁移效率。当待迁移项目包括数据量较大的数据时,由于这些数据表占用内存多,迁移速度慢,因此,启动少量线程进行迁移。
46.可见,通过每个待迁移项目的迁移数据清单,能够对本次数据迁移任务中的待迁移项目进行多个维度的分析,例如:待迁移项目的数量、待迁移项目之间的关联关系、每个待迁移项目自身的属性,有利于快速确定数据迁移顺序、数据迁移时间,避免与其他数据迁
移任务造成冲突。
47.步骤s102,基于迁移数据清单中的多个待迁移项目之间的依赖关系、数据表大小以及数据表存储路径,确定多个待迁移项目的数据迁移顺序。
48.该步骤中,数据迁移顺序可指多个待迁移项目之间的迁移顺序以及每个待迁移项目内多张数据表之间的迁移顺序。
49.在一可选实施例中,执行步骤s102时包括:基于多个待迁移项目之间的依赖关系,确定项目间迁移顺序;针对每个待迁移项目,基于待迁移项目对应的迁移数据清单中的数据表大小及存储路径,确定项目内迁移顺序;基于项目间迁移顺序以及项目内迁移顺序,确定多个待迁移项目的数据迁移顺序。
50.可见,由于不同项目的数据表之间可能存在依赖关系,因此,根据该依赖关系确定项目间迁移顺序,能够避免因数据迁移造成已迁移的项目运行出现异常的问题,例如:在数据迁移过程中,由于某些原因导致与已迁移项目存在依赖关系的项目未被迁移至目标集群,则已迁移至目标集群的项目因存在依赖关系将无法运行,需要将全部项目重新迁移。
51.步骤s103,按照数据迁移顺序,将多个待迁移项目从原集群标识对应的原集群迁移至目标集群标识对应的目标集群。
52.该步骤中,原集群与目标集群均可以是hadoop集群,可将多个待迁移项目由原hadoop集群迁移至目标hadoop集群。
53.在本技术实施例中,可根据项目间迁移顺序和项目内迁移顺序,依次将多个待迁移项目由原集群迁移至目标集群。
54.在一可选实施例中,第一分布式文件系统与原集群的数据库同属于原集群;第二分布式文件系统与目标数据库同属于目标集群。
55.这里,原集群包括数据库和第一分布式文件系统,数据库可以是hbase数据库,第一分布式文件系统可以是hdfs(hadoop distributed file system,hdfs)。
56.目标集群包括目标数据库和第二分布式文件系统,目标数据库可以是hbase数据库,第二分布式文件系统可以是hdfs(hadoop distributed file system,hdfs)。
57.在一可选实施例中,执行步骤s103包括:将待迁移数据从原集群标识对应的原数据库迁移至第一分布式文件系统;基于迁移数据清单,对迁移至第一分布式文件系统中的数据进行校验;如果校验成功,将第一分布式文件系统中的待迁移数据迁移至第二分布式文件系统;基于迁移数据清单,对迁移至第二分布式文件系统中的数据进行校验;如果校验成功,将第二分布式文件系统中的待迁移数据迁移至目标数据库。
58.可见,多个待迁移项目由原集群的数据库,迁移至目标集群的目标数据库的过程中,有多次校验过程,能确保在数据迁移过程中出现问题时,对异常问题进行快速定位。
59.在本技术实施例中,每个待迁移项目可能包括多个数据表,多个数据表可能存在于不同的目录中,因此,迁移数据时,会将这些数据表迁移至第一分布式文件系统以及第二分布式文件系统的对应目录下,并根据迁移数据清单对迁移后的数据进行校验,以保证在数据完整性、数据关联关系、数据结构以及操作权限等多个方面是正确的。
60.步骤s104,针对每个待迁移项目,基于待迁移项目对应的迁移数据清单中的数据表大小以及数据表存储路径,对迁移后目标集群中的数据进行校验。
61.该步骤中,将待迁移数据迁移至目标数据库对应的目录后,同样会根据迁移数据
清单对迁移后的数据进行校验,以保证在数据完整性、数据关联关系、数据结构以及操作权限等多个方面是正确。
62.在一可选实施例中,执行步骤s104包括:对迁移后目标集群中待迁移项目的数据表的个数是否正确进行校验;对迁移后目标集群中待迁移项目的数据表的存储路径是否正确进行校验;对迁移后目标集群中待迁移项目的数据表的大小是否正确进行校验。
63.这里,由于迁移数据清单中已经记录了待迁移项目中的数据表的相关信息,因此,可以根据这些信息对已迁移至目标数据库中的数据进行校验,例如:根据迁移数据清单中记录的数据表的数量对迁移至目标数据库中待迁移项目的数据表的个数是否正确进行校验,根据迁移数据清单中记录的数据表的存储卢静对迁移至目标数据库中待迁移项目的数据表的存储路径是否正确进行校验,根据迁移数据清单中记录的每个数据表的大小对迁移后目标数据库中的待迁移项目的数据表的大小是否正确进行校验。
64.同时,还可以根据迁移数据清单中记录的该清单对应的待迁移项目的数据库标识、用户标识,对迁移后目标数据库中的待迁移项目对应的数据库标识以及用户标识进行校验。另外,还可以根据迁移数据清单中记录的每张待迁移数据表的记录数量、字段名称以及依赖关系,对迁移后目标数据库中的待迁移项目对应的数据表的记录数量、字段名称以及依赖关系进行校验。再者,可以根据权限清单对迁移后目标数据库中的待迁移项目对应的数据库的操作权限进行验证。
65.需要指出的是,操作权限可以在待迁移项目迁移至目标数据库后进行配置。
66.在一可选实施例中,显示数据迁移信息,数据迁移信息包括数据迁移进度以及数据迁移速度。
67.这里,在数据迁移的过程中,可将数据迁移信息显示出来,例如:将数据迁移进度、数据迁移速度、已迁移数据量以及未迁移数据量显示出来,以供工作人员对数据迁移过程进行监控。
68.与现有技术中的数据迁移方法相比,本技术能够通过两个不同的集群,实现对多个待迁移项目的自动迁移,同时,不但能对迁移数据的准确性进行校验,还能对迁移过程进行监控,减少人为参与,与现有技术中的数据迁移方法相比,解决了现有技术中迁移过程繁琐以及迁移效率低的问题。
69.基于同一发明构思,本技术实施例中还提供了与数据迁移方法对应的数据迁移装置,由于本技术实施例中的装置解决问题的原理与本技术实施例上述数据迁移方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
70.请参阅图2,图2为本技术实施例所提供的一种数据迁移装置的结构示意图。如图2中所示,数据迁移装置200包括:
71.迁移项目确定模块201,用于基于数据迁移任务,确定多个待迁移项目以及每个待迁移项目的迁移数据清单,数据迁移任务包括原集群标识以及目标集群标识,迁移数据清单包括多个待迁移项目之间的依赖关系、数据表大小以及数据表存储路径;
72.迁移顺序获取模块202,用于基于迁移数据清单中的多个待迁移项目之间的依赖关系、数据表大小以及数据表存储路径,确定多个待迁移项目的数据迁移顺序;
73.数据迁移模块203,用于按照数据迁移顺序,将多个待迁移项目从原集群标识对应的原集群迁移至目标集群标识对应的目标集群;
74.数据校验模块204,用于针对每个待迁移项目,基于待迁移项目对应的迁移数据清单中的数据表大小以及数据表存储路径,对迁移后目标集群中的数据进行校验。
75.可选地,迁移项目确定模块201还用于:基于数据迁移任务中的迁移项目标识,确定多个待迁移项目;针对每个待迁移项目,对待迁移项目对应的数据库进行扫描,获取待迁移项目对应的迁移数据清单。
76.可选地,迁移顺序获取模块202还用于:基于多个待迁移项目之间的依赖关系,确定项目间迁移顺序;针对每个待迁移项目,基于待迁移项目对应的迁移数据清单中的数据表大小及存储路径,确定项目内迁移顺序;基于项目间迁移顺序以及项目内迁移顺序,确定多个待迁移项目的数据迁移顺序。
77.可选地,数据迁移模块203还用于:将多个待迁移项目中的数据从原集群标识对应的原集群中的数据库迁入第一分布式文件系统;基于迁移数据清单,对迁移至第一分布式文件系统中的数据进行校验;如果校验成功,将迁移至第一分布式文件系统中的数据迁入第二分布式文件系统;基于迁移数据清单,对迁移至第二分布式文件系统中的数据进行校验;如果校验成功,将迁移至第二分布式文件系统中的数据迁入目标数据库。
78.可选地,数据校验模块204还用于:对迁移后目标集群中待迁移项目的数据表的个数是否正确进行校验;对迁移后目标集群中待迁移项目的数据表的存储路径是否正确进行校验;对迁移后目标集群中待迁移项目的数据表的大小是否正确进行校验。
79.可选地,数据迁移装置200还包括显示模块(图中未示出),显示模块用于:显示数据迁移信息,数据迁移信息包括数据迁移进度以及数据迁移速度。
80.可选地,第一分布式文件系统与原集群的数据库均属于原集群;第二分布式文件系统与目标数据库均属于目标集群。
81.请参阅图3,图3为本技术实施例所提供的一种电子设备的结构示意图。如图3中所示,所述电子设备300包括处理器310、存储器320和总线330。
82.所述存储器320存储有所述处理器310可执行的机器可读指令,当电子设备300运行时,所述处理器310与所述存储器320之间通过总线330通信,所述机器可读指令被所述处理器310执行时,可以执行如上述图1所示方法实施例中的数据迁移方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
83.本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的数据迁移方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
84.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
85.在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
86.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显
示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
87.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
88.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
89.最后应说明的是:以上所述实施例,仅为本技术的具体实施方式,用以说明本技术的技术方案,而非对其限制,本技术的保护范围并不局限于此,尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。

技术特征:
1.一种数据迁移方法,其特征在于,所述方法包括:基于数据迁移任务,确定多个待迁移项目以及所述每个待迁移项目的迁移数据清单,所述数据迁移任务包括原集群标识以及目标集群标识,所述迁移数据清单包括多个待迁移项目之间的依赖关系、数据表大小以及数据表存储路径;基于所述迁移数据清单中的多个待迁移项目之间的依赖关系、数据表大小以及数据表存储路径,确定所述多个待迁移项目的数据迁移顺序;按照所述数据迁移顺序,将所述多个待迁移项目从所述原集群标识对应的原集群迁移至所述目标集群标识对应的目标集群;针对每个待迁移项目,基于所述待迁移项目对应的迁移数据清单中的数据表大小以及数据表存储路径,对迁移后所述目标集群中的数据进行校验。2.根据权利要求1所述的方法,其特征在于,所述基于数据迁移任务,确定多个待迁移项目以及所述每个待迁移项目的迁移数据清单,包括:基于数据迁移任务中的迁移项目标识,确定多个待迁移项目;针对每个待迁移项目,对所述待迁移项目对应的数据库进行扫描,获取所述待迁移项目对应的迁移数据清单。3.根据权利要求1所述的方法,其特征在于,所述基于所述迁移数据清单中的多个待迁移项目之间的依赖关系、数据表大小以及数据表存储路径,确定所述多个待迁移项目的数据迁移顺序,包括:基于所述多个待迁移项目之间的依赖关系,确定项目间迁移顺序;针对每个待迁移项目,基于所述待迁移项目对应的迁移数据清单中的数据表大小及存储路径,确定项目内迁移顺序;基于所述项目间迁移顺序以及所述项目内迁移顺序,确定多个待迁移项目的数据迁移顺序。4.根据权利要求1所述的方法,其特征在于,所述按照所述数据迁移顺序,将所述多个待迁移项目从所述原集群标识对应的原集群迁移至所述目标集群标识对应的目标集群,包括:将所述多个待迁移项目中的数据从所述原集群标识对应的原集群中的数据库迁入第一分布式文件系统;基于所述迁移数据清单,对迁移至所述第一分布式文件系统中的数据进行校验;如果校验成功,将迁移至所述第一分布式文件系统中的数据迁入第二分布式文件系统;基于所述迁移数据清单,对迁移至所述第二分布式文件系统中的数据进行校验;如果校验成功,将迁移至所述第二分布式文件系统中的数据迁入目标数据库。5.根据权利要求1所述的方法,其特征在于,所述针对每个待迁移项目,基于所述待迁移项目对应的迁移数据清单中的数据表大小以及数据表存储路径,对迁移后所述目标集群中的数据进行校验,包括:对迁移后所述目标集群中所述待迁移项目的数据表的个数是否正确进行校验;对迁移后所述目标集群中所述待迁移项目的数据表的存储路径是否正确进行校验;对迁移后所述目标集群中所述待迁移项目的数据表的大小是否正确进行校验。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:显示数据迁移信息,所述数据迁移信息包括数据迁移进度以及数据迁移速度。7.根据权利要求4所述的方法,其特征在于,所述第一分布式文件系统与原集群中的数据库同属于原集群;所述第二分布式文件系统与所述目标数据库同属于目标集群。8.一种数据迁移装置,其特征在于,所述装置包括:迁移项目确定模块,用于基于数据迁移任务,确定多个待迁移项目以及每个待迁移项目的迁移数据清单,所述数据迁移任务包括原集群标识以及目标集群标识,所述迁移数据清单包括多个待迁移项目之间的依赖关系、数据表大小以及数据表存储路径;迁移顺序获取模块,用于基于所述迁移数据清单中的多个待迁移项目之间的依赖关系、数据表大小以及数据表存储路径,确定所述多个待迁移项目的数据迁移顺序;数据迁移模块,用于按照所述数据迁移顺序,将所述多个待迁移项目从所述原集群标识对应的原集群迁移至所述目标集群标识对应的目标集群;数据校验模块,用于针对每个待迁移项目,基于所述待迁移项目对应的迁移数据清单中的数据表大小以及数据表存储路径,对迁移后所述目标集群中的数据进行校验。9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至7任一项所述数据迁移方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一项所述数据迁移方法的步骤。

技术总结
本申请提供了一种数据迁移方法、装置、电子设备及存储介质,该方法包括:基于数据迁移任务,确定多个待迁移项目以及每个待迁移项目的迁移数据清单;基于迁移数据清单中的多个待迁移项目之间的依赖关系、数据表大小以及数据表存储路径,确定多个待迁移项目的数据迁移顺序;按照数据迁移顺序,将多个待迁移项目从原集群标识对应的原集群迁移至目标集群标识对应的目标集群;针对每个待迁移项目,基于待迁移项目对应的迁移数据清单中的数据表大小以及数据表存储路径,对迁移后目标集群中的数据进行校验。通过采用上述数据迁移方法、装置、电子设备及存储介质,解决了现有数据迁移过程中,迁移过程繁琐以及迁移效率低的问题。迁移过程繁琐以及迁移效率低的问题。迁移过程繁琐以及迁移效率低的问题。


技术研发人员:尹琛 王卓 陈炳印 孙杨 金龙 李胜军 李冰 曾岸林 邵长宏 范文祥 周鹏辉 刘铸澎 邢凯
受保护的技术使用者:阳光保险集团股份有限公司
技术研发日:2021.12.17
技术公布日:2022/3/8

最新回复(0)