本发明涉及生物信息领域,具体地,本发明涉及确定dna分子序列的方法及装置,更具体地,本发明涉及确定dna分子序列的方法及装置、计算机程序产品、计算设备以及计算机可读存储介质。
背景技术:
1、目前质粒样本大多可以通过sanger测序获得其对应的dna序列。但由于其测序技术的局限性,所获得序列的前后几十碱基质量较差,错误率较高;同时由于sanger测序一次大约只能测800bp,对于质粒样本(一般1kb~10kb)就需要测多个反应,测序时间一般要几天到10多天,周期较长。
2、质粒由于是环状结构,其可以通过tn5酶打断后,建库并进行nanopore测序,用canu软件对测序序列进行纠错和组装,如样本vp64-p,实际长度为12133bp,而canu组装长度为23180bp;样本vp64-c,实际长度为11307bp,而canu组装长度为22305bp;样本krab-p,实际长度为11397bp,而canu组装长度为21073bp;可以看出,组装结果长度会比实际长度长,导致其准确率下降。
3、因此,本领域亟需开发一种确定质粒序列的方法。
技术实现思路
1、本技术是发明人基于对以下问题和事实的发现而提出的:
2、针对目前传统测序方法(如sanger测序)中存在的测序序列短(一般800bp),面对长序列的质粒样本需要测测多个反应,导致其周期较长(一般几天到十几天),而且准确率不高(一般在85~98%)。另一方面,nanopore测序采用canu软件组装,组装结果长度比实际长度长非常多,存在冗余情况。因此,发明人通过开发新的组装流程,用于组装质粒样本序列,组装结果序列准确率能达到99%以上。
3、本发明旨在至少在一定程度上解决上述技术问题之一。
4、为此,在本发明的第一方面,本发明提出了一种确定dna分子序列的方法。根据本发明的实施例,所述方法包括:获取所述dna分子的测序结果,所述测序结果由多个测序读段构成;将所述测序读段进行切割处理,以便获得长度在预定范围内的多个子读段;和将所述多个子读段进行组装处理,以便确定所述dna分子序列。
5、根据本发明的实施例,利用上述方法对dna分子的测序读段进行切割处理,可以显著提高dna分子序列组装结果的准确率(能够达到99%以上)。
6、需要说明的是,所述测序结果的获得可选择但不限于illumina公司的hiseq/miseq/nextseq/novaseq测序平台、thermo fisher/life technologies公司的iontorrent平台、华大基因的bgiseq和mgiseq/dnbseq/nanopore平台以及单分子测序平台;测序方式可以选择单端测序,也可以选择双末端测序;通过测序反应获得的测序结果/或者测序数据即测读出来的片段,被称为读段(reads),读段的长度称为读长。
7、需要说明的是,所述子读段是通过测序读段切割获得。例如,长度为1000bp的测序读段,以500bp的预定范围进行切割,获得两个500bp的子读段。
8、根据本发明的实施例,上述确定dna分子序列的方法还可以包括下列附加技术特征中的至少之一:
9、根据本发明的实施例,所述测序结果是通过测序平台获得的。
10、根据本发明的实施例,所述测序平台选自hiseq、miseq、nextseq、novaseq、iontorrent、mgiseq、dnbseq、nanopore和单分子测序平台的至少之一。
11、根据本发明的实施例,所述测序平台为nanopore平台。
12、根据本发明的实施例,所述dna分子选自质粒和pcr扩增产物中的至少之一。
13、根据本发明的实施例,所述dna分子长度不小于500bp。
14、根据本发明的实施例,在进行所述切割处理之前,对所述测序读段进行筛选处理,以便获得测序结果为数据量至少10倍的所述测序读段,优选至少50倍的所述测序读段。
15、需要说明的是,所述测序读段可以是随机选取的,也可以平均质量值最高的。发明人选择基于平均质量值越高其序列的平均准确率越高原则,选择数据量为平均质量50倍以上数据进行序列组装,从而提高获得的序列的准确性。所述数据量是指参考序列的片段长度。
16、根据本发明的实施例,在进行所述筛选处理之后,进行所述切割处理之前,对所述测序读段进行纠错处理。在获得质粒测序结果后,数据中可能存在一些错误或者噪音。这些错误可能是由于测序仪器的误差、pcr扩增过程中引入的错配、dna片段间重叠区域相似度低等因素导致的。进行纠错处理,可以保证组装的准确性和连续性。
17、根据本发明的实施例,在进行所述组装处理之后,对所述dna分子序列进行目标序列获取处理。
18、需要说明的是,所述目标序列获取处理是基于已确定的dna分子序列,在引物序列或载体序列已知的条件下进行目标序列的获取。
19、根据本发明的实施例,所述预定范围为300~30000bp。
20、示例性的,假设质粒序列长度为3000bp,设置预定范围为1000bp,所述无交集切割即将所述质粒切割为1~1000bp,1001~2000bp,2001~3000bp的三个测序读段。
21、根据本发明的实施例,所述预定范围为300~1999bp。根据本发明的实施例,可选择300bp、400bp、500bp、600bp、700bp、800bp、900bp、1000bp的预定范围进行切割。所述切割也可根据实际序列长度对预定范围进行选择。
22、根据本发明的实施例,所述预定范围为1000bp。
23、根据本发明的实施例,所述切割处理为无交集切割。
24、根据本发明的实施例,所述切割处理为有交集切割。
25、根据本发明的实施例,所述交集不高于200bp。
26、根据本发明的实施例,所述交集为100bp。
27、需要说明的是,所述有交集切的碱基(bp)交集数量可根据实际需要自由选择,不做具体限制,但一般设置于200bp以下。
28、示例性的,假设质粒序列长度为3000bp,设置预定范围为1000bp,切割为交集为100bp,所述无交集切割即将所述质粒切割为1~1000bp,901~1900bp,1801~2800bp,2701~3000bp的四个测序读段。
29、根据本发明的实施例,所述组装是基于overlap-layout-consensus(olc)算法进行的。所述基因组组装软件可基于实际应用场景进行自由选取。
30、根据本发明的实施例,所述组装是采用newbler软件进行的。
31、在本发明的第二方面,本发明提出了一种确定dna分子序列的装置。根据本发明的实施例,所述装置包括:数据收集单元,所述数据收集单元用于获取所述dna分子的测序结果,所述测序结果由多个测序读段构成;切割单元,所述切割单元与所述数据收集单元相连,用于将所述测序读段进行切割处理,以便获得长度在预定范围内的多个子读段;和组装单元,所述组装单元与所述切割单元相连,用于将所述多个子读段进行组装处理,以便确定所述dna分子序列。
32、根据本发明的实施例,所述装置在运行中无需人工干预,自动化程度高,组装准确性高,可有效减少人为干预造成的误差,可大幅节省时间和实验室人工成本。
33、需要说明的是,从结构上看(图1),所述数据收集单元s100与所述切割单元s200相连,所述切割单元s200与所述组装单元s300相连。
34、根据本发明的实施例,上述确定dna分子序列的装置还可以包括下列附加技术特征中的至少之一:
35、根据本发明的实施例,所述装置进一步包括:筛选单元,所述筛选单元与所述数据收集单元和所述切割单元相连,用于选择测序结果为数据量至少10倍的所述测序读段。
36、需要说明的是,在所述筛选单元中,所述测序读段的筛选质量倍数可以进行自由设置,一般选择数据量至少10倍的测序读段,就可以满足纠错处理和组装处理。但是设置倍数越高,获得的组装序列的准确性越高,因此在可选择范围内,尽可能选取平均质量倍数更高的测序读段进行组装。所述筛选单元s101设置于所述数据收集单元s100和所述切割单元s200之间,并相互连接(图2)。所述数据量是指参考序列的片段长度。
37、根据本发明的实施例,所述装置进一步包括:数据纠错单元,所述数据纠错单元和所述筛选单元相连,用于对所述测序读段进行纠错处理。
38、需要说明的是,从结构上看,所述数据纠错单元s102与所述筛选单元s101和所述切割单元s200相连(图3)。
39、根据本发明的实施例,所述装置进一步包括:目标序列获取单元,所述目标序列获取单元用于对所述dna分子序列进目标序列获取处理。
40、需要说明的是,所述目标序列获取单元是在引物序列或载体序列已知的条件下进行目标序列的获取。所述目标序列获取单元可选择性与前述组装单元进行连接。若载体序列或引物序列未知,则不执行该步骤。
41、上述装置还可与文库构建装置和/或测序装置和/或数据预处理装置相连,用于全自动化进行测序序列的组装。所述文库构建装置用于对样本进行文库构建(如质粒nanopore文库构建等),所述测序装置用于对构建完成的文库进行测序(如nanopore测序等),所述数据预处理装置用于对前述测序下机数据进行预处理(如去除接头序列等)。
42、在本发明的第三方面,本发明提出了一种计算机程序产品。根据本发明的实施例,所述计算机程序产品包括计算机指令,当部分或全部所述计算机指令在计算机上运行时,使得本发明第一方面所述的方法被执行。
43、需要说明的是,所述计算机程序产品包括分析应用软件或程序压缩包。
44、在本发明的第四方面,本发明提出了一种计算设备。根据本发明的实施例,所述计算设备包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序以实现本发明第一方面所述的方法。
45、在本发明的第五方面,本发明提出了一种计算机可读存储介质。根据本发明的实施例,所述存储介质包括计算机指令,当所述指令被计算机执行时,使得所述计算机实现本发明第一方面所述的方法。
46、需要说明的是,在本技术中,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。本发明描述的各种计算机可读存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读存储介质。术语“机器可读存储介质”可包括但不限于无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。
47、本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
1.一种确定dna分子序列的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述测序结果是通过测序平台获得的;
3.根据权利要求1所述的方法,其特征在于,在进行所述切割处理之前,对所述测序读段进行筛选处理,以便获得测序结果为数据量至少10倍的所述测序读段,优选至少50倍的所述测序读段。
4.根据权利要求3所述的方法,其特征在于,在进行所述筛选处理之后,进行所述切割处理之前,对所述测序读段进行纠错处理;
5.根据权利要求1所述的方法,其特征在于,所述预定范围为300~30000bp;
6.根据权利要求1所述的方法,其特征在于,所述切割处理为无交集切割。
7.根据权利要求1所述的方法,其特征在于,所述切割处理为交集为有交集切割;
8.根据权利要求1所述的方法,其特征在于,所述组装是基于overlap-layout-consensus算法进行的。
9.根据权利要求1所述的方法,其特征在于,所述组装是采用newbler软件进行的。
10.一种确定dna分子序列的装置,其特征在于,包括:
11.根据权利要求10所述的装置,其特征在于,所述装置进一步包括:筛选单元,所述筛选单元与所述数据收集单元和所述切割单元相连,用于选择测序结果为数据量至少10倍的所述测序读段。
12.根据权利要求11所述的装置,其特征在于,所述装置进一步包括:数据纠错单元,所述数据纠错单元和所述筛选单元相连,用于对所述测序读段进行纠错处理;
13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,当部分或全部所述计算机指令在计算机上运行时,使得如权利要求1~9任一项所述的方法被执行。
14.一种计算设备,其特征在于,包括:存储器和处理器;
15.一种计算机可读存储介质,其特征在于,所述存储介质包括计算机指令,当所述指令被计算机执行时,使得所述计算机实现如权利要求1~9任一项所述的方法。