1.本公开的各实现方式涉及计算机领域,更具体地,涉及构建多肽分子的方法、装置、设备和计算机存储介质。
背景技术:
2.肽(peptide)是氨基酸以肽键连接在一起而形成的化合物。抗菌肽(antimicrobial peptides,amp)在广谱抗生素和抗感染治疗方面已显示出良好的效果。amp是一种新兴的治疗药物,其被定义为少于50个氨基酸的短蛋白,具有强大的抗菌活性。
3.与传统的药物不同,抗菌肽可以附着到细菌膜,并在细菌膜上形成孔,由此杀死细菌。这种通过物理方法破坏细菌的方式被称为“孔道(barrel stave)”。在这样的杀菌过程中,抗菌肽的抗菌活性与肽的二级结构密切相关。
技术实现要素:
4.在本公开的第一方面,提供了一种用于构建多肽分子的方法。该方法包括:获取生成模型的一组编码表,一组编码表包括多个离散的编码表示,生成模型包括第一解码器和第二解码器,一组编码表用于构建到第一解码器的第一输入和到第二解码器的第二输入,第一解码器用于基于第一输入确定多肽分子的二级结构,第二解码器用于基于第二输入确定多肽分子的氨基酸序列;基于一组编码表中的多个离散编码表示,构建第一特征表示和第二特征表示;利用第一解码器,根据第一特征表示确定目标多肽分子的目标二级结构;以及利用第二解码器,根据第二特征表示确定目标多肽分子的目标氨基酸序列。
5.在本公开的第二方面,提供了一种电子设备,包括:存储器和处理器;其中存储器用于存储一条或多条计算机指令,其中一条或多条计算机指令被处理器执行以实现根据本公开的第一方面的方法。
6.在本公开的第三方面,提供了一种计算机可读存储介质,其上存储有一条或多条计算机指令,其中一条或多条计算机指令被处理器执行实现根据本公开的第一方面的方法。
7.在本公开的第四方面,提供了一种计算机程序产品,其包括一条或多条计算机指令,其中一条或多条计算机指令被处理器执行实现根据本公开的第一方面的方法。
8.基于这样的方式,本公开的实施例能够在构建多肽分子的过程中考虑二级结构,从而可以获得具有更高抗菌活性的多肽分子
附图说明
9.结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
10.图1a和图1b示出了不同结构多肽分子的应用对比;
11.图2示出了能够实施本公开的一些实施例的计算设备的示意性框图;
12.图3示出了根据本公开的一些实施例的训练生成模型的示意图;
13.图4示出了根据本公开的一些实施例的利用生成模型构建多肽分子的示意图;以及
14.图5示出了根据本公开的一些实施例的用于构建多肽分子的示例方法的流程图。
具体实施方式
15.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
16.在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
17.如以上讨论的,抗菌肽amp作为一类新兴治疗药物,已经在广谱抗生素和抗感染治疗方面已显示出良好的效果。具体而言,抗菌肽可以通过“孔道”机制来破坏细菌膜,从而以物理方式杀死细菌。
18.由于大多数细菌表面为阴离子表面,带正电的氨基酸更有可能与细菌膜结合,具有高疏水性的氨基酸则倾向于从溶液环境迁移至细菌膜。然而,抗菌肽的作用机制不仅需要合理的序列,还需要适当的结构。例如,通过形成螺旋结构,抗菌肽可以在一面收集疏水氨基酸,在另一面收集亲水氨基酸。这种称为两亲性(amphipathy)的能力能够帮助抗菌肽插入膜中,并与膜中的其他肽分子保持稳定的孔,从而更有效地杀死细菌。
19.图1a和图1b示出了不同结构多肽分子的应用对比示意图。能够看到,如图1a所示,多肽分子110a仅仅能够附着到细菌膜120a,而难以形成穿孔。相反,如图1b所示,由于其两亲性,具有螺旋结构的多肽分子110b可以更加容易地在细菌膜120b形成稳定的孔。由此可见,多肽分子的二级结构将直接影响多肽分子的抗菌活性。
20.根据本公开的实现,提供了一种用于构建多肽分子的方案。在该方案中,可以获取生成模型的一组编码表,其中一组编码表包括多个离散的编码表示,生成模型包括第一解码器和第二解码器,一组编码表用于构建到第一解码器的第一输入和到第二解码器的第二输入,第一解码器用于基于第一输入确定多肽分子的二级结构,第二解码器用于基于第二输入确定多肽分子的氨基酸序列。示例性地,生成模型例如可以是vq-vae模型(向量量化-变分自编码器)。
21.进一步地,可以基于一组编码表中的多个离散编码表示,构建第一特征表示和第二特征表示,并利用第一解码器根据第一特征表示确定目标多肽分子的目标二级结构,利用第二解码器根据第二特征表示确定目标多肽分子的目标氨基酸序列。
22.基于这样的方式,本公开的实施例所生成的特征表示能够考虑到二级结构的影响,并且能够利用解码器直接生成目标多肽分子的氨基酸序列和二级结构。由此,本公开的实施例能够构建具有预期二级结构的多肽分子,从而能够提高所构造的多肽分子的抗菌活性。
23.以下参考附图来说明本公开的基本原理和若干示例实现。
24.示例设备
25.图2示出了可以用来实施本公开的实施例的示例计算设备200的示意性框图。应当理解,图2所示出的设备200仅仅是示例性的,而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图2所示,设备200的组件可以包括但不限于一个或多个处理器或处理单元210、存储器220、存储设备230、一个或多个通信单元240、一个或多个输入设备250以及一个或多个输出设备260。
26.在一些实施例中,设备200可以被实现为各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任何类型的移动终端、固定终端或便携式终端,包括移动手机、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(pcs)设备、个人导航设备、个人数字助理(pda)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,设备200能够支持任何类型的针对用户的接口(诸如“可佩戴”电路等)。
27.处理单元220可以是实际或虚拟处理器并且能够根据存储器220中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高设备200的并行处理能力。处理单元220也可以被称为中央处理单元(cpu)、微处理器、控制器、微控制器。
28.设备200通常包括多个计算机存储介质。这样的介质可以是设备200可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器220可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(ram))、非易失性存储器(例如,只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、闪存)或其某种组合。存储器220可以包括一个或多个设计模块225,这些程序模块被配置为执行本文所描述的各种实现的功能。设计模块225可以由处理单元210访问和运行,以实现相应功能。存储设备230可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,其能够用于存储信息和/或数据并且可以在设备200内被访问。
29.设备200的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,设备200可以使用与一个或多个其他服务器、个人计算机(pc)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。设备200还可以根据需要通过通信单元240与一个或多个外部设备(未示出)进行通信,外部设备诸如数据库245、其他存储设备、服务器、显示设备等,与一个或多个使得用户与设备200交互的设备进行通信,或者与使得设备200与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(i/o)接口(未示出)来执行。
30.输入设备250可以是一个或多个各种输入设备,例如鼠标、键盘、追踪球、语音输入设备、相机等。输出设备260可以是一个或多个输出设备,例如显示器、扬声器、打印机等。
31.在一些实施例中,如图2所示,设备200可以获取一组编码表(codebook)270,其例如可以包括经训练的多个离散的编码表示。示例性地,设备200例如可以通过输入设备250接收该组编码表270。备选地,设备200也可以从存储设备230或数据库245来读取该组编码
表270。备选地,设备200也可以通过通信单元240来从其他设备接收该组编码表270。
32.在一些实施例中,构建模块225可以根据该组编码表270来构建多肽分子。具体地,构建模块225可以确定多肽分子的结构信息280,其可以包括多肽分子的目标氨基酸序列282和目标二级结构284。关于构建多肽分子的过程将在下文详细介绍。
33.训练生成模型
34.在一些实施例中,构建模块225可以利用生成模型来构建目标多肽分子,并确定目标多肽分子的目标氨基酸序列282和目标二级结构284。在一些实施例中,生成模型例如可以为vq-vae模型。以下将参考图3来描述训练生成模型300的示例过程。
35.如图3所示,生成模型300可以包括编码器320、一组编码表350、生成器360和分类器380。在一些实施例中,如下文将详细介绍的,生成模型300还可以包括一组模式选择器395。
36.在一些实施例中,编码器320可以获取一组训练多肽分子的氨基酸序列310,并进而确定与该氨基酸序列310中的一组氨基酸所对应的一组氨基酸特征表示330。
37.示例性地,训练多肽分子的氨基酸序列310可以表示为x={a1,a2,
…
,a
l
},其中α属于20个通用的氨基酸,并且l表示氨基酸序列310的长度。编码器320所生成的一组氨基酸特征表示330可以表示为z=z
1∶l
。
38.在一些实施例中,生成模型300可以通过向量量化来查找与每个氨基酸特征表示320所对应的离散编码表示。示例性地,生成模型300可以利用最近邻搜索算而在编码表350(例如,可以表示为其中k表示编码表的尺寸,d表示编码表中的条目e的维度)中查找与由编码器320所生成的氨基酸特征表示330(例如,可以表示为)对应的编码表条目,也称为离散编码表示(例如,可以表示为zq={zq(a1),
…
,zq(a
l
)})。由此,该过程可以表示为:
39.zq(ai)=ek,k=argmin
j∈k
||ze(ai)-ej||2ꢀꢀꢀꢀꢀꢀ
(1)
40.在一些实施例中,由生成模型300通过向量量化所确定的特征表示可以被提供至生成器360(也称为第二解码器),以用于生成重构的氨基酸序列370。
41.在一些实施例中,与生成重构的氨基酸序列370的损失函数可以表示为:
[0042][0043]
其中,sg(
·
)表示梯度停止运算符,β表示权重系数;log p(ai|zq(ai))部分旨在使得重构的氨基酸序列370与训练多肽分子的氨基酸序列310接近,也即与生成器360的处理过程相关;部分表示编码器所输出的特征表示与编码表查表获得的特征表示之间的差异,其旨在使得编码器所输出的特征表示与编码表查表获得的特征表示接近,也即与一组编码表350的查找过程相关。
[0044]
在一些实施例中,在训练生成模型300的过程中还可以考虑训练多肽分子的二级结构。例如,训练多肽分子的二级结构可以表示为y={y1,y2,
…
,y
l
},yi∈{h,b,e,g,i,t,s,-},其中“h”(α-螺旋)、“b”(β-桥)、“e”(折叠)、“g”(螺旋-3)、“i”(螺旋-5)、“t”(转角)、“s”(弯曲)和
“‑”
(未知类型)分别表示不同的二级结构类型。
[0045]
在一些实施例中,可以根据训练多肽分子的二级结构来训练生成模型300。具体地,可以利用编码器320和向量量化来确定到分类器380(也称为第一解码器)的输入特征z′q(ai)。进一步地,与预测二级结构有关的损失函数可以表示为:
[0046][0047]
类似地,log p(yi|z
′q(ai))部分旨在使得由分类器380确定的预测二级结构与训练多肽分子的二级结构接近,也即与分类器380的处理过程相关;部分表示编码器所输出的特征表示与编码表查表获得的特征表示之间的差异,其旨在使得编码器所输出的特征表示与编码表查表获得的特征表示接近,也即与一组编码表350的查找过程相关。
[0048]
在一些实施例中,还可以针对生成器360和分类器380来构建不同的输入特征。如图3所示,生成模型300还可以包括一组模式选择器395,其可以被配置为从一组氨基酸特征表示330提取不同尺度的模式(也被称为组合特征表示)。
[0049]
一组氨基酸特征表示330所构成的序列可以理解为尺度为0的模式;尺度为1的模式可以理解为该序列与每个氨基酸对应的模式;尺度为n的模式可以理解为该序列中所有序列长度为n的子序列所对应的模式。
[0050]
相应地,模式选择器395可以基于氨基酸序列310中的一组氨基酸来确定与对应的长度所匹配的一个或多个子氨基酸序列,并进一步基于该一个或多个子氨基酸序列来确定对应的组合特征表示。由一组模式选择器395所提取的不同尺度的模式可以被表示为:
[0051][0052]
其中,f
(n)
表示一组选择器350的处理过程,hi表示由编码器320输出的一组氨基酸特征表示330。
[0053]
进一步地,生成模型300可以利用一组编码表360来更新由一组模式选择器395所生成的多个组合特征表示以获得多个更新的组合特征表示也称为目标离散编码表示。
[0054]
在一些实施例中,生成模型可以基于多个更新的组合特征表示来生成到生成器360的输入特征表示。在一些实施例中,生成模型300可以选择多个更新的组合特征表示中的一组组合特征表示(也称为一组离散编码表示)来构建到生成器360的输入特征表示。
[0055]
示例性地,到生成器360的输入特征表示可以表示为:
[0056][0057]
其中nr表示被选择用于构建到生成器的输入特征表示的一组编码表,||表示级联运算。
[0058]
相应地,基于这样的方式,损失函数(2)的表示可以被更新为:
[0059][0060]
基于类似的方式,还可以更新损失函数(3)的表示,以获得ls。进一步地,用于训练生成模型300的总损失函数可以表示为:
[0061]
l=lr+γlsꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0062]
其中γ表示权重系数。由此,本公开的实施例可以在训练生成模型的过程中考虑
到二级结构的影响。
[0063]
在一些实施例中,可以利用已知的amp多肽分子来训练生成模型300。考虑到已知amp多肽分子数据集的局限性,还可以利用大的蛋白质数据集来预训练序列构建任务,并利用包括蛋白质信息的多肽数据集来预训练二级结构分类任务。进一步地,可以利用amp多肽分子数据集来对生成模型进行调优。
[0064]
应当理解,可以利用任何适当的vq-vae模型训练方法(例如,利用指数移动平均ema来更新编码表)来基于以上讨论的损失函数来训练生成模型。
[0065]
构建多肽分子
[0066]
在完成生成模型300的训练后,构建模块225可以进一步利用生成模型300中的一组编码表350来构建多肽分子。应当理解,用于构建多肽分子的构建设备(例如,设备200)可以是与训练生成模型300的训练设备不同或相同的设备。以下将参考图4来描述构建多肽分子的示例过程。
[0067]
如图4所示,构建设备可以基于生成模型300中的一组编码表350来构建到生成器360的特征表示和到分类器380的特征表示。
[0068]
在一些实施例中,构建设备可以确定索引序列420。索引序列例如可以包括多个索引值x
1-xn,其中每个索引值可以指示对应的编码表中被选择的离散编码表示。
[0069]
进一步地,构建设备可以基于一组编码表350中被选择的多个目标离散编码表示来构建到分类器380的特征表示(也称为第一特征表示)和到生成器360的特征表示(也称为第二特征表示)。应当理解,可以采用参考公式(5)所讨论的构建过程来构建到生成器360的特征表示和到分类器380的特征表示。
[0070]
具体地,构建设备可以基于多个目标离散编码表示中的第一组离散编码表示构建第一特征表示,并基于多个目标离散编码表示中的第二组离散编码表示构建第二特征表示。
[0071]
在一些实施例中,第一组离散编码表示可以不同于第二组离散编码表示。例如,第一组离散编码表示可以对应于第1到m个编码表,而第二离散编码表示可以对应于第m+1到n个编码表。
[0072]
在一些实施例中,第一组离散编码表示可以与第二组离散编码表示至少部分地重叠。例如,第一组离散编码表示可以对应于第1到第m个编码表,而第二离散编码表示可以对应于第m到n个编码表。两组离散编码表示都可以包括第m个编码表中被选中的目标离散编码表示。
[0073]
进一步地,构建设备可以利用分类器380以基于第一特征表示来生成目标多肽分子的目标二级结构284。相应地,构建设备还可以利用生成器360以基于第二特征表示来生成目标多肽分子的目标氨基酸序列282。
[0074]
基于这样的方式,本公开的实施例不仅能够提供目标多肽分子的氨基酸序列,还能够提供目标多肽分子的二级结构。
[0075]
在一些实施例中,如图4所示,索引序列420可以是由构建设备利用随机序列生成模型410所生成的。在一些实施例中,随机序列生成模型是针对一组训练多肽分子的一组训练索引序列而被训练的,其中一组训练索引序列指示多个编码表中被选择的离散编码表示。
[0076]
在完成随机序列生成模型410的训练后,构建设备例如可以利用随机序列生成模型410基于初始的输入或者随机地生成索引序列420。
[0077]
在一些实施例中,构建设备还可以先确定所生成的目标二级结构284是否满足结构约束。在一些实施例中,结构约束例如可以包括关于二级结构中无规则卷曲的占比的约束,例如,无规则卷曲的占比需要小于30%。备选地,结构约束例如还可以包括关于二级结构中阿尔法螺旋的长度的约束,例如阿尔法螺旋的长度需要大于4。通过这样的结构约束,可以保证所生成的目标多肽分子的抗菌活性。
[0078]
进一步地,如果于确定目标二级结构满足结构约束,则构建设备才进一步利用第二解码器以根据第二特征表示确定目标多肽分子的目标氨基酸序列282。
[0079]
相反,如果确定目标二级结构满足结构约束,则构建设备可以放弃该索引序列。附加地,构建设备还可以基于一组编码表中的多个离散编码表示来构建新的第一特征表示和新的第二特征表示。例如,构建设备可以利用随机序列生成模型410来生成新的随机序列。
[0080]
在一些实施例中,构建设备也可以一次性生成多个索引序列,并丢弃其中预测的二级结构不满足结构约束的索引序列。
[0081]
基于上文所讨论的构建多肽分子的过程,本公开的实施例可以使得输入特征能够充分考虑二级结构的影响,从而能够构建具有更优抗菌活性的多肽分子(例如,抗菌肽)。
[0082]
示例过程
[0083]
图5示出了根据本公开一些实现的用于构建多肽分子的方法600的流程图。方法500可以由计算设备200来实现,例如可以被实现在计算设备200的存储器220中的构建模块225处。
[0084]
如图5所示,在框510,计算设备200获取生成模型的一组编码表,一组编码表包括多个离散的编码表示,生成模型包括第一解码器和第二解码器,一组编码表用于构建到第一解码器的第一输入和到第二解码器的第二输入,第一解码器用于基于第一输入确定多肽分子的二级结构,第二解码器用于基于第二输入确定多肽分子的氨基酸序列。
[0085]
在框520,计算设备200基于一组编码表中的多个离散编码表示,构建第一特征表示和第二特征表示。
[0086]
在框530,计算设备200利用第一解码器,根据第一特征表示确定目标多肽分子的目标二级结构。
[0087]
在框540,计算设备200利用第二解码器,根据第二特征表示确定目标多肽分子的目标氨基酸序列。
[0088]
应当理解,图5不旨在限定对应各框的步骤的执行顺序。例如,框530和框540的步骤可以被并行地执行、框530可以先于框540执行,或者框540页可以先于框530执行。
[0089]
在一些实施例中,一组编码表包括多个编码表,每个编码表包括一组离散的编码表示。
[0090]
在一些实施例中,构建第一特征表示和第二特征表示包括:确定索引序列,索引序列包括多个索引值,每个索引值指示对应的编码表中被选择的目标离散编码表示;以及基于多个编码表中被选择的多个目标离散编码表示,构建第一特征表示和第二特征表示。
[0091]
在一些实施例中,基于多个编码表中被选择的多个目标离散编码表示构建第一特征表示和第二特征表示包括:基于多个目标离散编码表示中的第一组离散编码表示,构建
第一特征表示;以及基于多个目标离散编码表示中的第二组离散编码表示,构建第二特征表示,第一组离散编码表示不同于第二组离散编码表示。
[0092]
在一些实施例中,确定索引序列包括:利用随机序列生成模型确定索引序列,随机序列生成模型是针对一组训练多肽分子的一组训练索引序列而被训练的,一组训练索引序列指示多个编码表中被选择的离散编码表示。
[0093]
在一些实施例中,利用第二解码器根据第二特征表示确定目标多肽分子的目标氨基酸序列包括:确定目标二级结构是否满足结构约束,结构约束包括以下至少一项:关于二级结构中无规则卷曲的占比的约束,或者关于二级结构中阿尔法螺旋的长度的约束;以及响应于确定目标二级结构满足结构约束,利用第二解码器以根据第二特征表示确定目标多肽分子的目标氨基酸序列。
[0094]
在一些实施例中,方法600还包括:响应于确定目标二级结构满足结构约束,基于一组编码表中的多个离散编码表示,构建新的第一特征表示和新的第二特征表示。
[0095]
在一些实施例中,一组编码表包括多个编码表,并且生成模型基于以下过程而被训练:利用生成模型的编码器确定与训练多肽分子中的一组氨基酸对应的一组氨基酸特征表示;根据一组氨基酸特征表示,生成与多个氨基酸序列长度对应的多个组合特征表示;利用与多个氨基酸序列长度对应的多个编码表,更新多个组合特征表示;以及基于经更新的多个组合氨基酸特征表示,确定用于训练生成模型的损失函数。
[0096]
在一些实施例中,根据一组氨基酸特征表示生成与多个氨基酸序列长度对应的多个组合特征表示包括:针对多个氨基酸序列长度中的第一长度,基于一组氨基酸,确定与第一长度匹配的一组子氨基酸序列;以及利用一组氨基酸特征表示,确定与一组子氨基酸序列对应的组合特征表示。
[0097]
在一些实施例中,损失函数包括与第一解码器相关联的第一部分、与第二解码器相关联的第二部分,和与利用多个编码表的更新相关联的第三部分。
[0098]
在一些实施例中,到第一解码器的第一训练输入是通过利用多个编码表更新第一初始输入而确定的,到第二解码器的第二训练输入是通过利用多个编码表更新第二初始输入而确定的,并且第三部分基于第一初始输入与第一训练输入之间的第一差异和第二初始输入与第二训练输入之间的第二差异而被确定。
[0099]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)等等。
[0100]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0101]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0102]
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
[0103]
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
技术特征:
1.一种用于构建多肽分子的方法,包括:获取生成模型的一组编码表,所述一组编码表包括多个离散的编码表示,所述生成模型包括第一解码器和第二解码器,所述一组编码表用于构建到所述第一解码器的第一输入和到所述第二解码器的第二输入,所述第一解码器用于基于所述第一输入确定多肽分子的二级结构,所述第二解码器用于基于所述第二输入确定所述多肽分子的氨基酸序列;基于所述一组编码表中的所述多个离散编码表示,构建第一特征表示和第二特征表示;利用所述第一解码器,根据所述第一特征表示确定目标多肽分子的目标二级结构;以及利用所述第二解码器,根据所述第二特征表示确定所述目标多肽分子的目标氨基酸序列。2.根据权利要求1所述的方法,其中所述一组编码表包括多个编码表,每个编码表包括一组离散的编码表示。3.根据权利要求2所述的方法,其中构建所述第一特征表示和所述第二特征表示包括:确定索引序列,所述索引序列包括多个索引值,每个索引值指示对应的编码表中被选择的目标离散编码表示;以及基于所述多个编码表中被选择的多个目标离散编码表示,构建所述第一特征表示和所述第二特征表示。4.根据权利要求3所述的方法,其中基于所述多个编码表中被选择的多个目标离散编码表示构建所述第一特征表示和所述第二特征表示包括:基于所述多个目标离散编码表示中的第一组离散编码表示,构建所述第一特征表示;以及基于所述多个目标离散编码表示中的第二组离散编码表示,构建所述第二特征表示,所述第一组离散编码表示不同于所述第二组离散编码表示。5.根据权利要求3所述的方法,其中确定索引序列包括:利用随机序列生成模型确定所述索引序列,所述随机序列生成模型是针对一组训练多肽分子的一组训练索引序列而被训练的,所述一组训练索引序列指示所述多个编码表中被选择的离散编码表示。6.根据权利要求1所述的方法,其中利用所述第二解码器根据所述第二特征表示确定所述目标多肽分子的目标氨基酸序列包括:确定所述目标二级结构是否满足结构约束,所述结构约束包括以下至少一项:关于所述二级结构中无规则卷曲的占比的约束,或者关于所述二级结构中阿尔法螺旋的长度的约束;以及响应于确定所述目标二级结构满足所述结构约束,利用所述第二解码器以根据所述第二特征表示确定所述目标多肽分子的目标氨基酸序列。7.根据权利要求6所述的方法,还包括:响应于确定所述目标二级结构满足所述结构约束,基于所述一组编码表中的所述多个离散编码表示,构建新的第一特征表示和新的第二特征表示。8.根据权利要求1所述的方法,其中一组编码表包括多个编码表,并且所述生成模型基
于以下过程而被训练:利用所述生成模型的编码器确定与训练多肽分子中的一组氨基酸对应的一组氨基酸特征表示;根据所述一组氨基酸特征表示,生成与多个氨基酸序列长度对应的多个组合特征表示;利用与所述多个氨基酸序列长度对应的所述多个编码表,更新所述多个组合特征表示;以及基于经更新的所述多个组合氨基酸特征表示,确定用于训练所述生成模型的损失函数。9.根据权利要求8所述的方法,其中根据所述一组氨基酸特征表示生成与多个氨基酸序列长度对应的多个组合特征表示包括:针对所述多个氨基酸序列长度中的第一长度,基于所述一组氨基酸,确定与所述第一长度匹配的一组子氨基酸序列;以及利用一组氨基酸特征表示,确定与所述一组子氨基酸序列对应的组合特征表示。10.根据权利要求8所述的方法,其中所述损失函数包括与所述第一解码器相关联的第一部分、与所述第二解码器相关联的第二部分,和与利用所述多个编码表的所述更新相关联的第三部分。11.根据权利要求10所述的方法,其中到所述第一解码器的第一训练输入是通过利用所述多个编码表更新第一初始输入而确定的,到所述第二解码器的第二训练输入是通过利用所述多个编码表更新第二初始输入而确定的,并且所述第三部分基于所述第一初始输入与所述第一训练输入之间的第一差异和所述第二初始输入与所述第二训练输入之间的第二差异而被确定。12.一种电子设备,包括:存储器和处理器;其中所述存储器用于存储一条或多条计算机指令,其中所述一条或多条计算机指令被所述处理器执行以实现根据权利要求1至11中任一项所述的方法。13.一种计算机可读存储介质,其上存储有一条或多条计算机指令,其中所述一条或多条计算机指令被处理器执行以实现根据权利要求1至11中任一项所述的方法。14.一种计算机程序产品,包括一条或多条计算机指令,其中所述一条或多条计算机指令被处理器执行以实现根据权利要求1至11中任一项所述的方法。
技术总结
根据本公开的实施例,提供了一种用于构建多肽分子的方法、装置、设备、存储介质和程序产品。在此描述的方法包括:获取生成模型的一组编码表,一组编码表包括多个离散的编码表示,生成模型包括第一解码器和第二解码器,一组编码表用于构建到第一解码器的第一输入和到第二解码器的第二输入,第一解码器用于基于第一输入确定多肽分子的二级结构,第二解码器用于基于第二输入确定多肽分子的氨基酸序列;基于一组编码表中的多个离散编码表示,构建第一特征表示和第二特征表示;以及利用生成模型确定目标多肽分子的结构信息。根据本公开的实施例,通过在构建多肽分子的过程中考虑二级结构,能够获得具有更高抗菌活性的多肽分子。能够获得具有更高抗菌活性的多肽分子。能够获得具有更高抗菌活性的多肽分子。
技术研发人员:王丹青 文泽宇 李磊 周浩
受保护的技术使用者:北京有竹居网络技术有限公司
技术研发日:2021.12.03
技术公布日:2022/3/8