预测模型的训练方法、装置、设备和介质与流程

本公开涉及人工智能领域，特别是涉及一种预测模型的训练方法及装置、一种基因表达数据的校正方法及装置、一种下游任务执行方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术：

1、单细胞测序技术是在单个细胞水平上，对基因组、转录组及表观基因组水平进行测序分析的技术。测序深度从根本影响了每个单细胞数据所包含的信息量，是影响单细胞测序数据质量的一个重要因素。测序深度越深、稀疏性越低、测序噪声越小的单细胞测序结果，更容易从中分析和挖掘出生物信息。由于实验条件、技术、成本的影响，有时单细胞测序的测序深度难以达到期望；并且，不同单细胞测序结果可能是在不同测序深度下得到的，导致不同测序深度下得到的测序结果不可比；此外，即便是同一测序深度，由存在技术噪声干扰，相似细胞的测序结果也存在一定差异。以上因素导致单细胞测序结果直接用于下游应用时会给下游应用结果带来一定困难，因此需要对单细胞测序的结果进行一定处理才能更好的服务于下游应用。

2、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

1、根据本公开的第一方面，提供了一种预测模型的训练方法，包括：获取多个样本，其中，多个样本中的每个样本包括第一基因表达数据、掩码基因表达数据以及辅助信息，第一基因表达数据包括在第一测序深度下测得的单细胞中不同基因各自的计数，掩码基因表达数据是通过对第一基因表达数据进行降采样并对经降采样的第一基因表达数据中部分基因的计数进行掩码得到的，经降采样的第一基因表达数据模拟在低于第一测序深度的第二测序深度下测得的单细胞中不同基因各自的计数，辅助信息包括第一总计数，第一总计数为第一基因表达数据中各基因的计数之和；对于多个样本中的每个样本：利用待训练的预测模型处理该样本中的掩码基因表达数据以及辅助信息，以得到该样本对应的第一测序深度下各基因计数的预测值；根据预测值与第一基因表达数据中与部分基因所对应的计数确定该样本对应的损失值；以及根据多个样本中的每个样本对应的损失值更新待训练的预测模型。

2、根据本公开的第二方面，提供了一种基因表达数据的校正方法，包括：获取当前基因表达数据和当前辅助信息，其中，当前基因表达数据包括在实际测序深度下测得不同基因各自的计数，当前辅助信息包括期望第一总计数，期望第一总计数用于表征期望测序深度，期望第一总计数大于等于当前基因表达数据中各基因的计数之和；以及利用根据第一方面的训练方法训练的预测模型中至少部分网络层处理当前基因表达数据以及当前辅助信息，以得到当前基因表达数据在期望测序深度下的校正值或校正值的中间处理结果。

3、根据本公开的第三方面，提供了一种下游任务执行方法，包括：获取输入数据，其中，输入数据包括i)根据第二方面的方法得到的校正值；或者ii)根据第二方面的方法中，校正值的中间处理结果；或者iii)对根据第二方面的方法得到的校正值进行预处理得到的预处理结果；或者iv)对根据第二方面的方法得到的校正值的中间处理结果进行预处理得到的预处理结果；以及利用下游任务算法输入数据，以得到下游任务结果，下游任务包括细胞归类任务，扰动预测任务或药物反应预测任务。

4、根据本公开的第四方面，提供了一种预测模型的训练装置，包括：第一单元，用于获取多个样本，其中，多个样本中的每个样本包括第一基因表达数据、掩码基因表达数据以及辅助信息，第一基因表达数据包括在第一测序深度下测得的单细胞中不同基因各自的计数，掩码基因表达数据是通过对第一基因表达数据进行降采样并对经降采样的第一基因表达数据中部分基因的计数进行掩码得到的，经降采样的第一基因表达数据模拟在小于第一测序深度的第二测序深度下测得的单细胞中不同基因各自的计数，辅助信息包括第一总计数，第一总计数为第一基因表达数据中各基因的计数之和；第二单元，用于对于多个样本中的每个样本：利用待训练的预测模型处理该样本中的掩码基因表达数据以及辅助信息，以得到该样本对应的第一测序深度下各基因计数的预测值；根据预测值与第一基因表达数据中与部分基因所对应的计数确定该样本对应的损失值；以及第三单元，用于根据多个样本中的每个样本对应的损失值更新待训练的预测模型。

5、根据本公开的第五方面，一种基因表达数据的校正装置，包括：第四单元，用于获取当前基因表达数据和当前辅助信息，其中，当前基因表达数据包括在实际测序深度下测得不同基因各自的计数，当前辅助信息包括期望第一总计数，期望第一总计数用于表征期望测序深度，期望第一总计数大于等于当前基因表达数据中各基因的计数之和；以及第五单元，用于利用根据第四方面的训练装置训练的预测模型中至少部分网络层处理当前基因表达数据以及当前辅助信息，以得到当前基因表达数据在期望测序深度下的校正值或校正值的中间处理结果。

6、根据本公开的第六方面，一种下游任务执行装置，包括：第六单元，用于获取输入数据，其中，所述输入数据包括i)根据第五方面的装置得到的校正值；或者ii)根据第五方面的装置中，所述校正值的中间处理结果；或者iii)对根据第五方面的装置得到的校正值进行预处理得到的预处理结果；或者iv)对根据第五方面的装置得到的校正值的中间处理结果进行预处理得到的预处理结果；以及第七单元，用于利用下游任务算法所述输入数据，以得到下游任务结果，所述下游任务包括细胞归类任务，扰动预测任务或药物反应预测任务。

7、根据本公开的另一方面，提供了一种电子设备，包括：处理器；以及存储器，存储器存储有可被处理器执行的指令，指令在由处理器执行时，使处理器执行上述任一方面的方法。

8、根据本公开的另一方面，提供了一种存储有指令的非瞬时计算机可读存储介质，指令在由处理器执行时，使处理器执行上述任一方面的方法。

9、根据本公开的另一方面，提供了一种计算机程序产品，包括：指令，其中，指令在被处理器执行时，使处理器执行上述任一方面的方法。

10、根据在下文中所描述的实施例，本公开的这些和其它方面将是清楚明白的，并且将参考在下文中所描述的实施例而被阐明。

技术特征：

1.一种预测模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述多个样本中的每个样本包括归一化的第一基因表达数据、归一化掩码基因表达数据以及辅助信息，所述归一化的第一基因表达数据是对所述第一基因表达数据进行归一化得到的，所述归一化掩码基因表达数据是通过对所述第一基因表达数据进行降采样、对经降采样的第一基因表达数据进行归一化，并对归一化结果中部分基因的计数进行掩码得到的；所述辅助信息还包括第二总计数，所述第二总计数为所述经降采样的第一基因表达数据中各基因的计数之和；

3.根据权利要求1或2所述的方法，其中，所述利用待训练的预测模型处理该样本中的掩码基因表达数据以及辅助信息包括：

4.根据权利要求3所述的方法，其中，所述待训练的预测模型包括编码器网络和解码器网络，并且

5.根据权利要求1或2所述的方法，其中，所述待训练的预测模型包括输入层、输出层以及所述输入层与所述输出层之间的多个中间层，并且

6.根据权利要求1-5任一项所述的方法，其中，所述待训练的预测模型为编码器-解码器网络、解码器网络以及多层感知器之中一者。

7.根据权利要求6所述的方法，其特征在于，所述编码器包括m层编码单元，所述解码器包括n层解码单元，所述m的数值大于n的数值。

8.根据权利要求7所述的方法，其特征在于，所述编码器的每层编码单元包括一多头注意力单元和一前向传播单元，所述解码器的每层解码单元包括一前向传播单元，还包括一线性注意力单元或稀疏注意力单元。

9.根据权利要求1-8中任一项所述的方法，其中，所述经降采样的第一基因表达数据是通过使用统计采样算法对所述第一基因表达数据进行降采样得到的。

10.一种基因表达数据的校正方法，包括：

11.根据权利要求10所述的方法，其中，所述当前辅助信息还包括当前第二总计数，所述当前第二总计数为所述当前基因表达数据中各基因计数之和；

12.一种下游任务执行方法，包括：

13.一种预测模型的训练装置，包括：

14.一种基因表达数据的校正装置，包括：

15.一种下游任务执行装置，包括：

16.一种计算设备，包括：

17.一种非暂态计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现权利要求1-12中任一项所述方法的步骤。

18.一种计算机程序产品，包括计算机指令，其中，所述计算机指令被处理器执行时实现权利要求1-12中任一项所述方法的步骤。

技术总结
一种预测模型的训练方法、装置、电子设备和介质。方法包括：获取多个样本，其中，多个样本中的每个样本包括第一基因表达数据、掩码基因表达数据以及辅助信息，掩码基因表达数据是通过对第一基因表达数据进行降采样并对经降采样的第一基因表达数据中部分基因的计数进行掩码得到的；对于多个样本中的每个样本：利用待训练的预测模型处理该样本中的掩码基因表达数据以及辅助信息，以得到该样本对应的第一测序深度下各基因计数的预测值；根据预测值与第一基因表达数据中与部分基因所对应的计数确定该样本对应的损失值；以及根据多个样本中的每个样本对应的损失值更新待训练的预测模型。

技术研发人员：宋乐,郝敏升,龚警,曾信,刘迟明,王太峰,成幸毅,马剑竹,张学工
受保护的技术使用者：百图生科（北京）智能技术有限公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)