14 / 2026-02-14 15:30:32
破译生命天书 -- 基因组语言模型的探索
基因组;,语言模型,人工智能,DNA序列建模
摘要待审
罗宵 / 湖南大学
大型语言模型正推动基因组序列功能解读领域的变革。在方法学上,现有DNA序列语言模型大致可分为两类:一类将DNA序列视为单向文本进行单链建模,另一类通过数据增强或模型等变设计实现反向互补对称性,进而进行静态双链建模。这两种方法均以隐式、静态的方式近似双链交互,难以在序列表征学习过程中捕捉由上下文驱动的链间信息交换。实际上,双链信息交换并非孤立事件,而是受持续的物理耦合、功能协同及信息传递调控的过程——这一机制是基因组功能的核心基础。基于此,我们提出CrossDNA,一种用于DNA链间建模的显式动态语言模型。具体而言,CrossDNA采用双分支架构,通过旋转输入双链序列数据模拟DNA双螺旋中的持续信息流;借助轻量级TokenBridge模块建立链间通信;整合Comba与滑动窗口注意力(SWA)以捕捉长程依赖;同时通过分支教师模型的自蒸馏与一致性约束,维持反向互补等价性并稳定单链上下文语义。在分类、回归和表征等任务中,CrossDNA实现了持续的性能提升,并显著增强了模型对序列方向的鲁棒性,尤其在增强子预测任务中,能更易识别具有明确生物学意义的特征。在我们评估的多个基准测试中,仅含数百万参数的CrossDNA,其性能达到或超越了数亿参数的大型模型,大幅降低了训练和推理成本,展现出极高的参数效率和实用性。总体而言,CrossDNA将DNA表征从隐式、静态的近似推进至显式、动态的系统建模,为新一代DNA语言模型指明了方向,并为深入分析基因组结构与功能奠定了基础。[注:目前该工作在Nature Machine Intelligence期刊在审]
重要日期
  • 会议日期

    03月27日

    2026

    03月29日

    2026

  • 03月09日 2026

    初稿截稿日期

  • 03月29日 2026

    注册截止日期

主办单位
中国生物信息学会基因组信息学专业委员会
承办单位
西湖大学
联系方式
  • 谭向宇
  • 159*********
移动端
在手机上打开
小程序
打开微信小程序
客服
扫码或点此咨询