70 / 2026-04-05 11:22:49
基于异构图自编码器的单细胞Hi-C增强算法重构高分辨率三维基因组结构
单细胞Hi-C,三维基因组,Hi-C算法,数据增强
摘要待审
圆圆 贺 / 北京大学
程 李 / 北京大学生命科学学院
染色质的三维结构在生物学过程中发挥着关键作用,与基因表达调控密切相关。高通量染色质构象捕获技术(High-throughput chromosome conformation capture,Hi-C)是研究三维基因组的主要手段。随着技术的进步,目前已开发多种单细胞Hi-C(Single-cell Hi-C,scHi-C)测序技术,为单细胞水平的三维基因组学研究提供了数据支持,但所产生数据的高度稀疏性极大地限制了有效信息的挖掘。现有算法对单细胞Hi-C数据的增强效果非常有限,在100千碱基(kilobase,kb)甚至更高分辨率下的准确性差。此外,现有算法难以兼容配对的单细胞Hi-C和单细胞转录组数据,为推断潜在增强子等顺式调控元件对靶基因的调控关系造成限制。这些局限性阻碍了在单细胞尺度下对精细三维结构及其与转录组动态关联性的深入理解。

针对上述不足,本研究开发了基于异构图自编码器的单细胞Hi-C增强算法HiMAG(scHi-C enhancement via auto-encoder of heterogeneous graphs)。该模型将单细胞Hi-C数据建模为一系列异构图,通过细胞节点嵌入全面地提取可学习的细胞全局特征,有效缓解了数据过度稀疏带来的噪声干扰;模型将初始节点特征设为可学习参数,避免了先验假设的限制,以最大化表达能力。

严格的基准测试表明,HiMAG有效地增强了单细胞Hi-C数据,可适用于高达10 kb的多种分辨率,并在数据插补、细胞聚类等多种评估指标上显著优于现有主流的单细胞Hi-C增强算法。同时,HiMAG兼容配对的单细胞Hi-C和单细胞转录组数据,通过对输入的Hi-C互作图进行计算扰动,可有效推断可能调控靶基因的潜在增强子区域。

基于HiMAG增强后的单细胞Hi-C数据,可重构单细胞水平的精细三维基因组结构及其动态变化,揭示三维基因组在细胞间的高度异质性及潜在的热力学构象变化;同时,高分辨率的Hi-C互作信息促进了差异染色质互作的准确鉴定;通过对HiMAG学习所得的基因节点嵌入进行无监督聚类,可区分低表达基因、管家基因和与三维结构高度协同的基因群。

进一步地,HiMAG增强后的数据支持单细胞水平的染色质层级结构鉴定,如A/B区室(Compartment)、拓扑关联结构域(Topologically associating domain,TAD)和染色质环(Chromatin loop)。结果表明,HiMAG不仅提升了单细胞TAD鉴定的准确性,还发现由CTCF和黏连蛋白(Cohesin)介导的TAD边界在单细胞间更为保守,且大多数细胞类型的标记染色质环(Marker loop)在本细胞类型的单细胞群体中表现出更高的一致性,其个体间差异显著低于其他细胞类型。

此外,本研究创新性地定义了多位点染色质团(Multiway chromatin clique, MCC),该结构与三代测序(Third-generation sequencing,TGS)捕获的单细胞真实多位点互作高度一致。MCC倾向于分布在相同的染色质区室或TAD内部,但相较染色质区室或TAD结构,MCC更显著地富集真实的多位点互作,且其内部基因的表达水平呈现出明显的协同性。

最后,本研究揭示了小鼠胚胎发育过程中染色质层级结构与基因表达变化的高度相关性,并发现了染色质结构变化与基因表达变化之间广泛存在的时序错位现象,体现了两者间的双向动态影响。

综上所述,本研究提出了单细胞Hi-C增强算法HiMAG,该模型兼容单组学数据及配对转录组等多模态输入,性能显著优于现有算法。基于增强后的数据,本研究在单细胞水平重构了高分辨率的三维基因组结构,解析了染色质构象及层级结构在细胞间的异质性,发现了多位点互作的新模式,并揭示了三维基因组与转录调控之间的动态关联。随着单细胞Hi-C技术的持续发展与数据积累,HiMAG将为单细胞Hi-C数据分析提供有力支持,助力深入解析染色质高级结构与细胞异质性背后的基因调控机制。

 
重要日期
  • 会议日期

    04月16日

    2026

    04月19日

    2026

  • 04月06日 2026

    初稿截稿日期

主办单位
西北农林科技大学
西安交通大学
浙江大学
华中农业大学
中国遗传学会三维基因组学专委会
承办单位
西北农林科技大学
联系方式
历届会议
移动端
在手机上打开
小程序
打开微信小程序
客服
扫码或点此咨询