技术文章

基于MATLAB的数据引导细胞重编程控制

作者 : Indika Rajapakse 博士


“MATLAB 是我们探索定义细胞重编程工作原理的网络,以及我们要如何利用它来帮助革新癌症治疗和再生医学的最佳环境。”

化疗是我们对抗白血病和其他癌症最强大的武器之一,但它也是一把双刃剑。在摧毁癌细胞的过程中,它经常也会摧毁免疫系统。在实施这种疗法后,医生通常需要“治疗这种治疗”,即进行骨髓移植,通过重建免疫系统来帮助患者康复。这些移植本身也带来了挑战,因为寻找匹配的捐赠者并不容易,而且即使找到了匹配的捐赠者,也可能出现严重的并发症,如移植物抗宿主病。

现在,想象一条不同的路径。如果我们能将患者自身的一些皮肤细胞转化为他们所需的骨髓细胞呢?寻找捐赠者和捐赠组织排斥的双重挑战将同时消除。这就是细胞重编程的承诺,也是我在密歇根大学的研究小组工作的核心。我们正在开发使用被称为转录因子(帮助开启或关闭基因的蛋白质)的分子将一种类型的细胞直接转化为另一种类型的方法,从而重置细胞的身份。

从工程学的角度来看,这可以表述为一个经典的控制问题。如果系统的当前状态是皮肤细胞,目标是骨髓细胞,我们要如何引导系统达到目标?我们将模型建立为 ẋ = f(x, u),其中 x 是细胞的状态,u 代表我们应用的转录因子的数量和时机。为了找到正确的因子组合,以及何时应用它们,我们进行了产生大量原始数据的实验,包括 RNA 测序 (RNA-Seq) 数据、3D 基因组组织数据以及转录因子结合数据。

我们研究的成功取决于我们处理和分析收集到的复杂生物数据集的能力,这些数据集通常是巨大的、基于矩阵的和高维的。这还取决于我们要理解基因调控和基因组组织背后的网络。在我们的工作中,基因和基因组区域是网络节点;它们的相互作用(物理接触、调控影响、共表达)构成了边。这些网络可以是简单的图,也可以是更复杂的超图,两者都自然地表示为矩阵。这些矩阵是传递给算法和模型的核心数据结构,其中许多算法和模型依赖于特征值分解、奇异值分解 (SVD) 和其他线性代数运算——所有这些在 MATLAB® 中都能得到自然且高效的处理。多年来,我们一直依靠 MATLAB 来构建构成我们工作基础的工作流,最近,我们开始使用 Biopipeline Designer 应用程序来定义和运行其中的部分工作流,将其作为生物信息学管道。

细胞重编程简史与数据引导控制的兴起

虽然重编程细胞的想法已经存在了几十年,但细胞重编程领域在 2006 年取得了巨大的飞跃,当时 Shinya Yamanaka 展示了仅用四个转录因子就可以将成熟的皮肤细胞逆转回多能干细胞状态。他发现的诱导多能干细胞赢得了诺贝尔奖,在我看来,这彻底改变了生物学的范式。有趣的是,虽然 Yamanaka 的工作引起了全球的关注,但这并不是第一次证明细胞可以从根本上改变其身份和功能。大约二十年前,Harold Weintraub 已经证明了一种成熟的细胞类型可以被直接转化为另一种,完全绕过这类多能状态。他当时在弗雷德·哈钦森癌症研究中心工作,我后来在那里完成了基因组细胞生物学的博士后研究。他在 1987 年发表了这项工作,但当时,该领域还没有准备好吸收他的发现和他工作的才华。

秉承这些早期先驱的愿景,我们的实验室将精力集中在直接重编程上,特别是如何使其更可靠和可预测。我们的主要贡献之一是一个称为数据引导控制的框架(图 1)。这种方法通过采用数学控制理论的原理,优化了细胞重编程中转录因子的使用。

展示转录因子如何利用控制理论和基因表达网络引导细胞重编程的图。

图 1. 数据引导控制概述,包括控制方程变量 (A) 的摘要,作为动态网络节点的拓扑关联结构域 (TADs) 的表示,其边由时间序列 RNA-Seq 数据确定 (B),以及识别一组将细胞状态从一个吸引盆推向另一个吸引盆的转录因子的概念图 (C)。

在数据引导控制中,我们通过在整个细胞周期内的多个时间点对基因表达进行采样,构建细胞群自然演化的模型。为了管理复杂性,我们基于拓扑关联结构域 (TADs) 对基因表达进行聚类,并对其表达水平的动态进行建模。(TADs 是基因组的区域,它们在其内部进行物理相互作用的频率高于与外部区域的相互作用,形成了离散的三维结构单元。)为了构建这些动力学模型,我们整合了 Hi-C 数据——它映射了基因组不同区域之间的物理相互作用——与 RNA-Seq 数据,后者追踪基因表达随时间的变化(图 2)。这些模型结合转录因子结合位点和活性的数据,使我们要能系统地识别用于特定重编程任务的最有希望的转录因子候选者。

结合了 3D 基因组结构和基因表达数据以支持细胞重编程分析的视觉图。

图 2. 细胞重编程需要整合不同的数据类型(用于 3D 基因组结构的 Hi-C 和用于基因表达的 RNA-Seq)以理解基因组的结构组织 (TADs) 和功能方面。

利用数据引导控制,我们已经成功识别了之前在重编程实验中验证过的因子。更重要的是,我们利用它识别了潜在的强大的新组合。MATLAB 中的矩阵和可视化功能在这项工作中证明是非常有价值的,使我们要能高效地处理控制算法背后的复杂数学运算,并解释由此产生的高维生物数据。

简化超图分析和生物信息学管道

虽然数据引导控制为我们提供了一种模拟基因表达动力学的方法,但解释这些动力学通常需要捕获超越简单成对模型的调控相互作用。许多生物相互作用不仅涉及两个,而是同时涉及许多细胞成分。例如,基因调控通常需要几个转录因子和共激活因子协调结合到基因组的增强子和启动子区域。标准的网络模型将关系表示为成对元素之间的连接,无法充分捕捉这些多路相互作用。为了解决这种复杂性,我们的实验室开发了 Hypergraph Analysis Toolbox (HAT),这是一个公开可用的工具箱,用于在 MATLAB 中分析和可视化高阶结构。HAT 使研究人员能够构建、可视化和分析超图。超图这是一种数学结构,其中单个连接 (hyperedge) 可以连接多个节点,精确地表示复杂生物系统中的多路相互作用。这种能力在细胞重编程中特别有价值,因为理解基因调控网络和染色质相互作用的复杂动力学可以揭示将一种细胞类型转化为另一种的最佳干预点。HAT 帮助我们识别那些对成对网络模型来说是隐形的更为关键的调控模块和控制点,从而提高我们要设计有效重编程策略的能力。

超图分析通常在多步骤过程或管道的背景下执行。我们的实验管道通常涉及从测序平台收集原始数据、与参考基因组比对、过滤和其他下游步骤。Biopipeline Designer 应用程序使我们要能简化这些过程(图 3)。例如,我们可以构建一个管道,从测序数据开始,对其进行比对,量化基因表达,执行过滤和标准化,然后提取具有生物学意义的特征,即特征信号,可用于识别或分类细胞、跟踪重编程进度或指导干预。我们可以交互式地构建和运行端到端的生物信息学工作流,将已有的生物信息学工具和自定义开发的代码连接成具有凝聚力的分析管道。此外,我们可以创建自定义模块来表示任何 MATLAB 函数(包括我们的 HAT 函数)并将它们与用于常见生物信息学操作的预构建模块集成。

MATLAB 中 Biopipeline Designer 应用程序的截图,显示了一个模块化的生物信息学工作流。

图 3. Biopipeline Designer 应用程序。

这种方法在处理我们的 RNA-Seq 数据以进行基因表达分析时特别强大。这些数据对于我们理解细胞状态和重编程动力学至关重要。Biopipeline Designer 应用程序为我们节省了时间并确保了可重复性,因为完成的管道可以只需极小的修改就能共享或适应不同的数据类型。对于细胞重编程研究,迭代实验和分析至关重要,我们依靠能够快速调整并使用不同参数重新运行分析的能力,以完善我们的计算模型和控制策略。

课堂上的 MATLAB 和数学生物学

在我们的实验室里,我们在做的几乎所有事情中都使用 MATLAB。这一理念延伸到了我的研究生教学中,我教授《生物网络数学》和《数据数学》课程。这些课程涵盖了诸如谱图理论、网络可控性、SVD、概率建模和神经网络等基本概念,所有这些都使用 MATLAB 应用于生物数据集。

在可能的情况下,我们会邀请 MathWorks 的联合创始人、MATLAB 的创造者 Cleve Moler 进行客座讲座,他的演讲“SVD 如何拯救宇宙”既激励了我的学生,也展示了线性代数在科学计算中的深远影响。

当前及未来发展

虽然我们要目前的方法主要依赖 Hi-C 数据来映射成对的染色质相互作用并识别 TADs,但我们要的实验室现在正在致力于整合 Oxford Nanopore Technologies 的长读长测序技术,以增强我们要对染色质架构(DNA 与蛋白质在细胞核中包装的方式)的理解。与传统的短读长测序不同,该公司的 Pore-C 方法捕捉多路染色质相互作用和表观遗传修饰,提供了更全面的 3D 基因组结构视图(图 4)。这一进步将需要在我们要的数据处理工作流中进行调整,我们要计划使用 Biopipeline Designer 来管理和分析涉及的更复杂的数据集。

使用 Hi-C 和 Pore-C 的染色质接触图的视觉比较。Hi-C 面板显示了染色体 4 上的成对相互作用和 TAD 边界的热图。Pore-C 面板描绘了一个测序工作流和跨基因组区域的基于超图的多路接触。

图 4. 使用 Hi-C 和 Pore-C 技术生成的全基因组接触图的比较。

我们要还在扩展我们的数据引导控制框架以纳入超图表示,使我们要能更有效地模拟高阶基因调控相互作用。此外,我们要计划超越群体水平的重编程,纳入单细胞重编程,目标是提高重编程的成功率。我们要也在展望组织制造,探索从重编程细胞组装功能性组织的潜力。为了支持这些努力,我们要的长期愿景包括开发全自动实验室系统,其中必要机器人系统的数字孪生将在 Simulink® 中进行建模和仿真。​

当研究人员讨论提取皮肤细胞、对其进行重编程并将其重新引入患者体内时,这听起来可能像科幻小说。正如科幻作家 Arthur C. Clarke 有句名言:“任何足够先进的技术都与魔法无异。”本着这种精神,我相信 MATLAB 工具对于使我们要能够将这种“魔法”变为现实至关重要。

关于作者

Rajapakse 博士是密歇根大学医学院计算医学和生物信息学教授,以及密歇根大学文学、科学和艺术学院的数学教授。他于 2012 年在弗雷德·哈钦森癌症研究中心完成了他在基因组细胞生物学方面的博士后研究。他也是 Smale 研究所的成员,以及 iReprogram, Inc. 的首席科学官和联合创始人。他的研究兴趣包括细胞重编程、数字生物学、高阶结构的数据引导学习与控制,以及同步数学。

2025 年发布

使用到的产品

了解更多

查看文章,了解相关功能

查看文章,了解相关行业