肥胖机器学习竞赛:应对代谢性疾病
你能设计出识别驱动肥胖和代谢性疾病的基因的算法吗?
你将使用与 Eric and Wendy Schmidt Center at the Broad Institute、Broad Diabetes Initiative、Massachusetts General Hospital 以及 Beth Israel Deaconess Medical Center 合作收集的前沿生物数据。你的算法可能直接指导肥胖领域的生物学发现!
快速概览
目标:识别能“欺骗”人类细胞燃烧脂肪而非储存脂肪的遗传“开关”。
数据科学:你将获得使用 CRISPR/Cas9 技术敲除(关闭)特定基因的细胞的单细胞 RNA 测序(scRNA-seq)数据。
挑战:构建一个模型,预测当一个新的、未见过的基因被关闭时,细胞的行为和发育如何变化。
介绍
生物学:储存能量 vs. 燃烧能量
并非所有体脂都是相同的。我们的身体主要依赖两种脂肪细胞(adipocytes)来管理能量:
白色脂肪:“储存”细胞。它们储存食物中的多余能量。当储存过多时,会导致肥胖和代谢性疾病,如2型糖尿病。
棕色脂肪:“炉子”细胞。与其储存能量,它们燃烧糖和脂肪来产生热量(产热作用)。
目前大多数肥胖药物通过减少食欲发挥作用。然而,科学家正在探索另一种方法:如果我们能说服身体产生更多棕色脂肪,或触发白色脂肪开始燃烧能量呢?
实验:翻转遗传开关
为了找到控制这些过程的生物“开关”,研究人员正在进行大规模实验。他们提取人类脂肪细胞前体,并使用 CRISPR/Cas9 技术逐个关闭特定基因。然后观察:
细胞是否仍然会变成脂肪细胞?
它是否表现得像白色脂肪细胞(储存)还是棕色脂肪细胞(燃烧)?
细胞的内部机制(基因表达)发生了哪些
为什么无法物理测试人类基因组中的每一个基因?
人类基因组中有 20,000 个基因!逐一测试会耗费太多时间和金钱。我们需要机器学习来填补空白。通过在现有实验数据上训练,你的模型可以预测尚未测试的基因被关闭后的生物学结果。
为什么这很重要?
肥胖影响全球 8.9 亿多人,是心血管疾病和癌症的主要驱动因素。虽然减肥药物存在,但并非对所有人有效,且常伴有副作用。
为了开发更好的疗法,我们需要破解代谢的基本“密码”:
哪些基因指导脂肪细胞如何发育?
哪些基因帮助将白色脂肪细胞转化为棕色/产热脂肪细胞?
哪些基因改变细胞储存或燃烧脂肪的方式?
如果你的模型能成功模拟基因扰动如何影响脂肪细胞,研究人员就能纯计算地筛选数千个潜在药物靶点,从而大幅加速发现能恢复代谢平衡和对抗疾病的药物。
竞赛挑战
在此竞赛中,你将使用单细胞 RNA 测序数据,这些数据显示每个单细胞中每个基因的表达量。科学家们已在脂肪细胞前体中“敲除”(删除)不同基因,并测量了细胞的变化。
你的任务是构建一个模型,预测当科学家关闭测试集中出现的新基因时会发生什么。你需要预测这些未见过的基因敲除的两个具体结果:
1. “内部状态”(基因表达谱)
你必须预测目标基因被敲除后单细胞的基因表达谱。这是一个高维向量,代表细胞内数千个基因的活性水平。
2. “细胞身份”(细胞类型分化)
通常,这些前体细胞会分化为特定类型的脂肪细胞。你必须估计敲除基因后产生的四种细胞状态的比例:
前脂肪细胞:尚未分化的早期细胞。
脂肪细胞:成熟的脂肪细胞(标准的白色脂肪)。
脂质生成细胞:专门产生脂肪的细胞。
其他:走向不同发育路径的细胞。
速成课程
与去年类似,Eric and Wendy Schmidt Center 团队准备了一个80分钟的讲座系列,涵盖本次挑战所需的生物学概述。
阶段
本次挑战分为三个 Crunch 阶段。
Crunch 1 — 预测保留的单基因扰动效应
时间:12月8日至5月1日 参与者将构建模型,预测单细胞对未见过的单基因扰动的转录组学响应。
Crunch 2 — 预测保留的双基因扰动效应
时间:2月28日至5月1日 参与者将构建模型,预测单细胞对未见过的双基因扰动的转录组学响应。该阶段与 Crunch 1 非常相似,强烈建议同时参与两个阶段!
此阶段的更多详情将很快公布!
Crunch 3 — 识别驱动白色和棕色脂肪细胞分化的组合扰动
参与者将预测组合扰动,以驱动脂肪细胞分化,Eric and Wendy Schmidt Center 将在实验室直接测试这些扰动!
此阶段的更多详情将尽快公布!
时间线
2025年12月
Crunch 1 开始
2026年2月
Crunch 1 结束
Crunch 2 开始
2026年3月
Crunch 2 结束
Crunch 3 开始
2026年4月
Crunch 3 结束
评估标准
每个 Crunch 阶段,参与者必须以 h5ad 格式提交预测结果,并附上每种扰动的细胞状态比例矩阵。
评估指标:
Pearson Delta(Crunch 1 & 2)
最大平均差异(MMD)(Crunch 1 & 2)
L1-距离 (L1 Distance)(Crunch 1 & 2)
为了避免过拟合,Crunch 将每周仅更新一次公开排行榜。
奖项
Crunch 1 和 Crunch 2 将使用多个指标对参与者进行排名。最终奖金为你或你的团队在各指标中排名所获得奖金的总和。
所有奖金均以 USDC(一种与美元等值的加密货币)发放。
Crunch 1
第一名
1,400
1,400
1,400
第二名
800
800
800
第三名
480
480
480
第四名
320
320
320
第五名
240
240
240
第六名
200
200
200
第七名
200
200
200
第八名
160
160
160
第九名
120
120
120
第十名
80
80
80
总计
4,000
4,000
4,000
Crunch 2
第一名
1,400
1,400
1,400
第二名
800
800
800
第三名
480
480
480
第四名
320
320
320
第五名
240
240
240
第六名
200
200
200
第七名
200
200
200
第八名
160
160
160
第九名
120
120
120
第十名
80
80
80
总计
4,000
4,000
4,000
Crunch 3
1st place
7,000
2nd place
6,500
3rd place
5,000
4th place
3,000
5th place
1,000
6th place
900
7th place
800
8th place
700
9th place
600
10th place
500
Total
26,000
外部资源
鼓励参与者使用公开可用的外部资源,包括基因扰动数据集和预训练模型,但必须正确注明出处。
参考文献
以下是一些参考资料,旨在提供相关领域的背景知识及研究人员正在应用的方法。这不是一份完整的列表,许多重要的研究未在此列出。
Last updated