数据稀缺?生成式AI正在学习如何创造自己( 二 )


推出蛋白质结构预测算法的DeepMind团队 , 其命名为AlphaFold的模型可以仅根据基因“代码”预测生成蛋白质的3D形状 。 通过能够在数小时或数分钟内生成结果 , AlphaFold有可能节省数月的实验室工作 , 并极大地加速几乎所有生物学领域的研究 。
但深度生成模型也面临一些明显的技术挑战 , 如在数据集有限的情况下训练难以得到很好效果以及确保在实际应用中模型能产生始终如一的准确输出 。 还有伦理问题 , 深度生成模型的决策过程不可解释 , 这可能导致AI模型在人类不知情的情况下产生不合理或不道德的偏见 , 进而产生不准确或具歧视性的输出 。
以下为对HelloFuture《GenerativeAI:anewapproachtoovercomedatascarcity》提到的应用案例编译:
合成脑磁共振成像
医学是数据量稀缺的领域之一 , 因为数据稀有性——具有异常现象的医学图像本身并不常见 , 同时法律限制对患者病历记录的使用和共享 。
2018年 , 美国的Nvidia公司、MayoClinic和MGH&BWH临床数据科学中心的研究人员开发了一种模型 , 该模型可以生成合成的脑部肿瘤核磁共振成像 , 从而用于训练深度学习模型 。 研究团队认为 , 这些合成图像既是数据增强的补充工具 , 也是一种有效的匿名化方法 。 它们提供了低成本的多样数据 , 从而提高了肿瘤分割(在核磁共振扫描中区分肿瘤组织与正常脑组织的过程)的性能 , 同时允许不同机构之间的数据共享 。
加速药物开发
药理学也可以从这种方法中受益 。 设计一种新药不仅困难重重 , 且昂贵耗时:一款药物上市通常需要超过12年时间 , 平均花费10亿欧元 。 成本如此之高的原因之一是:在临床前研究开始之前需要合成数千个分子 , 以便确定一个候选化合物 。 这个过程需要使用多目标优化方法来探索广阔的“化学空间”(包含所有可能的分子和化合物、几乎无限的广阔空间) , 因为人工智能系统必须根据几个关键标准评估这些分子并做出决策 , 这些标准包括药物的活性、毒性或合成的难易程度 。 该优化方法需要大量的训练数据 , 而部分数据可以由生成模型提供 。
InsilicoMedicine创建了Chemistry42平台 , 该平台结合了生成算法和强化学习 , 可在几天内自动找到具有特定属性的全新分子结构(称为“从头”分子设计) 。 英矽智能已将该平台与其他工具整合 , 应用于肺部疾病等多个治疗领域 。 2021年 , 英矽智能宣布发现了一个具有全新治疗靶点(药物作用于人体的部分 , 如蛋白质)的全新分子 , 有望治疗特发性肺纤维化(IPF) 。 这是全球首例完全由AI发现和设计的分子 , 用时不到18个月 , 预算仅为传统研究成本的10% 。
咨询公司Gartner表示 , 到2025年 , 超过30%的新药和新材料将使用生成式人工智能技术发现 。
合成的脑补核磁共振成像
抽样偏差是面部识别技术受到指摘的原因之一 。 一些面部识别工具存在这样的问题:深肤色人种的识别率低于浅肤色人种 , 或者女性的识别率低于男性 。 这些记录在案的偏差 , 通常与培训数据库中某些群体的代表性不足有关 , 而这可能导致对部分人口的歧视 。
为了避免抽样偏差 , 人工智能工程师需要能够提现人口多样性的数据集 。 然而 , 这些数据集很少 , 并且由于生物特征数据的敏感性 , 它们的使用受到限制 。
合成数据有助于减少抽样偏差 。 一开始仍然需要使用真实的面孔来训练生成模型 , 之后设计人员可以根据不同属性(性别、年龄、肤色等)精细控制合成数据的生成来平衡数据集 。
合成数据的另一个好处在于它可以克服敏感数据机密性带来的限制 , 并降低干预风险 。 生成模型产生的数据虽然真实 , 但仍然是不与任何人相关的合成数据 。 一些研究试图表明合成数据在保护个人隐私的同时 , 可以与真实数据一样有用 。