深度学习|深度学习，对如何更好地表示计算机的化学结构的问题，有着浓厚的兴趣深度学习

文章图片

文章图片

文章图片

深度学习模型的有效评估需要对数据进行后续拆分。对模型进行训练的数据进行评估会导致严重的过度拟合，在这种情况下，模型会学习重现该特定数据集，而不是其背后的趋势。为了停止这种对数据的“记忆” ，通常会在模型尚未见过的数据上对其进行测试。这通常通过将数据分成三个独立的集合来完成：训练、验证和测试集。训练集被完整地提供给网络，其标签用于在监督学习中调整网络的参数。

验证用于通过提供对未见示例的性能的恒定估计来确保模型不会过度拟合。除此之外，在训练多个模型时，验证数据用于识别性能最佳的模型。最后，第三个数据集，即测试集，被用作所选模型对剩余数据的最终性能评估。为了消除将数据划分到这些集合中的任何偏差，使用了折交叉验证，其中数据划分过程随机k次。任何模型都高度依赖于数据的表示方式。

因此，深度学习对如何最好地表示计算机的化学结构这一长期存在的化学信息学问题有着浓厚的兴趣。某些模型的附加要求是固定大小的输入。这通常是通过用零填充较小分子的表示来实现的。分子图是由两边连接的一组顶点。这可以用矩阵的形式表示。最初，深度学习模型使用扩展连接指纹。这些包括为每个原子分配一个整数标识符，并通过扩展分析其中包含的原子的圆形半径来更新它以包含来自相邻原子的信息。

在这个圈内，对原子进行排序以实现置换不变性，并通过将空间信息压缩成整数标识符，同时满足两个空间不变性。这些整数标识符中的每一个都通过散列函数传递以产生一个数字，当与算术结合时，允许将固定向量中的特定索引切换为一个。该向量具有固定大小，实现了三个不变性，但只包含零和一，因此被称为位向量。这是启发下面描述的基于分子图的模型的基本方法。

保留了在保持其不变性的同时收集有关原子局部环境的信息的想法，但至关重要的是，它们将分子信息编码为实值向量，从而可以嵌入更丰富的信息。简化分子输入行输入系统是一种经典的化学信息学表示，它使用一组有序规则和专门的语法将三维化学结构编码为文本字符串。可以在此基础上应用附加程序创建排列不变性，这个过程称为规范化。

另一个常用的基于文本的标识符，即国际化学标识符，由于多项研究发现其更复杂的数字公式会导致预测性能下降，因此并未经常用于深度学习。简化分子输入行输入系统包含描述化学转化的专门语法，也经常用于机器学习中，用于对反应数据集进行操作的模型。分子图输入目前占主导地位，因为它们能够提取更高级别的特征以及随之而来的预测性能的提高。

【深度学习|深度学习，对如何更好地表示计算机的化学结构的问题，有着浓厚的兴趣】必须注意，还有其他表示，例如点云和库仑矩阵也被使用。最后，无论表示形式如何，分子必须输入数据集才能转换为模型输入。为了将文学语料库中的大量结构数字化，深度学习已被用于自动化这些结构的数字化。该模型在任何给定的深度学习框架中，模型是将数据转换为预测、分类或操作的组件。该模型依赖于其学习者、评估和优化之间的相互作用。学习器包含一组参数，这些参数定义了每个输入点如何转换为输出。然后通过评估或成本函数将该预测与期望的输出进行定量比较。