机器学习的理论基础

  1. 1. 机器学习中的取样
  2. 2. 机器学习的局限性

1. 机器学习中的取样

机器学习的一个重要步骤是采样,采集那些能够表征系统特征的构型加以训练,能够训练出新的机器学习势,在遇到构型时,能够准确判断构型中原子受到的力

从统计热力学的角度看,一个系统的微观状态的概率服从玻尔兹曼分布,即随着能量增加,微观状态出现的概率越低。在我的体系中,能够出现一些稀有的构型,这些构型应该有一个共同的特点就是能量高,导致他们出现的概率很低。但是增大晶胞能够大大增加这些稀有事件出现的概率。

分子动力学的过程只能探索很少的势能面,这些很少的势能面在大概率上决定了系统在大部分时间内的演化。系统根据玻尔兹曼分布到达其他势能面的概率很低,这也是机器学习能够起到作用的根本原因

分子动力学只需要很少的势能面就能运行足够多的时间

为什么增大晶胞这些稀有的构型就出现了?

理论上讲,氧元素所能探索的高能态是很有限的,因为它们没有扩散,真正起作用的还是钠离子的扩散,导致在小晶胞中本来不可能探测到的氧原子的位移、钠离子的构型出现了,所以问题的根源还是在钠离子的扩散。大晶胞和小晶胞的扩散不同的一点应该就在于钠离子可以以更加紧密的方式排列在一起。这需要证据。并且如果是这样的话,为什么在其他体系的模拟中没有出现这样的现象。

2. 机器学习的局限性

理论上,在构建机器学习势时,使用精确的DFT探索的势能面的范围越大,构建的训练集的结构更广泛,构建的机器学习势的适用性、可用性也越大。然而,问题在于,如果DFT已经能够构建出足够大范围内的势能面了,那就不需要机器学习势了。当精确的势能面构建后,在势能面上任一点的能量和力(对应于任意的构型),可以快速并且准确地判断出来。因此,不带maxval的机器学习势,存在的问题是当遇到训练集之外的势能面上的结构时,可能给出错误的能量和力,因此给出虚假的轨迹。如果带maxval,相当于给机器学习势的能力提供一个范围边界,可能会更好

cc5d86ebf2f393cfb58d4db6ec63927
转载请注明来源 有问题可通过github提交issue