联系我们
意见反馈

关注公众号

获得最新科研资讯

理论计算与模拟实验室 — 张睿课题组

简介 软物质体系中多尺度结构与动力学行为的理论计算与模拟研究

分享到
实验室简介

目前,组内有4名博士生,5名硕士生。

本课题组主持国家自然科学基金面上项目、中央高校业务费、企业委托攻克技术难关等技术开发项目。

欢迎高分子、化学、物理、材料、计算机等相关专业的同学加入团队

当材料科学遇见机器学习

        “嘿,Siri,明天广州下雨吗?”

        “明天广州应该不会下雨。”

图1.  与Siri 对话界面。

        以上情景经常出现在我们的生活中,实现和语言助手进行人机交互的一个重要技术是语音识别,而这正属于人工智能(Artificial Intelligence, AI)的一种应用。

        大数据和人工智能的结合被称为“第四科学范式”[1]机器学习方法作为人工智能重要的支柱之一,近年来受到了广泛的关注。在材料科学领域,由于数据的丰富和计算机运算能力的增强,机器学习方法已经被应用于发现新材料、预测材料和分子性质、研究原子力场和设计药物等多个方向。

        接下来我们将简单介绍机器学习方法的概念、分类、基本步骤和常用的软件库。

机器学习方法的概念

        对于机器学习,Mitchell给出了一个形式化的定义:一个计算机程序在完成任务T之后,获得经验E,其表现效果为P,如果任务T的性能表现,也就是用以衡量的P,随着E的增加而增加,可以称其为学习[2]

        这种通过计算的方式,利用数据来改善系统自身性能的能力在材料科学领域的应用数量正在迅速增加。用于生成、测试和改善科学模型的机器学习工具也越来越多。这些技术适用于解决设计大量组合空间或非线性过程的复杂问题,而常规过程无法解决这些问题或需要很高的计算成本。运用机器学习,只要提供足够的数据和用于发现规则的算法,计算机原则上就有能力在没有人类干预的情况下确立所有已知的物理规律,以及可能发现目前还未知的物理规律[3]

机器学习方法的分类

        机器学习方法按学习方式划分大体可以分为三大类,分别是监督学习、无监督学习和强化学习[4],见图2。

                                      

图2.  机器学习方法分类。

        监督学习的特征是训练数据有标记信息,训练数据由输入和对应输出值的集合组成。两种常见的监督学习问题是分类和回归,对应于分类输出和数值输出。常见的方法有线性回归、逻辑回归、支持向量机和神经网络等。

        无监督学习的特征是训练数据无标记信息,尝试从没有标记的数据中提取信息。无监督学习分为非概率模型,如稀疏编码、自动编码器、k-means等,以及概率(生成)模型,其中或明确地或隐含地涉及密度函数。常见的方法有聚类、降维以及异常检测等。

        强化学习是关于一个智能体与环境相互作用,通过试错来学习最优策略,用于自然、社会科学和工程等广泛领域的序贯决策问题[5]。在强化学习中,有评估反馈,但没有监督信号。

机器学习方法的基本步骤

        在传统的计算方法中,计算机更多情况是充当高级计算器的角色,所有步骤都已经由人提供了硬编码算法,即将数据直接写在程序或其他可执行对象的源代码中。与传统计算方法不同,机器学习方法通过评估数据集的一部分并建立模型进行预测来学习数据集的基础规则。计算机能通过数据的内部联系发现规律,所以我们说机器从数据中进行了“学习”。

        在材料科学中,训练机器学习模型的四个步骤主要可以分为数据采集、数据表达、模型选择和模型优化[6]

数据采集

                                              

图3. 数据库标识。(1)无机晶体结构数据库;(2)剑桥结构数据库。

        这些数据虽然已经经过一定的筛选和检查,但是难免会受到人为和测量误差的影响。此外,由于数据以各种格式存储在不同的数据库中,因此很难将多个数据库的数据统合起来。所以,即使使用数据库中已经收集的数据用于机器学习模型的训练,也应该在数据采集阶段进行相应的处理。

数据表达

        数据表达又可称为特征工程,是指将原始数据转换或提取信息特征以适应算法学习的形式。不同的数据形式对于机器学习算法的训练影响巨大。如何最好地表达数据是一个值得思考的问题,它不仅仅涉及研究者对于研究体系的认知,还涉及机器学习算法对数据的处理过程。图4是分子表示(Representation of molecules)的示意图。

图4. 对于同一个分子不同类型的分子表示[7]。(1)指纹矢量;(2)SMILES字符串;(3)势能函数;(4)原子和键的权重图;(5)库伦矩阵;(6)键/片段的组合;(7)原子电荷的三维几何;(8)电子密度。

        有时最方便人类理解问题的表达形式并非适合机器对其进行“学习”。例如在固态下,传统的使用平移矢量和原子的分数坐标来描述晶体结构的方法并不适用于机器学习,因为晶格可以通过选择不同的坐标系从而以无数种方式来表示。利用基于径向分布函数的表示法是解决这一问题的新方法之一[8]

模型选择

        完成数据采集和数据表达后,已经有了足够的数据以及合适的数据表达,这一步则是在前两步的基础上建立一个用于学习的模型。根据需要解决的问题以及可用数据的类型和数量,机器学习模型的训练可以采用监督、无监督和强化学习方法。

        监督学习是目前最成熟的方法,通过输出值对预测值的校正通常能获得比较好的学习模型。无监督学习可用于更全面的数据分析和分类,或识别大型数据集中以前无法识别的模式。强化学习没有监督信号,只有奖励(反馈)信号。该方法不需要事先给出任何数据,而是通过接收环境对动作的奖励(反馈)来获取学习信息并对模型参数进行更新。

        每种算法都有自己适用的领域,并且没有针对所有问题都通用的最佳算法,这就是“没有免费的午餐”定理(No free lunch theorem)。研究人员应该根据数据集的构成和研究目的,选择适当的机器学习方法。

模型优化

        为了优化和选择模型的最佳模式,模型必须进行验证评估。我们通常把数据分成训练集、验证集和测试集三大部分。判断已建立的机器学习模型表现好坏通常需要用验证集数据进行评估,即通过验证集数据对模型的泛化误差进行评估。

        两个常见的问题是过拟合和欠拟合,前者体现了机器学习模型的学习能力较差,难以达到所需要的预测或分类等效果,后者体现了机器学习模型的泛化能力较差,对于训练集的数据能够较好地拟合但是对于训练集之外的数据拟合能力很差。通过优化模型和数据集,平衡这两个问题的行为就是偏差-方差权衡(Bias-variance trade-off)。

机器学习方法常用的软件库

        机器学习方法多种多样,幸运的是,有很多成熟的库可供我们直接使用,不需要重新“造轮子”。常用的库有Scikit-Learn、Keras以及TensorFlow,见图5。

图5. 三种常见的机器学习库。(1)Scikit-Learn;(2)Keras;(3)TensorFlow。

        Scikit-Learn用于Python编程语言的自由软件机器学习库。它的特征是具有各种分类、回归和聚类算法,包括支持向量机、随机森林、梯度提升、k-平均聚类和DBSCAN。

        Keras是一个用Python编写的开源神经网络库,旨在快速实现深度神经网络,专注于用户友好、模块化和可扩展性。除标准神经网络外,Keras还支持卷积神经网络和循环神经网络。

        TensorFlow是一个用于机器学习的免费开源软件库。它可以用于一系列任务,但特别着重于深度神经网络的训练和推理。

        通过使用适合的机器学习库,即使对于机器学习底层算法不熟悉的同学,也可以轻松上手机器学习,搭建属于自己的机器学习模型。

参考文献

[1] Agrawal A, Choudhary A. Perspective: Materials informatics and big data: Realization of the fourth paradigm of science in materials science[J]. Apl Materials, 2016, 4(5): 053208.

[2] Mitchell T M. Machine learning[J]. Burr Ridge, IL: McGraw Hill, 1997, 45(37): 870-877.

[3] Butler K T, Davies D W, Cartwright H, et al. Machine learning for molecular and materials science[J]. Nature, 2018, 559(7715): 547-555.

[4] Li Y X. Deep reinforcement learning: An overview[J]. arXiv preprint arXiv, 2017, 1701.07274.

[5] Sutton R S, Barto A G. Reinforcement learning: An introduction[M]. MIT press, 2018.

[6] Butler K T, Davies D W, Cartwright H, et al. Machine learning for molecular and materials science[J]. Nature, 2018, 559(7715): 547-555.

[7] Benjamin S L, Alán A G. Inverse molecular design using machine learning: Generative models for matter engineering[J]. Science, 2018, 361: 360-365.

[8] Schütt K T, Glawe H, Brockherde F, et al. How to represent crystal structures for machine learning: Towards fast prediction of electronic properties[J]. Physical Review B, 2014, 89(20): 205118.

当分子遇见模拟

        你是否想过“无中生有”,让一切仅存于想象的灵感巧妙地实现?数百年间无数物理学家投身于此,建立起无生命物质世界的第一原理框架——量子力学与统计力学。在21世纪的今天,借助高度发展的数理理论与发达的计算机技术,“无中生有”似乎不再是空中楼阁。

1.你见过百发百中的篮板吗?

        你见过这样的篮板吗?不论你从哪个角度投球,都能百发百中。听起来匪夷所思,但设计者从“建立一个模型让所有可能角度的进球路线都变得合理”的想法出发,最终实现了这个天马行空的计划。

        试着想想,假如通过传统的投球实验测量数据来调整篮板的模型,工作量和时间成本十分庞大,还无法排除无关变量影响。面对庞大且重复的工作量,正是让计算机模拟大放异彩的时刻。作者采用蒙特卡洛模拟方法进行暴力求解,让计算机代替人来重复上千万次的投球采样,再运用最小二乘法对不同角度和坐标的数据进行拟合获得理想的篮板形状,导出数控机床的生成路径,最终通过数控机床实现理论模型。在这个过程中,正是计算机模拟让百发百中的篮板不再是天方夜谭般的存在。

        那么在软物质材料设计中,我们能否运用如今成熟的计算机模拟使得分子合理存在呢?作为一项集物理原理、数学建模、计算机高性能运算三位一体从而预测分子动力学行为与热力学性质的新兴技术,分子模拟(Molecular Simulation)给了我们答案。得益于分子模拟理论、方法以及计算机技术的发展,分子模拟已经成为继实验和理论手段之后,从分子水平了解和认识世界的第三种手段[1]。它是理论的延伸,又是架向实验的桥梁。对于很多分子体系结构和性质的研究目前不仅可以通过实验来实现,还可以通过分子模拟来展开。分子模拟除了能帮助我们理解实验现象,还能发现或者预测新的物理现象。

        随着计算机技术的飞速发展与物理理论的逐渐完善,分子模拟从最初的小尺度简单模型模拟,成长为如今能够快速并行计算大尺度复杂模型的模拟。这个过程有着无数科学家在其中潜心钻研,在分子模拟的银河中留下了一颗又一颗璀璨的星。

2.分子模拟发展历史

        20世纪初,电子计算机的发明揭开了信息时代的序幕;20世纪中页,晶体管取代真空管使得计算机性能大幅提升,分子模拟也在此时初现端倪。

        1953年,Metropolis等人采用蒙特卡罗(Monte Carlo, MC)方法模拟了2D球形致密流体体系。这在分子模拟史上是开天辟地的大事件。

        1957年,Alder和Wainwright首次采用分子动力学(Molecular Dynamics, MD)方法,模拟研究了硬球流体之间的相互作用,见图1。有关简单液体行为的许多重要见解都来自他们的研究。

        1964年,Rahman采用分子动力学方法首次模拟了液氩的相互作用。

        1969年,Barker和Watts采用蒙特卡罗方法模拟了水分子。

        1974年,Rahman和Stillinger同样模拟了水分子体系,见图2,但使用的方法是分子动力学。

        1977年,McCammon 等人应用分子动力学方法,首次进行了BPTI蛋白酶的模拟。模拟时间达到了皮秒级别。

        1986年,R.Car和M.Parrinello开发了基于量子力学的从头算分子动力学(ab initio MD)。

        1994年,York等人模拟水合BPTI蛋白酶的时间达到纳秒级别。

        ……

                               

1 硬球流体的相互作用

                                                        

                          图2 使用分子动力学模拟水分子体系                                                       3 使用分子动力学模拟BPTI

4 四种状态下的LJ硬球模型(A:气态 B:不稳态 C:液态 D:固态)

        随着计算机技术的飞速发展,算法和力场日益完善,分子模拟的效率和精度获得极大提高,已能够广泛应用于多个学科领域:

        在药物设计领域,可用于研究病毒、药物的作用机理等;在生物科学领域,可用于表征蛋白质的多级结构与性质等;在材料学领域,可用于研究结构与力学性能、材料的优化设计等;在化学、化工领域,可用于研究表面催化及机理,构建和表征高分子链以及晶态或非晶态本体聚合物的结构,预测包括共混行为、扩散、内聚与润湿以及表面粘接等重要性质。

        分子模拟的应用当然远不止这些,在此也不能一一列举。重要的是,我们该如何进行分子模拟呢?

3.分子模拟步骤简要介绍

        分子模拟(Molecular Simulation)是一类通过计算机模拟来研究分子或分子体系结构与性质的重要研究方法[1],主要包括分子动力学(Molecular Dynamics, MD)方法和蒙特卡罗(Monte Carlo, MC)方法。前者是通过体系中分子坐标的变化来计算分子之间的相互作用力,该方法主要依靠牛顿力学来模拟分子体系的运动,再从体系的不同状态构成的系统中抽取样本,计算体系的构型积分,并以此为基础进一步计算体系的热力学量和其他宏观性质。与蒙特卡罗模拟方法不同的是,分子动力学始终受时间控制[2]

        蒙特卡罗方法又称为计算机随机模拟方法,是一种依赖于重复随机抽样来获得数值结果的数值计算方法,主要基于概率论、统计力学和系综理论。蒙特卡罗获得新构象的过程如下:首先随机产生一个尝试构象;通过计算构象的能量得到一个概率因子;最后将概率因子与产生的随机数进行比较,按照一定的规则,接受或拒绝这个尝试构象,完成一次循环[3]

        与分子动力学相比,蒙特卡罗方法有时更为简单和高效。二者最大的区别在于分子动力学主要是通过分子间作用力促使体系变化,而蒙特卡罗方法则是通过不同构象之间的能量差异完成构象的更迭。选择哪一种方法依赖于具体研究的体系性质,例如,若想得到体系的含时动力学性质,分子动力学是最好的选择;而蒙特卡罗方法更适合在非含时的统计平均计算方法领域,但它无法得到系统的动态信息[2]

        模拟与理论、实验相互补充,彼此验证。从下图中可以看出,模拟可视作理论和实验的桥梁。对于理论研究而言,模拟可以为理论研究提供数据进行复杂数值解的方法和手段[4];对于实验研究而言,模拟可以对实验数据进行分析,并获得实验反应细节。三者关系相辅相成,相得益彰。

 

5 分子模拟、理论、实验三者关系图

        分子模拟的主要步骤包括选定真实体系、建立模型、运行模拟和分析数据,见图6,图7。首先根据真实体系建立模型,根据不同的尺度采用适合的模型,常用的模型有全原子模型和粗粒化模型;接着进行分子模拟;模拟结束后再对数据结果进行分析,进而得到其相结构和热力学性质等信息。

 

6 模拟工作的流程

7 聚合物模拟关键步骤[5]

        为了模拟分子体系在极大的时空跨度内的结构与性质,在不同的时空尺度下应采用不同的模型,见表1.

1 各种物理体系的特征时空尺度与模拟方法[1]

8 不同尺度下的模拟

        全原子分子动力学模拟的基本思想就是将体系的每个原子当作一个小球,然后求解体系的牛顿运动方程。计算体系的总势能是至关重要的一步,力场就是体系原子之间相互作用势能函数的综合表达式,包括了原子或分子间的键相互作用和非键相互作用以及约束项。其中,键相互作用又包括了键与键之间的伸缩势能、键角的弯曲势能以及二面角的势能等,而非成键相互作用主要是指范德瓦尔斯相互作用能和库伦静电相互作用势能[6]。图12为锂离子在聚合物体系中进行扩散运动的全原子模拟。全原子模拟具有更高精度,可以更好的描述分子体系的结构与性质,但计算量大,可模拟的时间和空间尺度有限[1]

        在现有的计算速度下,微观尺度上的全原子分子动力学模拟能够描述的体系尺寸通常仅有几十埃。显然,描述原子细节的全原子模型由于自由度过多,当计算资源受限时,必须减小模拟体系规模或缩短体系的演化时间,否则将会影响模拟效果。因此必须建立从微观到介观的衔接,构建能在介观尺度上进行有效分子模拟的粗粒化模型[4]

        在软物质科学领域,很多物理现象都伴随着发生在原子尺度上的过程,而这能够直接影响到介观尺度上的结构和动力学性质。因此,采用分子模拟方法定量研究高分子体系物理化学性质,建立衔接到微观尺度的粗粒化模型变得越来越重要。通常,针对具体研究的体系,需要构建不同的粗粒化模型[4]。聚合物链的粗粒化过程就是通过整合链上大量微观细节,将聚合物分子描述成由不同柔性弹簧连接的粗粒化粒子组成的链,并用经验势或精确的势来描述分子间的相互作用。图11为使用粗粒化模型对纳米粒子球的表面引发的链增长聚合反应进行模拟。实际上,无论选择哪种粗粒化方法和非键相互作用势函数形式,粗粒化的基本要义都是在能够重复尽量多的真实体系性质的前提下,采用尽量简单的势函数形式。

9  PE分子链的粗粒化模型和力场示意图[7]

10 聚苯乙烯的粗粒化示意图[8]

        采用特定的粗粒化模型来研究,一方面由于忽略了很多不必要的细节,加快了体系的动力学过程;另一方面由于采用了合适尺度的模型,减少了整个体系演化所需要的时间。在分子链的特定粗粒化模型中,每个粗粒化粒子可以代表几个原子、几个单体甚至分子片段。由于粗粒化粒子间势函数比全原子的软,所以即使采用较大的时间步长,粗粒化模拟的运行也很稳定。通常粗粒化模拟的计算效率较全原子模拟的至少要提高3到4个数量级。目前,具有最高简化程度、最少自由度的分子模型就是粗粒化模型[1]

11 模拟纳米粒子的表面引发的链增长聚合反应[9]

12 锂离子在聚合物中的扩散运动

                              

13 锂离子在聚合物中的扩散运动

        分子模拟作为一种研究分子体系结构与性质的计算方法,已被广泛用于化学化工、生物医药、材料科学与工程、物理等学科领域。其最直接的研究结果包括分子体系的结构特征、各种热力学性质、体系的各种迁移性质等。总的来说,达到更高的效率、模拟更大的体系、实现更长的演化时间、取得更精确的模拟结果是分子模拟未来的发展趋势。

参考文献

  1. 严六明,朱素华.分子动力学模拟的理论与实践[M].科学出版社:北京,2013:1.
  2. 苑世领,张恒,张冬菊.分子模拟理论与实验[M].化学工业出版社:北京,2016:3.
  3. 苑世领,张恒,张冬菊.分子模拟理论与实验[M].化学工业出版社:北京,2016:110.
  4. 郭洪霞.高分子粗粒化分子动力学模拟进展[J].高分子通报,2011(10):154-163.
  5. Thomas E. Gartner, Arthi Jayaraman.Modeling and Simulations of Polymers: A Roadmap[J].Macromolecules,2019,52(52):755-786.
  6. 熊开欣. 基于Amber bsc1和bsc0力场的DNA柔性的全原子分子动力学模拟研究[D].武汉大学,2018.
  7. 蔡庄立. 聚乙烯材料导热性能的粗粒化分子模拟研究[D].东南大学,2019.
  8. 朱有亮. 实现更大空间及时间尺度聚合物模拟的一些探索[D].吉林大学,2013.
  9. Hong Liu,You-Liang Zhu, Jing Zhang,etc.Influence of Grafting Surface Curvature on Chain Polydispersity and Molecular Weight in Concave Surface-Initiated Polymerization[J].ACS Macro Letters,2012,1(1):1249-1253.

 

        本文作者为华南软物质科学与技术高等研究院19级硕士生罗煜林、黄崇洋和20级硕士生杨紫琼,指导老师为华南软物质科学与技术高等研究院张睿研究员。张睿课题组的研究领域为软物质理论计算与模拟,主要关注:(1)巨型分子的多级组装结构与动力学演变;(2)高分子复合材料中的协同动力学过程;(3)超分子溶液中的自组装与仿生现象;(4)软物质中的玻璃化转变。目前在软物质科学与工程专业招收学术博士及硕士;在软物质多尺度理论模拟、基于机器学习的软物质材料优化、非平衡统计力学理论发展与应用方向上招聘博士后。

 

杂化大分子本体自组装的模块化研究(模拟+理论)

        自组装是软物质材料中普遍存在的一类有趣现象。研究自组装系统的多层级(hierarchical)结构和动力学演变过程是前沿的科学问题,对精准构筑软物质杂化功能材料有重要的意义。近年来,以巨型分子为代表的杂化大分子体系因其“精准化、多样化、模块化”的特点而持续受到热点关注。相对于实验研究的飞速发展,对杂化大分子自组装的理论模拟研究还比较滞后。课题组在近期以布朗动力学模拟方法为基本框架,对几个有代表性的巨型分子体系进行了粗粒化模拟计算,预测的自组装结构与实验结果有良好的吻合度。在此基础上,我们已经启动了对杂化大分子本体自组装的模块化研究方案。

固态非晶聚合物电解质中的协同离子输运过程(模拟+机器学习)

        相对于传统的液态电解质,聚合物电解质可以大幅提高锂离子电池的安全性和力学性能,但离子电导率偏低仍是这一技术的最大瓶颈。课题组致力于结合分子模拟和机器学习方法探索制约离子在高分子中运动速率的关键点,从而设计出拥有更高安全性和实用性的聚合物电解质。当前的研究重点之一为单离子导体的设计方案,其中除锂离子外,其余离子都共价连接在高分子链上。该方案的优点是能够显著提高阳离子迁移数,消除极化效应。在前期工作中,我们已经建立了完善的原子级别和粗粒化级别的分子模型,计算了力场参数。目前对几个有潜力的单离子导体体系的多尺度分子动力学模拟研究正在进行之中。另一方面,我们正结合基于机器学习的优化算法(贝叶斯算法、基因算法等)高效率地探索高维的材料设计参数空间,加速对材料性能的计算优化过程。

高分子胶体共混体系中的新颖玻璃化动力学行为(理论+模拟)

        在前期的工作中,课题组发展了平移-旋转关联动力学理论和自洽协同跃迁理论(self-consistent cooperative hopping theory, SCCHT),分别对单组分非球状胶体体系和双组分球状胶体体系进行了研究。课题组当前关注如何理性地调控高分子胶体形状、组分和相互作用来构建多样化、新颖化、功能化的非晶软物质材料,提出通过研究由球状(spherical)胶体和哑铃状(dumbbell-shaped)胶体组成的共混体系(简称SD模型体系)来探寻具有三步动力学弛豫特性的新型非晶固体的形成条件,并探索利用温敏性高分子球状和哑铃状胶体实现温控多固态智能材料的设计方案。课题组已经完成了SD模型体系的玻璃化动力学理论推导工作(图1),目前正在对胶体间相互作用从简单(仅有硬核排斥力)到复杂(超短程吸引力、静电作用力等)的一系列SD系统进行研究。与此同时,课题组正在发展适用于SD体系的事件驱动分子动力学(event-driven molecular dynamics)方法,在未来计划将理论的便捷性和模拟的精细性结合起来,全面揭示SD体系中各种新颖的玻璃化动力学行为,包括动力学异质性(dynamic heterogeneity)上的新特征。

访问量:555