晶体材料逆向设计的难题
在过去十年中,得益于可逆且不变的分子表示法(如SMILES),深度学习驱动的分子设计取得了迅速进展。然而,在物理、化学和生物学领域,设计固态材料的元素成分和结构排列以实现特定性质仍然是一个难题。这是因为缺乏一个类似SMILES的“晶体语言”来架起固态材料和深度学习模型之间的桥梁。
此前的晶体逆向设计方法大多依赖于3D体素网格或原子坐标来编码结构。但这些方法欠缺不变性。还有人尝试使用晶体图的方法,虽然这个方法具有不变性,但它不满足可逆性。为了解决这一难题,香港岭南大学助理教授肖航与合作者开发了首个可逆且不变的晶体表示法,称为SLICES,该突破性研究成果近日已在Nature Communications 发表。
概念图:SLICES能够将晶体以文字的形式解码。图片来源:肖航
SLICES的核心思想
开发SLICES的核心思想是创建一个可逆且不变的晶体表示法,与广泛用于分子逆向设计的SMILES表示法类似(图1)。可逆性意味着SLICES文本编码可以准确地解码为原始的晶体结构,这对于使用生成模型来开展晶体逆向设计至关重要。不变性意味着SLICES编码在晶体结构的平移、旋转和原子重排序下保持不变。SLICES仅编码晶体的原子间连接关系和元素组成,因此确保了不变性,这减少了数据冗余并提高了生成模型的学习效率。
图1. 分子语言SMILES和晶体语言SLICES之间的类比。图片来源:Nat Commun
SLICES编码晶体的方法
SLICES将晶体结构的原子间连接关系和元素组成编码成字符串,类似于SMILES将分子结构转换成字符串。具体来说,SLICES利用“标记商图”的数学概念来表示周期性晶体结构。单胞内的原子和化学键被分别映射到商图的节点和边上。作者给边(化学键)分配了额外的标签,用于表示化学键的周期性偏移矢量。例如,金刚石的晶体结构(图1)在单胞中包含两个碳原子,SLICES字符串编码了原子符号“C”和边标签“001”(表示沿[001]方向跨过周期性边界的化学键)。通过解析SLICES字符串,可以获取金刚石的元素组成和原子间连接关系。
实现可逆:从SLICES字符串中重建晶体结构
尽管将晶体编码成SLICES字符串相对简单。但是实现可逆性,即从SLICES字符串中准确重建晶体结构则相当困难。这是因为为了确保不变性,SLICES字符串仅包含晶体结构的本质信息,即原子间连接关系与元素构成,而不包含原子坐标和晶格常数。为实现可逆性,作者为SLICES开发了一个晶体重建算法(图2),包含三个步骤:
1. 使用图论技术生成纯数学的初始结构。
2. 使用改进的GFN-FF力场优化初始结构以获得化学上合理的晶体结构。
3. 使用深度学习通用晶体力场进一步优化晶体结构。
作者使用一个包含超过4万个实验已知材料(每个单胞含有最多20个原子)的数据库测试SLICES的可逆性。SLICES的重建算法能够重建94.95%的原始结构,明显优于此前的方法。
图2. 从NdSiRu的SLICES字符串中解码NdSiRu的晶体结构。图片来源:Nat Commun
SLICES在功能材料逆向设计中的应用
作为演示,作者应用SLICES与循环神经网络(RNN)相结合的方法逆向设计了用于光电子器件的直接窄带隙半导体(图3)。该设计流程包括:
1. 在已知晶体结构上训练RNN模型,以学习SLICES语法和与目标电子性质相关的组成/拓扑特征。
2. 使用训练后的RNN生成备选SLICES字符串。
3. 将备选SLICES字符串重构为备选晶体结构。
4. 使用从头计算和人工智能模型筛选结构,以识别符合设计标准的候选结构。
图3. 逆向设计直接窄带隙半导体。图片来源:Nat Commun
通过结合SLICES、RNN和高通量筛选,发现了14种新型直接窄带隙半导体(图4)。这展示了SLICES在生成式AI逆向设计新材料方面的潜力。
图4. 14种新型直接窄带隙半导体。图片来源:Nat Commun
生成具有指定性质的新材料
此外,作者采用如图5所示的条件循环神经网络(cRNN)生成SLICES字符串,这些字符串对应于用户指定形成能的晶体。生成结构的形成能分布相对于数据集分布更接近指定的目标值。基于SLICES的cRNN明显优于前人的模型。
图5. 基于SLICES的条件循环神经网络(cRNN),实现设计出预定性能的新型晶体材料。图片来源:Nat Commun
总结
作为第一个基于字符串的可逆且不变的晶体表示法,SLICES开启了晶体材料逆向设计的新篇章。仅在过去的几年中,我们已经见证了从图像、视频、语音到蛋白质和分子等领域的生成模型取得的巨大进步。得益于像SLICES这样的晶体表示法,晶体材料逆向设计将迎来巨大的机遇和发展空间。
香港岭南大学助理教授肖航是论文的第一作者,研究方向为AI驱动的新材料设计、碳中和功能材料设计和低维材料力学等领域。肖航入选第六届中国科协青年人才托举工程。与他合作的共同通讯作者包括西安交通大学助理教授陈炎,西北大学副教授朱亮亮,香港岭南大学讲座教授陈曦,以及南京大学教授王雷。
原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):
An Invertible, Invariant Crystal Representation for Inverse Design of Solid-State Materials Using Generative Deep Learning
Xiao, Hang; Li, Rong; Shi, Xiaoyang; Chen, Yan; Zhu, Liangliang; Chen, Xi; Wang, Lei
Nat. Commun., 2023, 14, 7027. DOI: 10.1038/s41467-023-42870-7
源代码
https://github.com/xiaohang007/SLICES
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!