光谱学是研究物质与电磁辐射之间相互作用的一门学科,可通过物质对辐射的响应推断其内禀性质。17世纪牛顿便在其《光学》中提到:“若要了解物质内部的结构情况,只要 ‘看其光谱’就可以了”,“看其光谱”一直都是人类探测物质微观结构并推演规律的重要手段。当前,光谱学在基础研究和生产生活中得到了广泛应用,如在材料科学研究中,综合利用多种谱学手段探测样品的化学组成和微观结构是进行深入研究的前提。
然而,随着海量的光谱数据不断产生,给人类“看其光谱”从而“了解结构”的传统方式带来了困难。因其依赖专家的长期经验和高精度计算,传统光谱解读方法的人力与时间成本高、效率低。发展能替代人类专家的人工智能方法,驱动机器进行自动解读光谱信号并反演结构信息,成为了学术界和产业界一个共同而又紧迫的“梦想”。近期,我院郭文跃教授团队任浩副教授基于机器学习技术,在分子光谱信号自动解析和微观结构智能识别方面取得了系列进展,相关工作发表在“Fundamental Research”、“PNAS”、“Analytical Chemistry”等期刊。
光谱信号来自于样品对入射光的响应,对应于体系微观状态间的跃迁。如红外吸收光谱对应体系特定的振动激发,该跃迁与入射光共振,导致了光子湮灭并将携带的能量转移至样品,表现为光吸收现象。由此可见,光谱测量是一个“信息降维”的过程,光谱信号相当于物质在高维构型空间的组成和结构信息在某个一维频域空间的投影。不依靠专家知识、经验和模拟计算中隐含的物质信息,直接利用机器进行“信息升维”操作,从一维的光谱信息中还原高维的物质结构信息,这是一个巨大的挑战。
图 1“分子结构—振动光谱”双向关联。
实践上,研究人员通常结合不同类型的光谱信息,从不同角度提取物质本身的高维信息,进行物质结构推断。如通常认为红外(IR)和拉曼(Raman)光谱具有“互补性”,可以更全面地反映分子振动行为。团队与我校生物与能源化工系黄方教授、中国科学技术大学罗毅教授、江俊教授等合作,发展了基于长短期记忆(LSTM)神经网络的分子组成结构智能识别模型(图1)。作者模仿人类专家的解谱流程,将IR和Raman谱分别作为频域序列,经由LSTM提取化学信息并成功进行了分子结构的自动识别。利用该系统综合使用IR和Raman所蕴含的化学信息,对微观结构的识别错误率远低于仅使用IR或Raman的情形。该工作发表于国家自然科学基金委主办的“Fundamental Research”杂志首卷(Fundam. Res. 2021, 1, 488-494.)。由于LSTM可接受多个任意长度的序列并综合其信息进行判断,可为该系统提供更多表征数据(如XAS、NMR等)用以训练,提升性能。
图 2蛋白质片段光谱数据库构建及二级结构机器识别系统示意图。
然而,传统光谱表征的一维形式限制了其信息含量。近期,团队与加州大学Irvine分校Shaul Mukamel教授,中国科学技术大学江俊教授等合作,结合多尺度理论计算和机器学习技术,发展了基于二维紫外光谱(2DUV)信号智能识别蛋白质二级结构的方案,相关工作发表于《美国国家科学院院刊》(Proc. Natl. Acda. Sci. U.S.A. 2022, DOI:10.1073/pnas.2202713119)。2DUV可将样品不同电子激发之间的耦合信息呈现为频率空间的二维强度分布。相比传统的一维线性光谱(如紫外可见谱、圆二色谱等),2DUV具备广阔的二维特征空间,携带了远超传统一维光谱的微观结构信息。在该项工作中,作者将2DUV信号作为光谱描述符,结合卷积神经网络(CNN)和迁移学习技术,实现了基于光谱数据的二级结构识别,对蛋白质二级结构的识别准确率分别达到了97%以上,大幅度超越了基于一维光谱的识别效果。
梯度加权类激活映射(grad-CAM,图2)分析表明,2DUV中的非对角峰对二级结构识别尤为重要。非对角峰对应体系的激子间耦合作用,无法利用传统的一维光谱准确表征。相对于一维光谱描述符,2DUV最大的优势在于其光谱信号中显式包含分子内不同酰胺键上的电子激发之间的耦合作用。因此,2DUV能够提供更高的维度用于容纳体系内部的相互作用特征,使得建立稳定的“结构—光谱”关联成为可能。
图 3不同二级结构的蛋白质片段的2DUV光谱(左)及对应的grad-CAM热图(右)。热图中红色表示较高权重,表示该部分光谱特征对结构识别过程具有更大贡献。
这些工作表明,将光谱信号看作频域序列,结合成熟的模式识别技术,可实现自动的光谱学信号解读,为分子结构的实时、动态表征提供了坚实的理论和技术支持。人工智能技术赋能传统多尺度模拟,将显著促进光谱学技术对微观结构和功能演化的动态跟踪能力。
该系列工作得到了科技部重点专项(2019YFA0708703)、国家自然科学基金(21773309, 21776315)、学校自主创新科技专项(19CX05001A,20CX05010A)、合肥微尺度物质科学国家研究中心开放课题(KF2020004)的经费支持。
作者简介:
任浩(http://mse.upc.edu.cn/2018/1204/c13592a298947/page.htm),材料物理系副教授,化学物理博士,生物技术博士。近年来主要从事分子光谱的第一性原理和机器学习计算方法发展相关工作,同时与实验合作进行新能源材料的理论设计和计算。主持国家自然科学基金面上和青年项目,参与国家基金面上项目和科技部重点研发项目等;发表论文70余篇,引用1900余次;开发科学计算软件4套,登记软件著作权5项。目前承担《结构化学》、《固体量子化学》、《材料信息学基础》、《材料基因导论》等课程的教学工作。
郭文跃(课题组主页:http://tsd.mse.upc.edu.cn),教授,博士生导师,材料物理系教师。山东省材料学会副理事长,山东省物理学会常务理事,青岛市物理学会副理事长。近年来主要从事石油化学和新能源领域的新型催化剂设计、太赫兹光谱表征、材料基因方法学研究;主持国家自然科学基金等省部级以上项目十余项,发表论文100余篇。承担《固体物理》、《分子结构与分子光谱》等课程的教学工作。
相关链接:
https://www.sciencedirect.com/science/article/pii/S2667325821000972
https://www.pnas.org/doi/10.1073/pnas.2202713119
https://pubs.acs.org/doi/10.1021/acs.analchem.1c00547
https://pubs.acs.org/doi/10.1021/acs.analchem.1c04947
https://pubs.acs.org/doi/10.1021/acs.jpcc.1c09470