技术文章

使用机器学习筛选多源数据,寻找更安全的电池材料

作者 Austin D. Sendek, Stanford University


2016 年 6 月 14 日,由喷气推进实验室研究人员打造的一款类猿灾区救援机器人 RoboSimian 在实验室内爆炸并起火。次年,在经历火灾和爆炸事件后,一家大型手机制造商全球召回新版平板电脑。自此以后,类似事件报道层出不穷。经认定,每一起事故的罪魁祸首都是锂离子电池。

这些电池的问题在于采用液体电解质,倘若电池推动装置无法足够迅速地冷却,往往会引起液体蒸发或起火。研究人员正在积极寻找离子导电性和电化学稳定性良好的固体电解质材料,替换存在潜在危险的液体电解质,但进展始终十分缓慢。通过实验或模拟评估一种候选材料可能需要数周时间,材料项目数据库中包含超过 12,000 种含锂结晶固体,它们都有可能成为候选材料 — 更不必说尚未编入目录的数千乃至数百万种材料。

采用在 MATLAB® 中开发的机器学习模型,我和我的同事找到了好的方法:在我们分析的 12,000 多种材料中找到少量特殊固体电解质。运用一套已知良好的电解质及其原子结构进行训练,MATLAB 模型识别潜在新材料的效率比随机猜测高出三倍,比从事相关领域工作的斯坦福大学研究生的效率高出两倍。

锂离子电池基础知识:液体电解质面临的问题

在锂离子电池中,随着电池的充放电,锂离子将在电解质中迁移。由于水与锂会发生反应,电池制造商使用有机溶剂(而不是水基溶剂)作为电解质。因此会导致这样一个问题:与水不同,汽油、发胶和洗甲水等有机溶液通常易燃而且不稳定。 

除安全问题之外,液体电解质至少还有两个缺点。首先,很难使用液体电解质制造高电压电池,因为随着电压的增加很可能发生故障。其次,无法彻底阻止枝晶生长现象,这也是导致电池提前报废的主因。总之,正是由于存在上述种种缺点,人们才会不遗余力地寻找适合的固体电解质。

从多个源收集数据

在 Evan Reed 教授的督导下,首先汇总三个来源的数据:材料项目数据库、发表的论文以及无机晶体结构数据库(ICSD,一种存储经实验验证的原子结构的在线数据库)。

首先,我们识别了材料项目数据库中的全部 12,831 种含锂固体。经过结构稳定性、化学稳定性和低电子导电性筛查后,排除了 92% 以上的初始材料。此外,还编译了有关材料地球丰度及其预测成本的信息。经过初始筛查后,剩下 300 多种稳定候选材料。当且仅当锂电导率足够快速时,才有望作为固体电解质材料。为实现这一目标,我们将目光转向机器学习。[1]

首先梳理科学文献,找出 40 种固体结晶材料,再由研究人员确定晶体结构特征,在室温下测量离子电导率。在这 40 种材料中,约 1/3 具备作为有效电池电解质的离子电导率,但这些材料全部存在稳定性问题,难以在固态电池中采用。这 40 种快速和慢速锂导电材料将作为机器学习算法训练集,从而快速预测新材料的锂传导行为。

接着,从 ICSD 中下载这 40 种材料的原子结构。利用这些数据,根据结构中的原子位置、质量、电负性和原子半径计算 20 种特征,描绘每种晶体的原子局部排列和化学特性。所有计算全部在 MATLAB 中完成。我们选择的 20 种特征包括多项原子指标,如每个原子的体积、锂键离子性、锂邻元素数及最小阴离子-阴离子分离距离。或许是因为直觉,或许是过往文献报告,我们认定这 20 种特征可能与离子电导率息息相关。我们发现,对小数据集应用机器学习时,必需采用此类“智能”特征(即基于现有材料物理知识的特征)。

选择机器学习模型

接下来的问题是:如何组合应用这 20 种特征,使其最适合预测训练数据?鉴于训练集相对较小,只有 40 种材料和 20 种特性,加之 MATLAB 的建模简便性和灵活性,我们可以考虑采用 10,000,000 多种可能的特征和模型组合。 

在 Statistics and Machine Learning Toolbox™ 的帮助下,研究人员可以轻松研究数量庞大的模型,包括最小二乘回归、稳健回归、局部加权最小二乘法、SVM、逻辑回归和多类分类。我们针对每种想要测试的机器学习算法训练了一个模型,然后参照训练数据验证算法准确性。 

无论任何一种模型,单凭原子特征训练均不足以预测离子电导率,但多特征模型却可以做到。最终,确定了一个具有五项特征的最佳逻辑回归模型,该模型可分类训练集材料且交叉验证误差最低仅为 10%。这对我们而言意义重大,因为逻辑回归分类器往往适合像我们这样的小型训练集。这种逻辑回归分类器可进行二元预测:这种材料是否具备足以作为固体电解质材料的锂电导率?开展这项预测时,训练模型的准确率达 90%。

然后,我们对剩余的 300 多种候选材料启用这种训练模型(图 1)。

图 1.机器学习模型识别的候选材料。

图 1.机器学习模型识别的候选材料。

在分类器的帮助下,我们剔除了 93.3% 的候选材料,仅留下 21 种潜在候选材料(最初为 12,831 种)。完成模型训练后,只需几秒钟即可完成筛选步骤。总之,我们通过筛查流程淘汰了 99.8% 的候选材料。

结果和后续步骤

为测试预测有效性,我们使用精确但缓慢的量子物理模拟方法模拟这些材料的锂传导行为。[2] 截至目前,在遵循基于机器学习的模型建议的情况下,发现新锂离子传导材料的速度比采用简单反复试验方法快三倍。我们甚至对模型与人类直觉进行了对比测试,为模型和斯坦福大学材料科学专业博士生小组,提供同一份随机抽取的材料列表。模型识别优质锂离子导体的准确性是博士生小组的两倍,而且预测时间不足千分之一。

模型识别的部分候选材料完全出乎意料。这些材料的原子结构非常复杂,我们无法凭科学直觉确定材料是否达到足够的离子电导率。事实证明,这些材料确实导电,与模型预测结果一致,对我们的直觉给予了有力验证。现在,我们可以将所学的知识融入后续版本的 MATLAB 机器学习模型,随着报告的实验数据日益增多,预计这些模型也将随之改进。我们发现了一种令人振奋的材料,并为它申请了专利,而且我们很快就找到了一家感兴趣的合作企业,一起申请专利许可并继续研究材料。

我们仍将在斯坦福大学内,同时与正在研究各种候选材料的外部团体合作,审查部分材料。不久的将来,某一种候选材料或许可以通过固体电解质验证,代替锂离子电池中的液体电解质,彻底终结电池组爆炸事故。

斯坦福大学以及全球近 1000 所其他大学均可在校园范围内使用 MATLAB 和 Simulink。研究人员、老师和学生可通过 Total Academic Headcount (TAH) License 使用最新版本产品的常用功能,随时随地进行使用 — 无论在教室、家中、实验室还是项目现场均可使用。

关于作者

Austin D. Sendek 是斯坦福大学应用物理系博士生,配合材料科学与工程系 Evan Reed 教授开展研究工作。研究方向包括开发和部署基于机器学习和人工智能概念的新计算方法,从而加速蓄能应用材料设计。

2018年发布

参考文献

  1. Sendek, A.D. 等。“超过 12,000 种候选固体锂离子导体材料的整体计算结构筛选。” 《能量与环境科学》(2016)。doi:10.1039/C6EE02697D。
    https://pubs.rsc.org/en/content/articlehtml/2017/ee/c6ee02697d.

  2. Sendek, A.D. 等。“机器学习辅助发现大量新型固体锂离子电解质材料。” arXiv:1808.02470 (2018)。
    https://arxiv.org/abs/1808.02470.

查看文章,了解相关行业