Новый алгоритм глубокого обучения, разработанный австрийскими исследователями, позволяет получить более точные численные решения уравнения Шредингера, чем когда-либо ранее, для ряда различных молекул при относительно скромных вычислительных затратах. Удивительно, но исследователи обнаружили, что в то время как некоторое ‘предварительное обучение’ алгоритма может улучшить его предсказательные способности, более существенное обучение активно вредит ему.
Поскольку уравнение Шрама и Дингера можно решить аналитически только для атома водорода, исследователи, желающие оценить энергию молекул, вынуждены полагаться на численные методы. Более простые приближения, такие как теория функционала плотности и метод Хартри-Фока, который почти так же стар, как и само уравнение Шрама и Дингера, могут обрабатывать гораздо более крупные системы, но часто дают неточные результаты. Более новые методы, такие как метод самосогласованного поля с полным активным пространством (CASSCF), дают результаты, близкие к экспериментам, но требуют гораздо больше вычислений.
Чтобы быстрее находить более точные решения волновых функций молекул, исследователи разработали алгоритмы глубокого обучения, которые делают выборку энергий в нескольких точках и учат себя искать основное состояние молекулы. ‘Часто люди запускают установленную численную схему, а затем используют алгоритм машинного обучения, чтобы попытаться узнать детали, которых не хватает,’ объясняет Филипп Грош из Венского университета.
В настоящее время двумя ведущими алгоритмами машинного обучения в этой области являются FermiNet – разработанный Google’s DeepMind – и PauliNet – созданный исследователями из Берлина. FermiNet имеет более простую, более эффективную структуру и стремится к более точным решениям, в то время как PauliNet вводит больше деталей из установленных схем о том, как примерно должно выглядеть решение, и поэтому работает быстрее.
Грохс и его коллеги из Венского университета разработали алгоритм, использующий простую структуру Ferminet, но включающий элемент PauliNet под названием SchNet, изначально предназначенный для расчета конфигураций атомов в молекулах. ‘Мы попытались лучше смоделировать взаимодействие частиц, используя идеи из SchNet,’ объясняет Леон Жерар. Окончательный алгоритм достиг большей точности и потребовал меньше вычислительных ресурсов, чем FermiNet или PauliNet для различных молекул — от азота и воды до бензола и глицина.
Исследователи проверили влияние шагов ‘предварительного обучения’, в которых они использовали либо Хартри-Фока, либо CASSCF, чтобы научить алгоритм находить ‘подходящую’ начальную точку в поисках основного состояния. Неожиданно они обнаружили, что в то время как скромное количество шагов предварительного обучения улучшило производительность, слишком большое количество шагов предварительного обучения привело к тому, что алгоритм пропустил реальное основное состояние. Более того, это было более выражено, когда они обучали алгоритм с помощью CASSCF, чем когда они использовали Хартри-Фок. Причины этого неясны. ‘CASSCF накладывает гораздо большую структуру на волновую функцию – поэтому там может быть гораздо больше узлов и гораздо более сложная форма, так что если нейронная сеть учится чему-то сложному и неправильному, она может научиться чему-то, от чего ’труднее уйти – но я не думаю, что мы действительно знаем на данный момент,’ объясняет автор Майкл Щербела.
Исаак Тэмблин из вычислительной лаборатории энергетики и нанонауки в Университете Оттавы в Канаде, который не принимал участия в работе, описывает ее как ‘лучше, чем современное состояние’, хотя он не считает контр-интуитивные эффекты введения предварительных знаний особенно удивительными. ‘В литературе по оптимизации есть много примеров, когда вы можете попытаться включить полезную, на ваш взгляд, инициализацию, но в итоге ситуация ухудшается&rsquo ;, — говорит он. Он называет эту работу ‘платиновым стандартом’, но отмечает, что, хотя она может быть более эффективной, чем методы типа FermiNet, для расчета свойств одной молекулы все равно требуется несколько дней на GPU. Поэтому он предполагает, что основное ее применение, скорее всего, будет заключаться в создании высокоточных обучающих данных для приближенных методов, таких как контролируемое машинное обучение.