banner
Дом / Новости / Магнитный контроль плазмы токамака посредством глубокого обучения с подкреплением
Новости

Магнитный контроль плазмы токамака посредством глубокого обучения с подкреплением

Dec 21, 2023Dec 21, 2023

Nature, том 602, страницы 414–419 (2022 г.) Процитировать эту статью

182 тыс. доступов

131 цитат

2389 Альтметрия

Подробности о метриках

Ядерный синтез с использованием магнитного удержания, особенно в конфигурации токамака, является многообещающим путем к устойчивой энергетике. Основной задачей является формирование и поддержание высокотемпературной плазмы внутри сосуда токамака. Это требует высокоразмерного, высокочастотного управления с обратной связью с использованием катушек магнитного привода, что еще больше усложняется разнообразными требованиями к широкому спектру плазменных конфигураций. В этой работе мы представляем ранее неописанную архитектуру магнитного контроллера токамака, который автономно учится управлять полным набором катушек управления. Эта архитектура соответствует целям управления, заданным на высоком уровне, и в то же время удовлетворяет физическим и эксплуатационным ограничениям. Этот подход обладает беспрецедентной гибкостью и общностью в спецификации задач и обеспечивает заметное сокращение усилий по проектированию для создания новых конфигураций плазмы. Мы успешно производим и контролируем широкий набор плазменных конфигураций токамака à Configuration Variable1,2, включая вытянутые традиционные формы, а также расширенные конфигурации, такие как конфигурация с отрицательной треугольностью и конфигурация «снежинка». Наш подход обеспечивает точное отслеживание местоположения, тока и формы этих конфигураций. Мы также демонстрируем устойчивые «капли» на TCV, при которых внутри сосуда одновременно поддерживаются две отдельные плазмы. Это представляет собой заметный прогресс в управлении токамаком с обратной связью, демонстрирующий потенциал обучения с подкреплением для ускорения исследований в области термоядерного синтеза, и является одной из самых сложных реальных систем, к которым применялось обучение с подкреплением.

Токамаки представляют собой устройства в форме тора для исследований в области ядерного синтеза и являются ведущим кандидатом на производство устойчивой электроэнергии. Основным направлением исследований является изучение эффектов формирования распределения плазмы в различных конфигурациях3,4,5 для оптимизации стабильности, удержания и отвода энергии и, в частности, для использования в первом эксперименте по горению плазмы ИТЭР. Ограничение каждой конфигурации внутри токамака требует разработки контроллера с обратной связью, который может манипулировать магнитным полем6 посредством точного управления несколькими катушками, магнитно связанными с плазмой, для достижения желаемого тока, положения и формы плазмы. Эта проблема известна как проблема магнитного управления токамаком. .

Традиционный подход к этой изменяющейся во времени, нелинейной, многомерной задаче управления состоит в том, чтобы сначала решить обратную задачу для предварительного расчета набора токов и напряжений катушек прямой связи7,8. Затем создается набор независимых ПИД-регуляторов с одним входом и одним выходом для стабилизации вертикального положения плазмы и управления радиальным положением и током плазмы, причем все они должны быть спроектированы так, чтобы не создавать взаимного влияния6. Большинство архитектур управления дополнительно дополняются внешним контуром управления формой плазмы, который включает в себя реализацию оценки равновесия плазмы в реальном времени9,10 для модуляции токов катушки прямой связи8. Контроллеры разработаны на основе динамики линеаризованной модели, и для отслеживания изменяющихся во времени целей управления требуется планирование усиления. Хотя эти контроллеры обычно эффективны, они требуют значительных инженерных усилий, усилий по проектированию и опыта при каждом изменении целевой конфигурации плазмы, а также сложных вычислений в реальном времени для оценки равновесия.

Радикально новый подход к проектированию контроллеров стал возможным благодаря использованию обучения с подкреплением (RL) для создания контроллеров с нелинейной обратной связью. Подход RL, уже успешно используемый в нескольких сложных приложениях в других областях11,12,13, позволяет интуитивно устанавливать цели производительности, смещая акцент на то, что должно быть достигнуто, а не на то, как. Кроме того, RL значительно упрощает систему управления. Один недорогой в вычислительном отношении контроллер заменяет вложенную архитектуру управления, а внутренняя реконструкция состояния устраняет необходимость независимой реконструкции равновесия. Эти совокупные преимущества сокращают цикл разработки контроллера и ускоряют исследование альтернативных конфигураций плазмы. Действительно, искусственный интеллект недавно был определен как «приоритетная исследовательская возможность» для управления термоядерным синтезом14, основанная на продемонстрированных успехах в восстановлении параметров формы плазмы15,16, ускорении моделирования с использованием суррогатных моделей17,18 и обнаружении надвигающихся разрушений плазмы19. Однако RL не использовался для разработки магнитного контроллера, что является сложной задачей из-за многомерных измерений и срабатывания, больших временных горизонтов, быстрых темпов роста нестабильности и необходимости определять форму плазмы посредством косвенных измерений.