Multi-agent neurocognitive model of a control system for the coordinated behavior of an autonomous agents’ collective

Cover Page

Cite item

Full Text

Abstract

The main goal of the research is to develop a decentralized system for controlling the coordinated behavior of a team of autonomous agents based on a multi-agent neurocognitive architecture. The task of developing a decentralized control system is solved based on the self-organization of multi-agent neurocognitive architectures of autonomous agents as part of a single cognitive architecture and the formation of a common mission graph. The vertices of the graph will be complex states that represent the union of the states of all agents in the group, and the arcs will be the sets of actions of the group members leading from one complex state to another. The presented model will allow to create decentralized, flexible and scalable control systems for a group of intelligent agents to solve complex problems and can be used in robotics.

Full Text

Введение

Основными подходами к проектированию систем управления согласованным поведением коллектива автономных агентов являются централизованное и децентрализованное адаптивное управление. Централизованные решения опираются на полный доступ ко всей соответствующей информации об агентах и свойствах данной среды, чтобы можно было получить глобальное решение. В отличие от них децентрализованные решения разделяют проблему на локальные части и разрешают конфликты локально [1, 2]. Если существуют оптимальные решения без каких-либо временных ограничений, централизованные подходы могут их найти. И поскольку решения исходят только от одного или, может быть, нескольких контроллеров, их можно легко отслеживать. Все системы согласованы, связь регулярна, а данные хранятся и доступны в одном месте. Однако при небольшом количестве контроллеров (возможно, одном) в случае возникновения проблемы вся система выйдет из строя, и решения не могут быть приняты. Кроме того, полная информация не всегда может быть доступна из-за ограничений связи, датчиков или конфиденциальности, и производительность централизованных решений может пострадать в средах с высокой плотностью и сложных средах [3, 4].

Децентрализованные системы управления, с другой стороны, состоят из распределенных индивидуальных контроллеров, которые развертываются в каждой подсистеме и передают управление назначенным подсистемам, и могут справиться с проблемами неопределенности и масштабируемости при поиске решения. Однако они могут упустить из виду потенциальное оптимальное решение задачи и в конечном итоге получить неоптимальное. В то время как централизованная версия системы требует меньше времени для исправления ошибок в исполнительных механизмах для обновления направления и скорости, децентрализованная система имеет преимущества отказоустойчивости в случае отказа одного роботизированного агента и меньшего размера пакета при передаче между агентами, что желательно, учитывая ограничения пропускной способности канала связи. Однако необходимость распределения данных и обработки между несколькими агентами может привести к задержкам и проблемам с производительностью, особенно по мере роста сети. Поэтому обеспечение эффективной связи и координации между агентами имеет решающее значение для поддержания производительности и масштабируемости системы. Координация включает в себя «корректировку действий партнеров для достижения совместно определенных целей» [5] посредством «взаимно согласованных решений» и согласования ожиданий [6]. В централизованных системах управления координация осуществляется центральным контроллером. В децентрализованной координации в отсутствии иерархии агенты создают взаимную корректировку за счет децентрализованной координации целей всех участников коллектива автономных агентов в общую.

В настоящее время децентрализованные системы управления широко внедряются во все области применения автономных робототехнических систем. В работе [7] представлен обзор существующих систем контроля и управления автономными мобильными роботами для интралогистики. Авторами приводятся условия, при которых децентрализованное управление является более выгодным по сравнению с централизованным или приводит к более высокой производительности.

Существует также множество децентрализованных мультиагентных систем принятия решений и управления на основе различных подходов. В частности, можно выделить подходы на основе аукционов [8], теории игр [9], оптимизации или гибридного подхода [10]. Одним из решающих факторов эффективности этих алгоритмов является доверие заинтересованных агентов в отношении их использования и решение конфликтов, что требует надежности и вычислительной мощности.

В работе [11] представлен децентрализованный подход роевого интеллекта для динамического распределения задач, который показывает отличные результаты по сравнению с современными алгоритмами, основанными на аукционах и роевом интеллекте.

В [12] представлена децентрализованная многоагентная система поиска пути и стратегии на основе автоматизированных переговоров. Авторами разработана структура переговоров для решения задачи многоагентного поиска пути, направленная на достижение хорошего компромисса между конфиденциальностью агентов и эффективностью решений. Предложенный подход может находить бесконфликтные решения путей, однако при большом пространстве поиска и высокой плотности агентов этот подход не оптимален.

В настоящей работе задача разработки децентрализованной системы управления согласованным поведением автономных агентов решается на основе самоорганизации мультиагентных нейрокогнитивных архитектур автономных агентов в составе единой когнитивной архитектуры и формирования общего графа миссии.

Цель работы – разработать децентрализованную систему управления согласованным поведением коллектива автономных агентов на основе мультиагентной нейрокогнитивной архитектуры.

Задача исследования – разработать мультиагентную нейрокогнитивную модель системы управления согласованным поведением коллектива автономных агентов.

Мультиагентная нейрокогнитивная модель системы управления автономным агентом

Интеллектуальный агент (ИА) на основе мультиагентной нейрокогнитивной архитектуры представляет собой биоинспирированную систему искусственной жизни и рационализирован как автономная сущность, наблюдающая за окружающей средой через датчики (сенсоры) и взаимодействующая с ней с помощью эффекторов. Анализ входных потоков данных и процесс интеллектуального рассуждения при принятии решений агентом строятся на основе работы управляющей нейрокогнитивной архитектуры, которая состоит из связанных между собой когнитивных блоков (на рисунке представлены в прямоугольниках) и базы знаний агента (рис. 1). В когнитивных блоках образуются функциональные узлы, которые состоят из программных агентов-нейронов (агнейронов) разной степени сложности и типов, которые выполняют последовательность обязательных операций: распознавания входных образов, эмоциональной оценки, целеполагания, синтеза плана действий, проактивного моделирования, управления выполнением плана. Каждая из этих операций выполняется на основе мультиагентного алгоритма, основанного на обмене сообщениями между агнейронами различных типов. Так, обработка и интерпретация собранных данных происходят в функциональном узле распознавания агнейронами – объекты, действия, события. Результатом работы этого узла является внутренняя модель окружающей среды, информация о которой содержится в базе знаний агнейрона моделирования. Агнейронами оценки проводится оценка текущего состояния, в соответствии с которой генерируются результаты, которые агент пытается достичь, и механизмы, определяющие приоритетность целей и реакцию на изменения в окружающей среде. Далее в функциональном узле планирования происходит определение последовательности действий для достижения целей. В узле принятия решений происходит выбор наилучшего действия на основе текущих данных и целей. В узле действия происходят оценка эффективности выбранных действий и достижение целей. Далее агнейронами управления выбранные действия передаются на эффекторы ИА для выполнения действий в окружающей среде. Это могут быть физические действия (например, движение робота) или виртуальные (например, отправка сообщений). Полученные результаты передаются на агнейроны моделирования для корректировки внутренней модели и принятия будущих решений. Анализ входных потоков данных, синтез плана поведения, отправка сообщений другим агнейронам выполняются системой управления, основанной на применении знаний, содержащихся в базе знаний агнейрона. Знания представляют собой продукционные правила, в условных частях которых содержатся наборы логических условий, в соответствии с которыми анализируются входные сообщения, а консеквентные части – наборы инструкций по отправке выходных сообщений другим агнейронам.

 

Рис. 1. Архитектура интеллектуального агента

Fig. 1. Architecture of an intelligent agent

 

Целевой функцией такого агента является поиск пути из начальной вершины графа проблемной ситуации, описывающей текущее состояние системы «интеллектуальный агент – среда», в конечную, описывающую некоторое состояние этой системы в будущем, характеризующееся более высоким значением комплексной целевой функции. В качестве такой функции выбирается некоторая суперпозиция оценок состояния параметра энергии Eτbijτ, которая характеризует потенциал активности агента i  в среде и рассчитывается по формуле [13]:

Eτbijτ=EτbijτbΔEijΔτbcΔEijhdijΔedij+rijΔerij+ΔEijhτ, (1)

где Eτbijτb – начальное значение энергии агента, ΔEij – энергия, затрачиваемая агентом для того, чтобы прожить один такт времени τbc, ΔEijh – энергия, затрачиваемая агентом за переход в некоторое h-е состояние в дереве решений, Δedij – энергия, которую затрачивает агент для того, чтобы расплатиться с контрагентами (агентами dij), Δerij – энергия, которой другие агенты rij расплачиваются с данным, ΔEijhτ – энергия, которую агент получает в качестве вознаграждения за переход в некоторое целевое состояние. Таким образом, синтез целенаправленного поведения агента сводится к решению задачи поиска пути в дереве решений, субоптимального по целевому критерию энергии. Такое дерево агент строит в каждом из своих состояний. Вершинами графа выступают состояния, в которых может находиться агент (например, различные ситуации, задачи или цели). Ребра – это действия, которые агент может совершить для перехода от одного состояния к другому. Высота и количество вершин графа зависят от мощности базы знаний агента.

База знаний содержит описания состояний, в которых находится агент, причин их возникновения и следствий, к которым они могут привести. Таким образом, знания представляют собой продукционные правила, в условных частях которых содержатся наборы логических условий, в соответствии с которыми анализируются входные сообщения, а в части действия – наборы инструкций по отправке выходных сообщений другим агентам. Если при такой отправке ИА получает вознаграждение в виде дополнительной энергии (слагаемое Δerij в формуле (1)), то запускается процесс заключения контрактных отношений на основе алгоритма онтонейроморфогенеза [14], согласно которому происходит ситуативно детерминированное формирование функциональных связей на основе мультиагентного обмена энергией и знаниями между заинтересованными агентами.

Таким образом, кооперативные отношения ИА в составе коллектива строятся на основе моделей взаимовыгодных контрактных отношений, основное содержание которых составляет протокол обмена знаниями и энергией [15]. В такой системе знания, содержащиеся в базе знаний одного из агентов и необходимые другому агенту для построения дерева решения, оценки оптимальных путей в нем и выбора субоптимального пути, становятся товаром, за который последний агент готов «заплатить» часть (слагаемое Δedij в формуле (1)) имеющейся у него энергии. Принимая такое решение, агент исходит из ожидаемой полезности, рассчитанной до горизонта планирования, исходя из возможностей снятия неопределенностей за счет приобретаемого знания. Таким образом, интеллектуальные агенты в составе коллектива рассматривают друг друга как партнеров, конкурирующих между собой за право принимать участие в коллективном решении задач и получать за это вознаграждение ΔEijhτ. Алгоритм работы системы управления ИА представлен на рисунке 2.

 

Рис. 2. Алгоритм работы системы управления ИА

Fig. 2. Algorithm of the IA control system operation

 

Каждый агент в рамках выполнения своей задачи получает данные с сенсоров. Полученные данные проходят процедуру предварительной обработки и распознавания. В результате система управления агента формирует описание распознанного события и возможные пути в дереве решений. Если для решения поставленной задачи недостаточно данных, агент запрашивает необходимые данные у других агентов системы. В результате итеративной процедуры обмена запросами и ответами между интеллектуальными агентами достраивается или модифицируется граф проблемной ситуации каждого агента, входящего в состав коллектива. Это позволяет получить в составе коллектива мультиагентную самоорганизацию, которая описывает динамические процессы отражения состояний системы «автономный агент – среда» и синтеза поведения автономного агента, направленного на движение по графу проблемной ситуации, определенному в пространстве состояний, размеченному значениями целевой функции. Основной метод, который используется для синтеза коллективного поведения, состоит в создании условий для роста и развития управляющей мультиагентной нейрокогнитивной архитектуры интеллектуального агента на основе данных, получаемых им в процессе взаимодействия с пользователем, автономными или роботизированными агентами, и принципа суперпозиции сформированных графов проблемных ситуаций всех участников коллектива в общий граф. Вершинами этого графа будут сложные состояния, представляющие собой объединения состояний всех агентов в составе коллектива, а дугами – совокупности действий участников коллектива, ведущие из одних сложных состояний в другие.

Заключение

Для решения задачи разработки децентрализованных систем управления согласованным поведением был использован принцип суперпозиции графов проблемных ситуаций всех участников коллектива автономных агентов, которые формировались из целей и условий миссии, в общий граф. Формирование общего графа миссии выполняется путем мультиагентного взаимодействия нейрокогнитивных архитектур автономных агентов, направленного на заключение взаимовыгодных контрактных отношений, основное содержание которых составляет протокол обмена знаниями и энергией. В результате итеративной процедуры обмена запросами и ответами между интеллектуальными агентами достраивается или модифицируется граф проблемной ситуации каждого агента, входящего в состав мультиагентного коллектива, в соответствии с чем происходит перестройка общего графа.

Представленная модель позволит создавать децентрализованные, гибкие и масштабируемые системы управления коллективом агентов для решения сложных задач и может применятся в робототехнике.

×

About the authors

Inna A. Pshenokova

Institute of Computer Science and Problems of Regional Management – branch of Kabardino-Balkarian Scientific Center of the Russian Academy of Sciences

Author for correspondence.
Email: pshenokova_inna@mail.ru
ORCID iD: 0000-0003-3394-7682
SPIN-code: 3535-2963

Candidate of Physical and Mathematical Sciences, Head of the Laboratory “Intelligent Living Environments”

Russian Federation, 360000, Nalchik, 37-a I. Armand street

Sultan A. Kankulov

Kabardino-Balkarian Scientific Center of the Russian Academy of Sciences

Email: skankulov@mail.ru
ORCID iD: 0000-0002-2996-7376
SPIN-code: 4342-5381

Junior Researcher, Department of “Neurocognitive Autonomous Intelligent Systems”

Russian Federation, 360010, Nalchik, 2 Balkarov street

Boris A. Atalikov

Kabardino-Balkarian Scientific Center of the Russian Academy of Sciences

Email: atalikov10@gmail.com

Junior Researcher, Laboratory of “Neurocognitive Autonomous Intelligent Systems”

Russian Federation, 360010, Nalchik, 2 Balkarov street

Ahmed Z. Enes

Kabardino-Balkarian Scientific Center of the Russian Academy of Sciences

Email: ahmedenes@mail.ru
ORCID iD: 0000-0003-3633-4910
SPIN-code: 3643-1808

Junior Researcher, Laboratory of “Neurocognitive Autonomous Intelligent Systems”

Russian Federation, 360010, Nalchik, 2 Balkarov street

References

  1. Li Q., Gama F., Ribeiro A., Prorok A. Graph neural networks for decentralized multi-robot path planning. IEEE/RSJ international conference on intelligent robots and systems (IROS). 2020. Pp. 11785–11792. doi: 10.1109/iros45743.2020.9341668
  2. Desaraju V., How J. Decentralized path planning for multi-agent teams with complex constraints. Autonomous Robots, 2012. No. 32(4). Pp. 385–403. doi: 10.1007/s10514-012-9275-2
  3. Patwardhan A., Murai R., Davison A.J. Distributing collaborative multi-robot planning with gaussian belief propagation. IEEE Robotics and Automation Letters, 2023. No. 8(2). Pp. 552–559. doi: 10.1109/LRA.2022.3227858
  4. Sharon G., Stern, R., Felner A., Sturtevant N.R. Conflict-based search for optimal multi-agent pathfinding. Artificial Intelligence, 2012. 219. Pp. 40–66. doi: 10.1016/j.artint.2014.11.006
  5. Gulati R., Wohlgezogen F., Zhelyazkov P. The two facets of collaboration: Cooperation and coordination in strategic alliances. Academy of Management Annals. 2012. No. 6(1). Pp. 531–583.
  6. Lumineau F., Wang W., Schilke O. Blockchain governance – A new way of organizing collaborations? Organization Science. 2021. No. 32(2). Pp. 500–521. doi: 10.1287/orsc.2020.1379
  7. Fragapane G., de Koster R., Sgarbossa F., Strandhagen J. Planning and control of autonomous mobile robots for intralogistics: Literature review and research agenda. European Journal of Operational Research. 2021. Vol. 294 (2). Pp. 405–426. doi: 10.1016/j.ejor.2021.01.019
  8. Turner J., Meng G., Schaefer G. et al. Distributed task rescheduling with time constraints for the optimization of total task allocations in a multirobot system. IEEE transactions on cybernetics. 2017. 48(9). Pp. 2583–2597. doi: 10.1109/TCYB.2017.2743164
  9. Mkiramweni M.E. et al. A survey of game theory in unmanned aerial vehicles communications. IEEE Communications Surveys & Tutorials. 2019. 21(4). Pp. 3386–3416.
  10. Zhu X., Vanegas F., Gonzalez F. Decentralised multi-UAV cooperative searching multi-target in cluttered and GPS-denied environments. 2022 IEEE Aerospace Conference (AERO). IEEE, 2022. Pp. 1–10.
  11. Tkach I., Blackwell T. On the Optimization of systems using AI metaheuristics and evolutionary algorithms. International Conference on Production Research. Cham: Springer International Publishing, 2021. Pp. 253–271.
  12. Keskin M.O., Cantürk F., Eran C. et al. Decentralized multi-agent path finding framework and strategies based on automated negotiation. Auton Agent Multi-Agent Syst. 2024. Vol. 38. No. 10. doi: 10.1007/s10458-024-09639-8
  13. Пшенокова И. А., Апшев А. З. Модель энергообмена между агнейронами в составе мультиагентной нейрокогнитивной архитектуры // Известия Кабардино-Балкарского научного центра РАН. 2023. № 5(115). С. 32–40. doi: 10.35330/1991-6639-2023-5-115-32-40 Pshenokova I.A., Apshev A.Z. Energy exchange model among agneurons as part of multi-agent neurocognitive architecture. News of the Kabardino-Balkarian Scientific Center of RAS. 2023. No. 5(115). Pp. 32–40. doi: 10.35330/1991-6639-2023-5-115-32-40. (In Russian)
  14. Nagoev Z., Pshenokova I., Nagoeva O., Kankulov S. Situational analysis model in an intelligent system based on multi-agent neurocognitive architectures. Journal of Physics: Conference Series. 2021. Vol. 2131. Article No. 022103. doi: 10.1088/1742-6596/ 2131/2/022103
  15. Pshenokova I., Bzhikhatlov K., Kankulov S. et al. Simulation model of the neurocognitive system controlling an intellectual agent displaying exploratory behavior in the real world. In: Alexei V. Samsonovich. Tingting Liu Proceedings of the 14th Annual Meeting of the BICA Society. BICA 2023. Studies in Computational Intelligence (SCI). Vol. 1130. doi: 10.1007/978-3-031-50381-8_76

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. Architecture of an intelligent agent

Download (167KB)
3. Fig. 2. Algorithm of the IA control system operation

Download (172KB)

Copyright (c) 2024 Пшенокова И.A., Канкулов С.A., Аталиков Б.A., Энес А.Z.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».