Multi-agent neurocognitive model of a control system for the coordinated behavior of an autonomous agents’ collective

Inna A. Pshenokova; Пшенокова Инна Ауесовна; Sultan A. Kankulov; Канкулов Султан Ахмедович; Boris A. Atalikov; Аталиков Борис Анзорович; Ahmed Z. Enes; Энес Ахмед Зюлфикар

doi:10.35330/1991-6639-2024-26-5-138-146

Мультиагентная нейрокогнитивная модель системы управления согласованным поведением коллектива автономных агентов

Авторы: Пшенокова И.А.¹, Канкулов С.А.², Аталиков Б.А.², Энес А.З.²
Учреждения:
1. Институт информатики и проблем регионального управления – филиал Кабардино-Балкарского научного центра Российской академии наук
2. Кабардино-Балкарский научный центр Российской академии наук
Выпуск: Том 26, № 5 (2024)
Страницы: 138-146
Раздел: Системный анализ, управление и обработка информации
Статья получена: 24.12.2024
Статья одобрена: 24.12.2024
Статья опубликована: 17.11.2024
URL: https://ogarev-online.ru/1991-6639/article/view/274277
DOI: https://doi.org/10.35330/1991-6639-2024-26-5-138-146
EDN: https://elibrary.ru/NPWOQP
ID: 274277

Цитировать

Полный текст

Аннотация
Полный текст
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Основная цель исследования состоит в разработке децентрализованной системы управления согласованным поведением коллектива автономных агентов на основе мультиагентной нейрокогнитивной архитектуры. Задача разработки децентрализованной системы управления решается на основе самоорганизации мультиагентных нейрокогнитивных архитектур автономных агентов в составе единой когнитивной архитектуры и формирования общего графа миссии. Вершинами графа будут сложные состояния, представляющие собой объединения состояний всех агентов в составе коллектива, а дугами – совокупности действий участников коллектива, ведущие из одних сложных состояний в другие. Представленная модель позволит создавать децентрализованные, гибкие и масштабируемые системы управления коллективом интеллектуальных агентов для решения сложных задач и может применяться в робототехнике.

Ключевые слова

система управления, мультиагентные системы, децентрализованные системы, интеллектуальный агент

Полный текст

Введение

Основными подходами к проектированию систем управления согласованным поведением коллектива автономных агентов являются централизованное и децентрализованное адаптивное управление. Централизованные решения опираются на полный доступ ко всей соответствующей информации об агентах и свойствах данной среды, чтобы можно было получить глобальное решение. В отличие от них децентрализованные решения разделяют проблему на локальные части и разрешают конфликты локально [1, 2]. Если существуют оптимальные решения без каких-либо временных ограничений, централизованные подходы могут их найти. И поскольку решения исходят только от одного или, может быть, нескольких контроллеров, их можно легко отслеживать. Все системы согласованы, связь регулярна, а данные хранятся и доступны в одном месте. Однако при небольшом количестве контроллеров (возможно, одном) в случае возникновения проблемы вся система выйдет из строя, и решения не могут быть приняты. Кроме того, полная информация не всегда может быть доступна из-за ограничений связи, датчиков или конфиденциальности, и производительность централизованных решений может пострадать в средах с высокой плотностью и сложных средах [3, 4].

Децентрализованные системы управления, с другой стороны, состоят из распределенных индивидуальных контроллеров, которые развертываются в каждой подсистеме и передают управление назначенным подсистемам, и могут справиться с проблемами неопределенности и масштабируемости при поиске решения. Однако они могут упустить из виду потенциальное оптимальное решение задачи и в конечном итоге получить неоптимальное. В то время как централизованная версия системы требует меньше времени для исправления ошибок в исполнительных механизмах для обновления направления и скорости, децентрализованная система имеет преимущества отказоустойчивости в случае отказа одного роботизированного агента и меньшего размера пакета при передаче между агентами, что желательно, учитывая ограничения пропускной способности канала связи. Однако необходимость распределения данных и обработки между несколькими агентами может привести к задержкам и проблемам с производительностью, особенно по мере роста сети. Поэтому обеспечение эффективной связи и координации между агентами имеет решающее значение для поддержания производительности и масштабируемости системы. Координация включает в себя «корректировку действий партнеров для достижения совместно определенных целей» [5] посредством «взаимно согласованных решений» и согласования ожиданий [6]. В централизованных системах управления координация осуществляется центральным контроллером. В децентрализованной координации в отсутствии иерархии агенты создают взаимную корректировку за счет децентрализованной координации целей всех участников коллектива автономных агентов в общую.

В настоящее время децентрализованные системы управления широко внедряются во все области применения автономных робототехнических систем. В работе [7] представлен обзор существующих систем контроля и управления автономными мобильными роботами для интралогистики. Авторами приводятся условия, при которых децентрализованное управление является более выгодным по сравнению с централизованным или приводит к более высокой производительности.

Существует также множество децентрализованных мультиагентных систем принятия решений и управления на основе различных подходов. В частности, можно выделить подходы на основе аукционов [8], теории игр [9], оптимизации или гибридного подхода [10]. Одним из решающих факторов эффективности этих алгоритмов является доверие заинтересованных агентов в отношении их использования и решение конфликтов, что требует надежности и вычислительной мощности.

В работе [11] представлен децентрализованный подход роевого интеллекта для динамического распределения задач, который показывает отличные результаты по сравнению с современными алгоритмами, основанными на аукционах и роевом интеллекте.

В [12] представлена децентрализованная многоагентная система поиска пути и стратегии на основе автоматизированных переговоров. Авторами разработана структура переговоров для решения задачи многоагентного поиска пути, направленная на достижение хорошего компромисса между конфиденциальностью агентов и эффективностью решений. Предложенный подход может находить бесконфликтные решения путей, однако при большом пространстве поиска и высокой плотности агентов этот подход не оптимален.

В настоящей работе задача разработки децентрализованной системы управления согласованным поведением автономных агентов решается на основе самоорганизации мультиагентных нейрокогнитивных архитектур автономных агентов в составе единой когнитивной архитектуры и формирования общего графа миссии.

Цель работы – разработать децентрализованную систему управления согласованным поведением коллектива автономных агентов на основе мультиагентной нейрокогнитивной архитектуры.

Задача исследования – разработать мультиагентную нейрокогнитивную модель системы управления согласованным поведением коллектива автономных агентов.

Мультиагентная нейрокогнитивная модель системы управления автономным агентом

Интеллектуальный агент (ИА) на основе мультиагентной нейрокогнитивной архитектуры представляет собой биоинспирированную систему искусственной жизни и рационализирован как автономная сущность, наблюдающая за окружающей средой через датчики (сенсоры) и взаимодействующая с ней с помощью эффекторов. Анализ входных потоков данных и процесс интеллектуального рассуждения при принятии решений агентом строятся на основе работы управляющей нейрокогнитивной архитектуры, которая состоит из связанных между собой когнитивных блоков (на рисунке представлены в прямоугольниках) и базы знаний агента (рис. 1). В когнитивных блоках образуются функциональные узлы, которые состоят из программных агентов-нейронов (агнейронов) разной степени сложности и типов, которые выполняют последовательность обязательных операций: распознавания входных образов, эмоциональной оценки, целеполагания, синтеза плана действий, проактивного моделирования, управления выполнением плана. Каждая из этих операций выполняется на основе мультиагентного алгоритма, основанного на обмене сообщениями между агнейронами различных типов. Так, обработка и интерпретация собранных данных происходят в функциональном узле распознавания агнейронами – объекты, действия, события. Результатом работы этого узла является внутренняя модель окружающей среды, информация о которой содержится в базе знаний агнейрона моделирования. Агнейронами оценки проводится оценка текущего состояния, в соответствии с которой генерируются результаты, которые агент пытается достичь, и механизмы, определяющие приоритетность целей и реакцию на изменения в окружающей среде. Далее в функциональном узле планирования происходит определение последовательности действий для достижения целей. В узле принятия решений происходит выбор наилучшего действия на основе текущих данных и целей. В узле действия происходят оценка эффективности выбранных действий и достижение целей. Далее агнейронами управления выбранные действия передаются на эффекторы ИА для выполнения действий в окружающей среде. Это могут быть физические действия (например, движение робота) или виртуальные (например, отправка сообщений). Полученные результаты передаются на агнейроны моделирования для корректировки внутренней модели и принятия будущих решений. Анализ входных потоков данных, синтез плана поведения, отправка сообщений другим агнейронам выполняются системой управления, основанной на применении знаний, содержащихся в базе знаний агнейрона. Знания представляют собой продукционные правила, в условных частях которых содержатся наборы логических условий, в соответствии с которыми анализируются входные сообщения, а консеквентные части – наборы инструкций по отправке выходных сообщений другим агнейронам.

Рис. 1. Архитектура интеллектуального агента

Fig. 1. Architecture of an intelligent agent

Целевой функцией такого агента является поиск пути из начальной вершины графа проблемной ситуации, описывающей текущее состояние системы «интеллектуальный агент – среда», в конечную, описывающую некоторое состояние этой системы в будущем, характеризующееся более высоким значением комплексной целевой функции. В качестве такой функции выбирается некоторая суперпозиция оценок состояния параметра энергии $E_{ℵ τ_{b}}^{i j τ}$ , которая характеризует потенциал активности агента $ℵ_{i}$ в среде и рассчитывается по формуле [13]:

$E_{ℵ τ_{b}}^{i j τ} = E_{ℵ τ_{b}}^{i j τ_{b}} - Δ E_{ℵ}^{i j} \cdot Δ τ_{b}^{c} - Δ E_{ℵ}^{i j h} - \sum_{\forall ℵ_{d}^{i j}} Δ e_{ℵ_{d}}^{i j} + \sum_{\forall ℵ_{r}^{i j}} Δ e_{ℵ_{r}}^{i j} + Δ E_{ℵ}^{i j h τ}$ , (1)

где $E_{ℵ τ_{b}}^{i j τ_{b}}$ – начальное значение энергии агента, $Δ E_{ℵ}^{i j}$ – энергия, затрачиваемая агентом для того, чтобы прожить один такт времени $τ_{b}^{c}$ , $Δ E_{ℵ}^{i j h}$ – энергия, затрачиваемая агентом за переход в некоторое h-е состояние в дереве решений, $Δ e_{ℵ_{d}}^{i j}$ – энергия, которую затрачивает агент для того, чтобы расплатиться с контрагентами (агентами $ℵ_{d}^{i j}$ ), $Δ e_{ℵ_{r}}^{i j}$ – энергия, которой другие агенты $ℵ_{r}^{i j}$ расплачиваются с данным, $Δ E_{ℵ}^{i j h τ}$ – энергия, которую агент получает в качестве вознаграждения за переход в некоторое целевое состояние. Таким образом, синтез целенаправленного поведения агента сводится к решению задачи поиска пути в дереве решений, субоптимального по целевому критерию энергии. Такое дерево агент строит в каждом из своих состояний. Вершинами графа выступают состояния, в которых может находиться агент (например, различные ситуации, задачи или цели). Ребра – это действия, которые агент может совершить для перехода от одного состояния к другому. Высота и количество вершин графа зависят от мощности базы знаний агента.

База знаний содержит описания состояний, в которых находится агент, причин их возникновения и следствий, к которым они могут привести. Таким образом, знания представляют собой продукционные правила, в условных частях которых содержатся наборы логических условий, в соответствии с которыми анализируются входные сообщения, а в части действия – наборы инструкций по отправке выходных сообщений другим агентам. Если при такой отправке ИА получает вознаграждение в виде дополнительной энергии (слагаемое $Δ e_{ℵ_{r}}^{i j}$ в формуле (1)), то запускается процесс заключения контрактных отношений на основе алгоритма онтонейроморфогенеза [14], согласно которому происходит ситуативно детерминированное формирование функциональных связей на основе мультиагентного обмена энергией и знаниями между заинтересованными агентами.

Таким образом, кооперативные отношения ИА в составе коллектива строятся на основе моделей взаимовыгодных контрактных отношений, основное содержание которых составляет протокол обмена знаниями и энергией [15]. В такой системе знания, содержащиеся в базе знаний одного из агентов и необходимые другому агенту для построения дерева решения, оценки оптимальных путей в нем и выбора субоптимального пути, становятся товаром, за который последний агент готов «заплатить» часть (слагаемое $Δ e_{ℵ_{d}}^{i j}$ в формуле (1)) имеющейся у него энергии. Принимая такое решение, агент исходит из ожидаемой полезности, рассчитанной до горизонта планирования, исходя из возможностей снятия неопределенностей за счет приобретаемого знания. Таким образом, интеллектуальные агенты в составе коллектива рассматривают друг друга как партнеров, конкурирующих между собой за право принимать участие в коллективном решении задач и получать за это вознаграждение $Δ E_{ℵ}^{i j h τ}$ . Алгоритм работы системы управления ИА представлен на рисунке 2.

Рис. 2. Алгоритм работы системы управления ИА

Fig. 2. Algorithm of the IA control system operation

Каждый агент в рамках выполнения своей задачи получает данные с сенсоров. Полученные данные проходят процедуру предварительной обработки и распознавания. В результате система управления агента формирует описание распознанного события и возможные пути в дереве решений. Если для решения поставленной задачи недостаточно данных, агент запрашивает необходимые данные у других агентов системы. В результате итеративной процедуры обмена запросами и ответами между интеллектуальными агентами достраивается или модифицируется граф проблемной ситуации каждого агента, входящего в состав коллектива. Это позволяет получить в составе коллектива мультиагентную самоорганизацию, которая описывает динамические процессы отражения состояний системы «автономный агент – среда» и синтеза поведения автономного агента, направленного на движение по графу проблемной ситуации, определенному в пространстве состояний, размеченному значениями целевой функции. Основной метод, который используется для синтеза коллективного поведения, состоит в создании условий для роста и развития управляющей мультиагентной нейрокогнитивной архитектуры интеллектуального агента на основе данных, получаемых им в процессе взаимодействия с пользователем, автономными или роботизированными агентами, и принципа суперпозиции сформированных графов проблемных ситуаций всех участников коллектива в общий граф. Вершинами этого графа будут сложные состояния, представляющие собой объединения состояний всех агентов в составе коллектива, а дугами – совокупности действий участников коллектива, ведущие из одних сложных состояний в другие.

Заключение

Для решения задачи разработки децентрализованных систем управления согласованным поведением был использован принцип суперпозиции графов проблемных ситуаций всех участников коллектива автономных агентов, которые формировались из целей и условий миссии, в общий граф. Формирование общего графа миссии выполняется путем мультиагентного взаимодействия нейрокогнитивных архитектур автономных агентов, направленного на заключение взаимовыгодных контрактных отношений, основное содержание которых составляет протокол обмена знаниями и энергией. В результате итеративной процедуры обмена запросами и ответами между интеллектуальными агентами достраивается или модифицируется граф проблемной ситуации каждого агента, входящего в состав мультиагентного коллектива, в соответствии с чем происходит перестройка общего графа.

Представленная модель позволит создавать децентрализованные, гибкие и масштабируемые системы управления коллективом агентов для решения сложных задач и может применятся в робототехнике.

Об авторах

Инна Ауесовна Пшенокова

Институт информатики и проблем регионального управления – филиал Кабардино-Балкарского научного центра Российской академии наук

Автор, ответственный за переписку.
Email: pshenokova_inna@mail.ru
ORCID iD: 0000-0003-3394-7682
SPIN-код: 3535-2963

канд. физ.-мат. наук, зав. лаб. «Интеллектуальные среды обитания»

Россия, 360000, г. Нальчик, ул. И. Арманд, 37-а

Султан Ахмедович Канкулов

Кабардино-Балкарский научный центр Российской академии наук

Email: skankulov@mail.ru
ORCID iD: 0000-0002-2996-7376
SPIN-код: 4342-5381

мл. науч. сотр. лаборатории «Нейрокогнитивные автономные интеллектуальные системы»

Россия, 360010, г. Нальчик, ул. Балкарова, 2

Борис Анзорович Аталиков

Кабардино-Балкарский научный центр Российской академии наук

Email: atalikov10@gmail.com

мл. науч. сотр. лаборатории «Нейрокогнитивные автономные интеллектуальные системы»

Россия, 360010, г. Нальчик, ул. Балкарова, 2

Ахмед Зюлфикар Энес

Кабардино-Балкарский научный центр Российской академии наук

Email: ahmedenes@mail.ru
ORCID iD: 0000-0003-3633-4910
SPIN-код: 3643-1808

мл. науч. сотр. лаборатории «Нейрокогнитивные автономные интеллектуальные системы»

Россия, 360010, г. Нальчик, ул. Балкарова, 2

Список литературы

Li Q., Gama F., Ribeiro A., Prorok A. Graph neural networks for decentralized multi-robot path planning. IEEE/RSJ international conference on intelligent robots and systems (IROS). 2020. Pp. 11785–11792. doi: 10.1109/iros45743.2020.9341668
Desaraju V., How J. Decentralized path planning for multi-agent teams with complex constraints. Autonomous Robots, 2012. No. 32(4). Pp. 385–403. doi: 10.1007/s10514-012-9275-2
Patwardhan A., Murai R., Davison A.J. Distributing collaborative multi-robot planning with gaussian belief propagation. IEEE Robotics and Automation Letters, 2023. No. 8(2). Pp. 552–559. doi: 10.1109/LRA.2022.3227858
Sharon G., Stern, R., Felner A., Sturtevant N.R. Conflict-based search for optimal multi-agent pathfinding. Artificial Intelligence, 2012. 219. Pp. 40–66. doi: 10.1016/j.artint.2014.11.006
Gulati R., Wohlgezogen F., Zhelyazkov P. The two facets of collaboration: Cooperation and coordination in strategic alliances. Academy of Management Annals. 2012. No. 6(1). Pp. 531–583.
Lumineau F., Wang W., Schilke O. Blockchain governance – A new way of organizing collaborations? Organization Science. 2021. No. 32(2). Pp. 500–521. doi: 10.1287/orsc.2020.1379
Fragapane G., de Koster R., Sgarbossa F., Strandhagen J. Planning and control of autonomous mobile robots for intralogistics: Literature review and research agenda. European Journal of Operational Research. 2021. Vol. 294 (2). Pp. 405–426. doi: 10.1016/j.ejor.2021.01.019
Turner J., Meng G., Schaefer G. et al. Distributed task rescheduling with time constraints for the optimization of total task allocations in a multirobot system. IEEE transactions on cybernetics. 2017. 48(9). Pp. 2583–2597. doi: 10.1109/TCYB.2017.2743164
Mkiramweni M.E. et al. A survey of game theory in unmanned aerial vehicles communications. IEEE Communications Surveys & Tutorials. 2019. 21(4). Pp. 3386–3416.
Zhu X., Vanegas F., Gonzalez F. Decentralised multi-UAV cooperative searching multi-target in cluttered and GPS-denied environments. 2022 IEEE Aerospace Conference (AERO). IEEE, 2022. Pp. 1–10.
Tkach I., Blackwell T. On the Optimization of systems using AI metaheuristics and evolutionary algorithms. International Conference on Production Research. Cham: Springer International Publishing, 2021. Pp. 253–271.
Keskin M.O., Cantürk F., Eran C. et al. Decentralized multi-agent path finding framework and strategies based on automated negotiation. Auton Agent Multi-Agent Syst. 2024. Vol. 38. No. 10. doi: 10.1007/s10458-024-09639-8
Пшенокова И. А., Апшев А. З. Модель энергообмена между агнейронами в составе мультиагентной нейрокогнитивной архитектуры // Известия Кабардино-Балкарского научного центра РАН. 2023. № 5(115). С. 32–40. doi: 10.35330/1991-6639-2023-5-115-32-40 Pshenokova I.A., Apshev A.Z. Energy exchange model among agneurons as part of multi-agent neurocognitive architecture. News of the Kabardino-Balkarian Scientific Center of RAS. 2023. No. 5(115). Pp. 32–40. doi: 10.35330/1991-6639-2023-5-115-32-40. (In Russian)
Nagoev Z., Pshenokova I., Nagoeva O., Kankulov S. Situational analysis model in an intelligent system based on multi-agent neurocognitive architectures. Journal of Physics: Conference Series. 2021. Vol. 2131. Article No. 022103. doi: 10.1088/1742-6596/ 2131/2/022103
Pshenokova I., Bzhikhatlov K., Kankulov S. et al. Simulation model of the neurocognitive system controlling an intellectual agent displaying exploratory behavior in the real world. In: Alexei V. Samsonovich. Tingting Liu Proceedings of the 14th Annual Meeting of the BICA Society. BICA 2023. Studies in Computational Intelligence (SCI). Vol. 1130. doi: 10.1007/978-3-031-50381-8_76

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

2. Рис. 1. Архитектура интеллектуального агента

Скачать (167KB)

Метаданные

3. Рис. 2. Алгоритм работы системы управления ИА

Скачать (172KB)

Метаданные

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Том 27, № 5 (2025)

Том 27, № 5 (2025)

Мультиагентная нейрокогнитивная модель системы управления согласованным поведением коллектива автономных агентов

Полный текст

Аннотация

Ключевые слова

Полный текст

Введение

Мультиагентная нейрокогнитивная модель системы управления автономным агентом

Заключение

Об авторах

Инна Ауесовна Пшенокова

Султан Ахмедович Канкулов

Борис Анзорович Аталиков

Ахмед Зюлфикар Энес

Список литературы

Дополнительные файлы