Введение
Теория позиционных дифференциальных игр [1, 2] представляет собой завершенную теорию построения конструктивных позиционных алгоритмов управления конечномерными системами в условиях конфликта и неопределенности. Основы теории позиционных дифференциальных игр систем с последействием
(0.1)
описываемых функционально-дифференциальными уравнениями (ФДУ), разработаны Н. Н. Красовским, Ю. С. Осиповым и А. В. Кряжимским в работах [3-6], в которых для систем с последействием получены аналоги ключевых результатов конечномерной теории позиционных дифференциальных игр [1]. Современные результаты и тенденции развития теории позиционных дифференциальных систем с последействием представлены в статьях [7-13], специальные задачи теории ФДУ дифференциальных игр исследованы и решены в [14-17] (см. также библиографию этих работ).
Однако до сих пор нет работ, которые бы в «замкнутой» форме излагали теорию позиционных дифференциальных игр систем с последействием. Отсутствие таких обобщающих работ, по-видимому, связано с тем, что в рамках обоснованного в [3-6] подхода не были разработаны такие важные для теории разделы, как «Динамическое программирование», «Программные конструкции», «Априори стабильные мосты», «Корректность дифференциальных игр с последействием», «Стабилизация решений дифференциальных игр с последействием», «Смешанные стратегии в дифференциальных играх с последействием», «Эффективные мосты для смешанных стратегий в системах с последействием», «Стохастическое позиционное управление системами с последействием», «Минимаксная дифференциальная игра с последействием», «Информационная игровая задача», «Дифференциальные игры с запаздыванием и запоминанием информации». Некоторые аспекты отмеченных направлений (разделов), естественно, так или иначе, затрагивались в работах различных авторов, однако не были развиты с такой же полнотой, как в конечномерном случае [1]. Только игровые конструкции, основанные на методологии динамического программирования, достаточно полной развиты и представлены в завершенной форме в работах [7-9].
Методология -гладкого анализа, основывается на:
1) концепции разделения конечномерных и бесконечномерных составляющих в структуре и свойствах функционалов и ФДУ;
2) применении инвариантной производной и соответствующих конструкций.
Автор рассматривал дифференциальные игры систем с последействием как первую область применения -гладкого анализа. Однако автор «отложил» (в начале 1980-х гг.) исследования в этом направлении по совету А. В. Кряжимского, считавшего что -гладкий анализ был в начальной стадии разработки, дифференциальными играми занимался не очень широкий круг специалистов, и было целесообразно продемонстрировать сначала эффективность -гладкого анализа на «более привычных» всем областях теории ФДУ, а затем уже «браться» за дифференциальные игры. К идее изложения теории позиционных дифференциальных игр систем с последействием на основе методологии -гладкого анализа автор решил вернуться сейчас, когда на основе -гладкого анализа разработаны - с такой же полнотой и конструктивностью, как и в конечномерном (ОДУ) случае, разделы ФДУ: метод функционалов Ляпунова-Красовского, метод динамического программирования, численные методы, теория АКОР - аналитического конструирования оптимальных регуляторов, и дифференциальные игры входят в число приоритетных математических направлений исследований РАН до 2030 года.
Применяемый в настоящей статье подход позволяет конструктивно перенести на системы с запаздыванием все результаты теории [1]. При этом, если запаздывание «исчезает», то результаты и формулы статьи «переходят» (совпадают) в соответствующие результаты и формулы книги [1]. Поэтому статья имеет структуру и нумерацию формул соответствующих разделов первой главы книги [1]. Автор также придерживался методики изложения, применяемой в [1], в частности, если стандартные («легко восстанавливаемые») доказательства некоторых утверждений не включены в книгу [1], то и в настоящей статье доказательства аналогичных (соответствующих) утверждений оставляются читателю в качестве несложных упражнений, позволяющих «прочувствовать» (понять) используемые конструкции.
1. Стратегии и движения
В дальнейшем будем использовать условную запись [18, 19] системы (0.1)
(1.1)
и предполагать отображение инвариантно непрерывным, а управления во всей области определения стесненными геометрическими ограничениями
( и - замкнутые множества, характеризующие возможности игроков). Здесь и далее в статье используются понятия и обозначения из [18, 19].
Стратегия первого игрока отождествляется с отображениями Соотношение между стратегией и ее отображением обозначается символом Пусть дана начальная позиция и выбрана стратегия Покроем полуось системой полуинтервалов ( ). Пусть далее ( ) - какая-то кусочно-непрерывная функция развертывающаяся во времени на основании тех или иных соображений, которыми захочет воспользоваться противник. Ломаной Эйлера называется абсолютно непрерывное решение дифференциального уравнения
(1.2)
удовлетворяющее начальному условию для которого равенство (1.2) выполняется при почти всех значениях из интервала существования. Существование такого решения устанавливается известными теоремами анализа (см. [21, с. 120]). Если при всех возможных значениях аргументов и выполняется неравенство
(1.3)
то при любом выборе и существует решение продолжимое на всю полуось Всюду в дальнейшем, если не будет оговорено противное, будем предполагать условие (1.3) выполненным.
Движением порожденным из позиции стратегией будем называть всякую функцию для которой на всяком отрезке найдется последовательность ломаных равномерно сходящаяся к на отрезке при условиях когда Отметим, что, как и в конечномерном случае [1], стратегия при фиксированной начальной позиции порождает, вообще говоря, не одно движение а целое множество таких движений в соответствии с многообразием последовательностей реализаций которые могут случиться при построении ломаных Эйлера определяющих От движения не требуется, чтобы оно было решением дифференциального уравнения которое можно получить из уравнения (1.1), подставляя вместо функционал а вместо - какую-либо подходящую функцию Движение просто определяется как предельная функция для какой-нибудь подходящей последовательности ломаных Эйлера
Лемма 1.1 Выберем произвольную стратегию Зафиксируем некоторую ограниченную область в пространстве позиций и число Тогда для любого числа найдется такое число что при всяком выборе позиции ( ) для всякой ломаной Эйлера (1.2), удовлетворяющей условию ( ), найдется по крайней мере одно движение такое, что
(1.4)
Доказательство. В силу условия (1.3) любая последовательность ломанных Эйлера ( ), где при образует на всяком конечном отрезке множество равномерно ограниченных и равностепенно непрерывных функций. Отсюда, на основании известных теорем функционального анализа (см. [18, с. 100]) вытекает возможность выбора из последовательности подпоследовательности ( ), которая будет сходиться равномерно на каждом конечном отрезке к некоторой функции Эта функция и явится движением При этом условие (5) очевидным образом следует из равномерной сходимости.
Таким образом, мы видим, что при всяком выборе и будет существовать по крайней мере одно движение продолжимое на всю полуось В то же время данное абстрактное определение стратегии и движения допускает разумный переход к реализуемым на практике процедурам управления. Этот переход осуществляется обращением к ломаным Эйлера (1.2), ибо, как следует из леммы 1.1, эти ломаные хорошо аппроксимируют движения
Аналогичным образом определяется класс стратегий второго игрока и порождаемые этими стратегиями движения Пусть выбрана пара стратегий и и реализации управления в уравнении (1.2) строятся по закону где - какое-либо разбиение полуоси избранное вторым игроком. Тогда уравнение (1.2) будет определять также и ломаные Эйлера для второго игрока, для которых первый игрок выбирает реализации своего управления по закону Обозначим символом любую непрерывную функцию ( ), которая на всяком конечном отрезке является равномерным пределом для некоторой подходящей последовательности таких ломаных Эйлера при условии, что, при
В силу того, что состоянием системы с последействием мы считаем конечномерный вектор [1] многие свойства движений системы (1.1) аналогичны свойствам движений конечномерных систем [1]. В частности, справедливо следующее утверждение, которое, как и в [1], приводится без доказательства.
Лемма 1.2. Каковы бы ни были позиция и пара стратегий множество движений содержит все движения и множество движений также содержит все движения
2. Свойства движений
Зафиксируем начальную позицию и остановимся на какой-то стратегии Тогда можно построить пучок всех возможных движений ( ), которые получаются как пределы при переборе всех возможных сходящихся последовательностей причем перебор всех возможных реализаций отражает всевозможные действия противника. Таким образом, множество всех движений при данных и отражает в нашей формализации всевозможные реализации процесса, стесненные только условием Справедливо следующее утверждение.
Лемма 2.1. Пусть - некоторая ограниченная область в пространстве позиций и фиксировано число Тогда множество всех движений отвечающих всем всевозможным стратегиям и начальным позициям образует совокупность равномерно ограниченных и равностепенно непрерывных функций Под расстоянием между двумя непрерывными вектор-функциями и определенными на отрезке будем понимать их расстояние в метрике пространства т. е. величину
Справедливо следующее утверждение.
Лемма 2.2. На всяком отрезке пучок всех движений при всяком выборе и образует замкнутое множество в метрике пространства
Из лемм 2.1 и 2.2 вытекает, что пучок всех движений ( ) образует в пространстве компактное в себе множество. Следуя общепринятой терминологии [2, с. 222], некоторый функционал параметра значения которого суть множества состоящие из элементов метрического пространства полунепрерывен сверху по включению в точке (в метрике ), если для всякой последовательности сходящейся в метрике пространства к точке и любой сходящейся в метрике последовательности
предельная точка будет удовлетворять условию В таких ситуациях принято именовать полунепрерывными сами множества Если помимо интересующего нас аргумента (здесь ), множества зависят от других параметров, то, там где это требуется, указывается, относительно какого аргумента имеет место полунепрерывность.
Обозначим пучок всех движений ( ), отвечающих выбранной стратегии и некоторой начальной позиции символом так как будем далее менять только параметр Справедливо следующее утверждение.
Лемма 2.3. При всяком выборе и пучки полунепрерывны сверху по включению в каждой точке относительно параметра и в метрике При этом для любого можно указать такое, что при условии
для всякого движения найдется хотя бы одно движение удовлетворяющее условию
Доказательство. Предположим противное, что лемма 2.3 неверна. Тогда при некотором выборе и найдутся число и последовательность движений ( ) такие, что при Но в пучке всякое движение будет удовлетворять условию
(2.1)
при всяком значении В то же время множество ( ), согласно лемме 2, состоит из равномерно ограниченных и равностепенно непрерывных функций ( ), поэтому из последовательности можно выбрать подпоследовательность равномерно сходящуюся к некоторой функции так, что
(2.2)
при всех достаточно больших значениях Однако, опираясь на определение движений нетрудно построить последовательность ломаных Эйлера которая также будет сходиться равномерно к функции ( ). Стало быть, опять по определению движения функция будет таким движением на отрезке Но в таком случае условия (2.1) и (2.2) оказываются противоречивыми. Полученное противоречие доказывает лемму 2.3.
Лемма 2.3 утверждает, что при приближении точки к точке все движения пучка равномерно приближаются к совокупности движений, составляющих пучок Наряду с определенными выше конструктивными идеальными движениями получаемыми предельным переходом от ломаных Эйлера, удобно рассматривать во вспомогательных построениях некоторые обобщенные идеальные движения которые определяются следующим образом. Зафиксируем некоторую позицию и выберем какую-то стратегию Выберем число и построим множество которое является выпуклой замкнутой оболочкой совокупности всех векторов вида
(2.3)
Такие выпуклые замкнутые оболочки какого-либо множества векторов будем обозначать символом Итак,
При всяком выборе позиции стратегии и числа множество оказывается ограниченным. Кроме того, очевидно, справедливо вложение
при Далее можно построить множества
являющиеся, стало быть, пересечениями множеств ( ). Из построения множеств вытекает, что множества ограничены, выпуклы, замкнуты и содержат в себе выпуклую оболочку множества всех векторов Более того, можно проверить, что множества отвечающие одной и той же стратегии оказываются полунепрерывными сверху по включению в каждой позиции (относительно позиции и в евклидовой метрике пространства ). Именно, какой бы ни была стратегия и какой бы ни была позиция для всякого можно указать такое, что при выполнении условия (2.3) множество такое, что при выполнении условия (2.3) множество будет содержаться в евклидовой -окрестности множества
Рассмотрим дифференциальное уравнение в контингенциях
(2.4)
Его решением называется всякая абсолютно непрерывная функция которая удовлетворяет начальному условию и производная которой при почти всех значений удовлетворяет включению
Так как множества при всяком выборе стратегии во всякой возможной позиции ограничены, выпуклы и замкнуты, при изменении позиции меняются полунепрерывно сверху по включению и, кроме того, согласно (1.3), удовлетворяют условию
то уравнение (2.4) при всяком выборе стратегии и начальной позиции имеет решения продолжимые для всех значений Эти решения будем называть идеальными обобщенными движениями системы (1.1).
Аналогичным образом с переменой ролями символов и определяются идеальные обобщенные движения которые являются решениями дифференциального уравнения в контингенциях
аналогичного уравнению (2.4).
Между идеальными конструктивными движениями которые получаются предельным переходом от ломаных Эйлера (1.2), и идеальными обобщенными движениями которые определены как решения дифференциальных уравнений в контингенциях (2.4), существует такая же связь, как и в конечномерном случае [1]. Оказывается, что при всяком выборе стратегии и начальной позиции всякое конструктивное движение ( ) является одновременно обобщенным движением ( ). Иначе говоря, пучок всех конструктивных движений
обязательно содержится в соответствующем пучке всех обобщенных движений
Таким образом, имеем
Аналогичным образом справедливо включение
3. Постановка задачи
После определения стратегий и движений мы можем перейти к формализованной постановке игровых задач. Будем предполагать, что в пространстве «точечных» состояний заданы множества и и задан функционал
(3.1)
который должен минимизироваться первым игроком и максимизироваться вторым. Ограничимся сначала функционалом (3.1). К более общему случаю
(3.2)
обратимся позднее. Начальную позицию будем полагать выбранной произвольно в пределах ее допустимых значений, но будем полагать ее затем зафиксированной. Множество удобно предполагать замкнутым, а функционал - имеющим смысл на непрерывных функциях Рассматриваемая задача сближения состоит в приведении конечномерного фазового вектора (характеризующего физическое состояние системы) на целевое множество Будем сначала считать союзником первого игрока и сформулируем задачу для него.
Задача 3.1. Требуется найти стратегию которая обеспечивает встречу
(3.3)
(3.4)
для всякого движения Обратим внимание на то, что момент фигурирующий в условиях задачи, не является, вообще говоря, заданным априори, но получает для всякого движения свое значение (3.3). Стратегию разрешающую задачу 3.1, будем называть оптимальной минимаксной стратегией.
Будем считать союзником второго игрока и сформулируем задачу для него.
Задача 3.2. Требуется найти стратегию которая исключает встречу (3.3) для всякого движения Совокупность двух задач 3.1 и 3.2 будем именовать игрой. Игра в нашей формализации складывается из двух задач.
4. Игра сближения-уклонения
Изучение задач 3.1 и 3.2, поставленных в предыдущем параграфе, мы начнем с одного частного случая, который будем именовать в дальнейшем игрой сближения-уклонения. Эта игра будет складываться из следующих двух задач. Множество фигурирующее в задаче 3.1, равно как и множество из этой задачи, будем полагать замкнутыми множествами в пространстве т. е. конечномерными множествами. Однако, учитывая бесконечномерность систем с последействием и эффективность функциональных методов, целесообразно решать рассматриваемую задачу в функциональной постановке. Для применения функционального подхода, целевое множество и фазовые ограничения будем рассматривать в виде и соответственно. Так как из условия ( ) следует, что ( ), то, решив формулируемые ниже задачи, мы фактически решаем и задачи 3.1 и 3.2 из предыдущего раздела.
Таким образом, далее рассматриваем следующие задачи.
Задача 4.1. Требуется найти стратегию которая обеспечивает встречу
(4.1)
для всякого движения Будем обозначать символами и некоторые окрестности замкнутых множеств и в пространстве позиций Иначе говоря, и суть некоторые открытые множества в пространстве позиций содержащие и соответственно.
Задача 4.2. Требуется найти какие-либо окрестности и и стратегию которая исключает встречу
(4.2)
для всякого движения
В частности, нас будут особенно интересовать случаи задач 4.1 и 4.2, когда множество будет обрываться на некоторой гиперплоскости т. е. когда это множество будет лежать целиком в области В таких случаях мы будем говорить о задаче 4.1 сближения к моменту . О стратегии разрешающей тогда задачу 4.1, будем говорить, что она гарантирует сближение позиции с внутри к моменту а о стратегии разрешающей задачу 4.2, будем говорить, что она гарантирует уклонение позиции от внутри вплоть до момента
5. Несколько важных замечаний
В следующем параграфе аналогично конечномерному случаю будет введено понятие стабильного моста. Для систем с последействием мосты удобно строить в пространстве так как это пространство является банаховым. В силу свойства сглажи-вания решений ФДУ, для любого решения справедливо включение при Поэтому, не нарушая общности, в дальнейшем можно предполагать что обеспечивает включение Случай можно считать «вырожденным», так как тогда задача становится фактически конечномерной. Например, рассмотрим дифференциально-разностную игру
(5.1)
при условии Подставляя функцию из начального условия в правую часть уравнения (5.1) (так как ), получаем конечномерную дифференциальную игру на интервале для обыкновенного дифференциального уравнения при
6. Стабильный мост
Для решения задачи 4.1 о сближении достаточно построить некоторое множество называемое мостом, которое обладало бы следующими свойствами:
1-u) мост содержит начальную позицию
2-u) в какой-то момент мост обрывается на т. е. сечение моста гиперплоскостью содержится в
3-u) мост содержится целиком в
4-u) существует некоторая стратегия которая удерживает всякое движение ( ) при любом выборе начальных условий на мосту вплоть до встречи с
Стратегия удовлетворяющая условию 4-u, обозначается так как она решает задачу 4.1 и гарантирует сближение состояния с к моменту Для решения задачи 4.2 об уклонении достаточно построить мост который обладал бы следующими свойствами:
1-v) мост содержит начальную позицию
2-v) мост не пересекается с
3-v) существует некоторая стратегия которая удерживает всякое движение при на мосту вплоть до выхода позиции из области
Стратегия удовлетворяющая условию 3-v для задачи 4.2, обозначается так как она решает задачу 4.2. Важным свойством, которым могут обладать мосты, является стабильность. В дальнейшем будем предполагать, что отображение в правой части уравнений движения (1.1) в каждой ограниченной области пространства удовлетворяет условию Липшица по т. е.
при всех и из и при всех
Обратимся сначала к задаче 4.1 о сближении. Пусть - некоторое множество в пространстве Выберем какую-нибудь позицию Предположим на время, что второй игрок на некоторый будущий интервал времени выбрал некоторое управление характеризуемое постоянным вектором Рассмотрим обобщенные движения которые, согласно материалу из раздела 2, являются решениями следующего дифференциального уравнения в контингенциях:
(6.1)
где
Множество является -стабильным, если при всяком выборе позиции значения и вектора среди решений уравнения (6.1) найдется по крайней мере одно решение, удовлетворяющее условию
при каком-то значении
Обратимся теперь к задаче 4.2 об уклонении. Пусть опять - некоторое множество в пространстве позиций и Пусть первый игрок выбрал на некоторый будущий полуинтервал времени некоторое управление характеризуемое постоянным вектором Рассмотрим обобщенные движения т. е. решения ( ) следующего дифференциального уравнения в контингенциях:
(6.2)
где
Множество является -стабильным, если при всяком выборе позиции и среди решений уравнения (18) найдется по крайней мере одно решение, удовлетворяющее условию
при каком-то
7. Маленькая игра
Зафиксируем какую-нибудь позицию и вектор Составим скалярное произведение (верхний штрих - транспонирование).
Задача 7.1. Требуется найти вектор который удовлетворяет условию
(7.1)
Задача 7.2. Требуется найти вектор который удовлетворяет условию
(7.2)
Эти две задачи составляют маленькую игру в позиции по вектору Вектор разрешающий задачу (7.1), называется минимаксным вектором маленькой игры (в позиции по вектору ), вектор разрешающий задачу (7.2), называется максиминным вектором маленькой игры (в позиции по вектору ).
Если окажется, что в некоторой позиции при некотором выборе вектора для маленькой игры выполняется равенство т. е. равенство
то, следуя обычной терминологии, будем говорить, что эта игра имеет седловую точку, для которой, стало быть, справедливы неравенства
(7.3)
Заметим, что условие седловой точки (7.3) обязательно выполняется во всякой позиции и при всяком выборе если отображение в правой части уравнения (1.1) имеет вид суммы
Как и в конечномерном случае условие (7.3) имеет следующий геометрический смысл. Скалярное произведение в позиции при выбранном векторе и при фиксированных постоянных и с точностью до членов высшего порядка малости по характеризует сдвиг который достигается вдоль решения уравнения (1.1) в направлении вектора за время ибо Таким образом, условие (7.3) означает, что в позиции при данном выборе вектора игра на минимакс-максимин по и для сдвига в направлении вектора за время вдоль решений уравнения (1.1) с точностью до высшего порядка малости относительно имеет седловую точку и при отклонении значения от при сохранении этот сдвиг в линейном приближении по может только увеличиться, а при отклонении значения от при сохранении этот сдвиг в линейном приближении по может только уменьшиться.
8. Экстремальная стратегия
Пусть - какое-нибудь множество в пространстве позиций Построим стратегию которую будем называть экстремальной к этому множеству. Функционал определяющий эту стратегию, задается следующим образом. Пусть - какая-то позиция ( ). Если гиперплоскость не пересекается с множеством то в качестве можно выбрать любой вектор Если же гиперплоскость пересекается с то надлежит выбрать позицию ( ), ближайшую к позиции (таких ближайших позиций может быть не одна, тогда выбираем любую из них). Теперь в качестве следует выбрать любой из минимаксных векторов для маленькой игры (7.1) в позиции по вектору Иначе говоря, в качестве следует выбрать вектор удовлетворяющий условию минимакса
(8.1)
Геометрический смысл условия (8.1) таков. Будем обозначать символом сечение множества гиперплоскостью т. е.
(8.2)
При построении отрезка ломаной Эйлера (1.2) от некоторой реализовавшейся позиции для которой фазовое состояние не лежит на условие (22) направляет скорость фазового вектора в этой позиции так, чтобы обеспечить предельно большой возможный сдвиг вдоль ломаной в направлении к сечению множества при самом упорном сопротивлении этому со стороны противника - второго игрока.
Аналогичным образом определяется стратегия экстремальная к множеству При этом условие (8.1) заменяется на условие максимина
(8.3)
которое назначает в качестве максиминный вектор для маленькой игры (7.2) в позиции по вектору Следует обратить внимание на то обстоятельство, что в условии (8.1) величина определяется из условия минимакса скалярного произведения а в условии (8.2) величина определяется из условия максимина скалярного произведения Однако вектор фигурирующий в маленькой игре (8.1), противоположен вектору который фигурирует в маленькой игре (8.3). Поэтому получается, что оба условия (8.1) и (8.3) имеют один и тот же геометрический смысл. И в случае стратегии при построении отрезка ломаной Эйлера от некоторой реализовавшейся позиции которая не лежит на условие (8.3) направляет скорость фазового вектора в этой позиции так, чтобы обеспечить предельно большой возможный сдвиг вдоль ломаной Эйлера снова в направлении к сечению множества при самом упорном сопротивлении этому со стороны противника - первого игрока.
9. Оценка
Получим оценку, которая будет используется при доказательстве барьерных свойств экстремальных стратегий. Рассмотрим два движения и ( ). Первое движение удовлетворяет уравнению
(9.1)
где - какая-то интегрируемая по Лебегу реализация управления второго игрока. Второе движение удовлетворяет уравнению в контингенциях (6.1), т. е. уравнению
(9.2)
Предполагается, что эти оба движения удовлетворяют некоторым начальным условиям а постоянные векторы и выбраны из условий
(9.3)
(9.4)
где Таким образом, есть минимаксный вектор для маленькой игры (7.1) в позиции при а - максиминный вектор для маленькой игры (7.2) в позиции также при
Обозначим через расстояние в между точками (позициями) и т. е.
(9.5)
Справедлива следующая оценка
(9.6)
(9.7)
равномерная для всех позиций и из каждой наперед выбранной ограниченной области пространства позиций
Докажем оценку (9.6). Решения уравнений (9.1) и (9.2) - движения и являются абсолютно непрерывными функциями. Поэтому при почти всех функция для функции (9.5) имеет производную, которая определяется по формуле дифференцирования сложной функции
(9.8)
где
В ограниченной области, содержащей рассматриваемые движения, справедливы оценки
где - некоторое достаточно большое число. Поэтому соотношение (9.8) можно преобразовать к следующему неравенству
(9.9)
Оценим величину
(9.10)
По теореме Каратеодори вектор который содержится в выпуклой оболочке можно представить в виде
(9.11)
Учитывая, что отображение инвариантно непрерывно по и липшицево по соотношение (9.11) можно переписать следующим образом
Здесь - постоянная Липшица по отображения в рассматриваемой области, а - непрерывная функция, удовлетворяющая условию
(9.12)
Поскольку вектор также можно представить в виде
(9.13)
то для величины (9.10) получаем оценку
(9.14)
Замечаем теперь, что по определению векторов (9.3) и (9.4) в силу предполагаемого нами условия (7.3) имеем неравенство
Умножая эти неравенства на неотрицательные числа и суммируя по получаем
(9.15)
Таким образом, из оценок (9.15), (9.14), (9.9) имеем неравенство
(9.16)
Учитывая, что а функция удовлетворяет условию (9.12), интегрированием неравенства (9.16) получаем теперь нужную оценку (9.6), где
Поменяв местами буквы и получим снова оценку (9.6), но теперь уже для пары движений
При этом векторы и снова выбираются как минимаксный и максиминный векторы для маленькой игры (7.1), (7.2) в позиции но теперь уже при выборе вектора
10. Экстремальный барьер
В данном разделе будет показано, что стратегия экстремальная к -стабильному замкнутому множеству сохраняет на позицию (состояние) ( ) для всякого находящегося на нем движения вплоть до встречи позиции с множеством Точно также будет проверено, что стратегия экстремальная к -стабильному замкнутому множеству сохраняет на позицию для всякого начавшегося на нем движения вплоть до выхода этой позиции из окрестности множества Иначе говоря, мы проверим, что экстремальные стратегии и образуют вокруг стабильных мостов барьеры, которые препятствуют соскальзыванию с них движений вплоть до момента, когда будет достигнута цель первого или второго игрока соответственно.
Начнем со случая -стабильного моста Нам надлежит доказать следующее утверждение.
Лемма 10.1. Пусть замкнутое множество -стабильно; есть стратегия, экстремальная к множеству и пусть Тогда для всякого движения вплоть до встречи выполнится включение Если для некоторого движения встреча с не наступает вообще, то для такого движения при всех
Доказательство. Предположим, что это утверждение неверно и, следовательно, найдется движение для которого позиция покидает раньше, чем она попадает на Пусть - верхняя грань тех значений для которых при Вследствие замкнутости множества и отрезка выбранного движения ( ) справедливо включение В то же время, по выбору движения имеем Стало быть, на выбранном движении можно указать отрезок ( ), который лежит на некотором ненулевом расстоянии от замкнутого множества Более того, отрезок мы можем полагать еще и настолько малым, что и всякое движение ( ), являющееся решением уравнения (6.1) в контингенциях, при всяком выборе не будет пересекаться с Но это, вследствие -стабильности будет означать, что всякое сечение множества при не пусто, причем для рассматриваемого движения расстояние от позиции до множества при будет меньше некоторого числа Рассмотрим ломаные Эйлера ( ) (1.2), дающие при выбранное нами движение
Покажем, что утверждение леммы будет доказано, если имеет место оценка
(10.1)
Здесь символ обозначает расстояние в от точки до сечения множества при - точки из разбиений и - величины, определенные в соответствии с оценкой (9.6), где ограниченная область выбрана так, что она содержит все рассматриваемые ниже позиции (вместе с их -окрестностью). Отметим, что величина при по выбору момента имеет смысл, так как сечения непусты при
Заметим, что из условия вытекает сходимость при а из соотношения (9.7) - сходимость при Поэтому оценка (10.1) приводит к противоречию. В самом деле, оценка (10.1) означает, что функции на отрезке сходятся к нулю при т. е. при все позиции ( ) сходятся к замкнутому множеству В то же время все эти позиции при сходятся к позициям А это возможно лишь при условии ( ). Выполнение этого включения при противоречит выбору движения и момента Полученное противоречие доказывает справедливость леммы, если выполнена оценка (10.1).
Таким образом, для полного доказательства леммы 10.1 остается проверить оценку (10.1). Рассмотрим предварительно некоторые свойства функции где величина есть расстояние от позиции до сечения множества - некоторая ломаная Эйлера (1.2). Покажем, что на отрезке где величина имеет смысл, функция полунепрерывна снизу и непрерывна справа.
Итак, пусть последовательность точек ( ) сходится к точке а значения сходятся при к числу Требуется показать, что Действительно, по определению величины имеем
где - некоторые подходящие позиции из В силу замкнутости всякая предельная точка последовательности ( ) содержится в поэтому
Полунепрерывность снизу функции доказана.
Пусть теперь и - некоторая последовательность точек, сходящаяся к справа. Пусть где Воспользуемся свойством -стабильности множества из которого вытекает существование позиций принадлежащих ( ) на каких-то обобщенных движениях и поэтому удовлетворяющих условию при т. е. при Имеем следующие соотношения
Переходя в этом неравенстве к пределу при получаем, что всякая предельная точка последовательности ( ) удовлетворяет оценке Однако, в силу полунепрерывности снизу функционала справедливо также неравенство Следовательно, при что и требовалось доказать.
Вернемся к рассмотрению функций Для доказательства от противного оценки (10.1) предположим, что эта оценка неверна. Тогда при отдельных значениях на отрезке будет где-то нарушаться неравенство
(10.2)
Итак, пусть для функции оценка (10.2) нарушается. Обозначим через нижнюю грань чисел для которых справедливо неравенство Поскольку функция полунепрерывна снизу и непрерывна справа, имеет место следующее равенство Пусть полуинтервал, содержащий точку Тогда по определению числа имеем
(10.3)
где - некоторая точка полуинтервала лежащая правее точки Из неравенств (10.3) по определению функции (10.2) получаем соотношение
(10.4
Пусть - экстремальное управление первого игрока, которое осуществляет движение при Напомним, что - минимаксный вектор, разрешающий маленькую игру (7.1) в позиции при где - точка сечения ближайшая к точке т. е. Выберем максиминный вектор разрешающий маленькую игру (7.2) в позиции при Рассмотрим пучок движений ( ), являющихся решением соответствующего уравнения в контингенциях (6.1) при Поскольку по выбору числа этот пучок не пересекается при с то в силу -стабильности моста в таком пучке найдется по крайней мере одно движение для которого
(10.5)
Поэтому из оценки (9.6) в силу соотношения (10.5) получаем неравенство
(10.6)
Поскольку по определению числа справедливо неравенство то оценка (10.6) противоречит оценке (10.4). Полученное противоречие доказывает оценку (10.1), а с ней - лемму 10.1.
Перейдем теперь к случаю -стабильного моста В этом случае нам надлежит доказать следующее утверждение.
Лемма 10.2. Пусть замкнутое множество -стабильно, есть стратегия, экстремальная к множеству и пусть Тогда при для всякого движения вплоть до момента когда Если для некоторого движения все время то для такого движения при всех
Доказательство. Справедливость леммы 10.2 вытекает немедленно из леммы 10.1, если заметить, что, поменяв местами буквы и мы из -стабильного моста, фигурирующего в лемме 10.1, получим -стабильный мост фигурирующий в лемме 10.2. При этом только роль множества будет теперь играть дополнение к множеству до всего пространства позиций
Таким образом, в этом параграфе мы установили важные барьерные свойства стратегий и экстремальных соответственно к -стабильному мосту или к -стабильному мосту
11. Максимальный стабильный мост
В этом параграфе конструируются предельно широкие стабильные мосты которые только могут существовать в задаче сближения к моменту и в задаче уклонения вплоть до момента
Обратимся сначала к задаче сближения с множеством к моменту В соответствии с принятым раньше условием множества и будем полагать замкнутыми. Предельно широкий -стабильный мост который удовлетворяет сформулированным в разделе 6 для моста условиям (2-u)-(4-u), строится следующим образом.
При данном фиксированном значении уберем из пространства все те позиции ( ), для каждой из которых, как для начальной, разрешима задача об уклонении хотя бы от одной окрестности множества внутри хотя бы одной окрестности множества на отрезке Выброшенные позиции образуют в каждой гиперплоскости открытое множество. В самом деле, пусть - некоторая выброшенная позиция. Стало быть, найдется стратегия которая обеспечит уклонение всех движений от встречи с внутри при Но эта же стратегия для всех движений при всяком выборе из достаточно малой окрестности точки обеспечит также уклонение от встречи с некоторой окрестностью множества лежащей со своим замыканием в причем это будет уклонение внутри некоторой окрестности лежащей со своим замыканием в при Если бы это было не так, мы могли бы построить сходящуюся последовательность при такую, что некоторые соответствующие движения будут удовлетворять условию
при и будут притом при сходиться равномерно к некоторому движению Но тогда и это предельное движение удовлетворит условию
а это противоречит тому, что стратегия уклоняет все движения от встречи с внутри при Полученное противоречие и доказывает, что в каждой гиперплоскости выброшенные нами позиции образуют открытое множество.
Обозначим символом множество всех оставшихся позиций Ясно, что всякий стабильный мост лежащий целиком в и обрывающийся на при должен содержаться в В самом деле, пусть некоторое состояние не содержится в Тогда не может существовать стратегия которая обеспечила бы встречу всех движений с при Но если бы где - какой-то -стабильный мост, то согласно лемме 10.1 стратегия экстремальная к этому -стабильному мосту, обеспечивала бы такую встречу.
Важный факт состоит, однако, в том, что все множество и составляет нужный нам максимальный -стабильный мост Таким образом, справедливо следующее утверждение.
Лемма 11.1. Множество является замкнутым и составляет максимальный -стабильный мост лежащий целиком в и обрывающийся на при
Доказательство. Для доказательства леммы, очевидно, достаточно проверить лишь -стабильность множества В самом деле, два последние его свойства, утверждаемые леммой 11.1, вытекают очевидным образом из способа его построения. Замкнутость будет следовать из его -стабильности согласно лемме 10.1, ибо может быть только максимальным стабильным мостом.
Итак, проверим -стабильность множества Примем от противного, что таковым оно не является. Тогда найдутся позиция ( ), вектор и момент такие, что все решения уравнения (6.1) при не пересекаются с и образуют замкнутое множество точек , не пересекающееся с замкнутым сечением множества
Но по определению множества для всякой точки найдется стратегия которая обеспечит уклонение всех движений от некоторой окрестности внутри некоторой окрестности на отрезке для всех удовлетворяющих условию
(11.1)
Покроем множество конечной системой окрестностей (11.1). Рассмотрим множество всех позиций которые удовлетворяют условию
или условию
Здесь - произвольная точка из какой-либо из окрестностей (11.1) нашего покрытия множества - момент времени, когда точка впервые покидает область Можно проверить, что замыкание множества является -стабильным мостом для некоторой задачи об уклонении на отрезке при подходящем выборе и Но тогда, согласно лемме 10.2 стратегия экстремальная к обеспечит уклонение всех движений от внутри на отрезке Однако, это возможно лишь при условии, что Полученное противоречие с нашим выбором позиции удовлетворяющей включению доказывает лемму.
Обратимся теперь к задаче уклонения от внутри на отрезке Нужный нам максимальный -стабильный мост который удовлетворяет условиям (2-v) и (3-v), сформулированным в разделе 6 для моста построим следующим образом.
При данном фиксированном значении выбросим из пространства все те позиции ( ), для каждой из которых, как для начальной, разрешима задача о сближении к моменту с множеством внутри множества по крайней мере при одном выборе окрестностей и вложенных вместе со своими замыканиями и в окрестности и Множество всех оставшихся позиций обозначим символом Ясно, что всякий -стабильный мост не пересекающийся с должен содержаться в Важно, однако, что все множество и составляет нужный нам -стабильный мост Это утверждение вытекает немедленно из леммы 11.1, если мы заметим, что проведенное только что построение множества имеет тот же характер, что и построение множества в лемме 11.1. При этом только при переходе от множества построенного сейчас, к множеству построенному в лемме 11.1, достаточно поменять местами буквы и и перевести на роль множеств и дополнения ко всему пространству до множеств и соответственно, причем новое множество следует пополнить гиперплоскостью Таким образом, для построенного сейчас множества справедливо следующее утверждение.
Лемма 11.2. Множество является замкнутым и составляет максимальный -стабильный мост не пересекающийся с окрестностью
12. Альтернатива
В этом разделе мы получим ключевую теорему об альтернативе, которая при условии (7.3) характеризует игру сближения-уклонения в классе чистых стратегий и Эта теорема, которая является прямым следствием лемм 10.1, 11.1 и определения моста формулируется следующим образом.
Пусть для всех возможных и выполнено условие (7.3), дана начальная позиция и выбрано число Тогда
либо найдется стратегия которая для всех движений обеспечит встречу (12.1)
внутри при условии
либо найдутся число и стратегия такие, что для всех движений будет обеспечено уклонение вплоть до момента от -окрестности множества внутри -окрестности множества
Из теоремы 12.1 вытекает, таким образом, что при всяком выборе все полупространство разбивается на две части и Часть слагается из всех позиций для которых как для начальных разрешима задача сближения с внутри к моменту Множество является множеством открытым и, очевидно, с ростом это множество не уменьшается. Часть слагается из всех позиций для каждой из которых, как для начальной, разрешима задача уклонения от некоторой -окрестности множества внутри подходящей -окрестности множества вплоть до момента Множество является множеством открытым в полупространстве и с ростом его сечение гиперплоскостями не увеличиваются. Множество складывается из множеств ( ), каждое из которых является замкнутым в полупространстве множеством позиций для которых, как для начальных, разрешима задача уклонения от внутри вплоть до момента
Прямым следствием из теоремы 12.1 является следующее утверждение.
Следствие 12.1. Для всякой начальной позиции справедливо одно из двух утверждений: либо найдутся число и стратегия которая для всех движений обеспечит встречу (12.1) внутри при условии либо при всяком найдутся число и стратегия такая, что для всех движений будет обеспечено уклонение вплоть до момента от -окрестности множества внутри -окрестности множества
Следствием из теоремы 12.1 и леммы 11.1 является следующая теорема об альтернативе в аппроксимационной форме.
Теорема 12.2. Пусть для всех и выполнено условие (7.3) и дана начальная позиция Если для этой начальной позиции при некотором значении выполнено утверждение теоремы 12.1, то для любого можно подобрать так, что для всех ломаных Эйлера при условиях
(12.2)
будет обеспечена встреча
(12.3)
с -окрестностью множества внутри -окрестности множества при условии Если же для данного начальной позиции задача сближения с внутри к моменту не разрешима, то найдется число и к нему число такие, что для всех ломаных Эйлера при условиях (12.2) встреча (12.3) с внутри будет исключена вплоть до момента
В заключение подчеркнем, что стратегии и о которых идет речь в теоремах 12.1 и 12.2, можно строить как экстремальные стратегии и к соответствующим стабильным максимальным мостам и
13. Динамическое программирование
Один из путей построения стабильных мостов и и соответствующих им способов экстремального управления и которые выводят позицию на или, напротив, отклоняют ее от встречи с связан с использованием инвариантно гладких функционалов играющих роль потенциала в соответствии с рецептами динамического программирования.
Поскольку задача 4.2 об уклонении при перемене местами букв и превращается в задачу 4.1 о сближении, мы можем ограничиться здесь только задачей 4.1 о сближении с замкнутым множеством внутри замкнутого множества Переход к аналогичным достаточным критериям, определяющим решение задачи 4.2 об уклонении, получается понятной трансформацией достаточных критериев, определяющих решение задачи 4.1 о сближении.
Итак, пусть мы имеем задачу о сближении с заданным замкнутым множеством внутри заданного замкнутого множества Предположим, что в области удалось построить функционал удовлетворяющий неравенствам
(13.1)
(13.2)
имеющий непрерывные частные и инвариантные производные
в области
(13.3)
и такой, что в области (13.3) выполняется неравенство
(13.4)
Здесь и в дальнейшем
Справедливо следующее утверждение.
Лемма 13.1. При условиях (13.1)-( 13.4) множество позиций ( ), удовлетворяющих условию образуют -стабильный мост, проходящий внутри и обрывающийся на при
Доказательство. В соответствии с определением -стабильности для доказательства леммы 13.1 достаточно показать, что при всяком выборе позиции ( ), числа и вектора по крайней мере одно решение уравнения в контингенциях (6.1) удовлетворит условию т. е. условию
(13.5)
Искомое решение мы построим следующим образом. Наряду с уравнением (6.1) рассмотрим еще одно уравнение в контингенциях
(13.6)
где для области (13.3) символом обозначена выпуклая оболочка множества векторов получающегося, когда вектор пробегает все те значения при которых выполняется условие
(13.7)
Вне области (13.3) полагаем Вследствие инвариантной непрерывности частных производных в области (13.3), множества оказываются полунепрерывными сверху относительно включения по изменению позиции Стало быть, для уравнения (13.6) выполняется теорема о существовании решений Кроме того, очевидно справедливо вложение
и значит всякое решение уравнения (13.6) одновременно является и решением уравнения (6.1).
Теперь остается проверить, что всякое решение уравнения (13.6) удовлетворяет условию (13.5). Проверим это. В предположении противного для какого-то решения условие (13.5) не выполняется. Тогда, вследствие начального условия и инвариантной непрерывности функционала и функции мы можем построить такой отрезок ( ) движения который при лежит в области и притом удовлетворяет условию Отсюда вытекает, что для абсолютно непрерывной функции на интервале должно найтись множество значений имеющее ненулевую меру, на котором будет выполняться неравенство
(13.8
Однако, вычисляя производную сложной функции по правилу
(13.9)
и учитывая условия (13.6), способ построения множества по условиям (13.7), а также условие (13.4), получим из (13.9) неравенство
Это неравенство противоречит неравенству (13.8). Полученное противоречие доказывает лемму 13.1.
Из лемм 10.1 и 13.1 вытекает, что при условии стратегия экстремальная к множеству обеспечивает встречу всякого движения с множеством внутри при т. е. стратегия разрешает здесь задачу о сближении. При этом, если найден функционал который удовлетворяет условиям (13.1)-( 13.4), то для построения искомой стратегии разрешающей задачу 4.1 о сближении, уже не обязательно надо обращаться к построению экстремальной стратегии на базе -стабильного моста Искомую стратегию можно сконструировать иначе. Покажем это.
Пусть символ означает множество векторов удовлетворяющих в некоторой позиции из области (13.3) условию (13.4)
В позиции которая не лежит в области (13.3), в качестве можно выбрать все множество Пусть есть выпуклая оболочка множества векторов когда и Заметим, что множества полунепрерывны сверху относительно включения по изменению позиции
Справедливо следующее утверждение.
Лемма 13.2. Пусть Тогда для любого решения дифференциального уравнения в контингенциях
(13.10)
выполняется условие встречи
(13.11)
Доказательство. Доказательство этой леммы основывается на том факте, что вдоль всякого обобщенного движения являющегося решением уравнения (13.10), выполняется неравенство
(13.12)
и, стало быть, Но последнее неравенство означает, что позиция а неравенство (13.12) означает, что при всех Это и доказывает лемму 13.2, остается только проверить выполнение условия (13.12). Проверка этого условия проводится совершенно по тому же плану, как и проверка условия (13.5) для всех решений уравнения (13.6) при доказательстве леммы 13.1, и эту проверку мы здесь опустим.
Обозначим теперь символом стратегию, задаваемую функционалом который во всякой позиции удовлетворяет условию Тогда всякое конструктивное движение явится также и обобщенным движением которое является решением уравнения в контингенциях (13.10). Отсюда и из леммы 13.2 заключаем, что справедливо следующее утверждение.
Теорема 13.1. Предположим, что удалось найти непрерывный и инвариантно дифференцируемый функционал удовлетворяющий условиям (13.1)-( 13.3). Пусть далее стратегия задана условием
(13.13)
в области (13.3), а вне этой области может принимать любые значения. Тогда, если то для всякого движения условие встречи (13.11) будет выполняться при
Полезно заметить, ссылаясь на рассуждения, которыми мы обосновывали лемму 13.2, что стратегия обеспечивает также выполнение условия
хотя уже может и не быть первым моментом встречи позиции с
Далее, заметим также, что управляющее воздействие порождаемое стратегией согласно (13.13) опять можно трактовать как некоторое экстремальное управление относительно -стабильного моста но имеющее базой уже не метрику в окрестности как это было в разделе 8, а заменяющий здесь эту метрику потенциал Условие выбора (13.13) означает наискорейший возможный спуск движения относительно этого потенциала к мосту при наиболее упорном сопротивлении противника, распоряжающегося управлением
Важно заметить еще, что при доказательстве леммы 13.2 и вытекающей из нее теоремы 13.1 условие (7.3) седловой точки для маленькой игры (7.1), (7.2) нигде не используется и, стало быть, в условиях леммы 13.2 и теоремы 13.1 это условие предполагать не требуется.
Автор благодарит рецензента и редактора за высококвалифицированные рекомендации и замечания.