Текущий выпуск Выпуск 1, 2025 Том 35
Результыты поиска по 'Bellman function.':
Найдено статей: 9
  1. В статье рассматривается аппроксимация функции цены антагонистической дифференциальной игры с критерием, задаваемым условием минимизации некоторой величины вдоль реализовавшейся траектории, решениями стохастических игр с непрерывным временем и моментом остановки, управляемым одним из игроков. Отметим, что если в качестве вспомогательной игры выбрана стохастическая дифференциальная игра, то ее функция цены задается параболическим уравнением второй степени в частных производных с дополнительными ограничениями в форме неравенств, в то время как для случая вспомогательной игры с динамикой, задаваемой марковской цепью, функция цены определяется системой обыкновенных дифференциальных уравнений с дополнительными ограничениями. Развиваемый в статье метод аппроксимации основан на концепции стохастического поводыря, впервые предложенном в работах Н.Н. Красовского и А.Н. Котельниковой.

    The paper is concerned with the approximation of the value function of the zero-sum differential game with the minimal cost, i.e., the differential game with the payoff functional determined by the minimization of some quantity along the trajectory by the solutions of continuous-time stochastic games with the stopping governed by one player. Notice that the value function of the auxiliary continuous-time stochastic game is described by the Isaacs–Bellman equation with additional inequality constraints. The Isaacs–Bellman equation is a parabolic PDE for the case of stochastic differential game and it takes a form of system of ODEs for the case of continuous-time Markov game. The approximation developed in the paper is based on the concept of the stochastic guide first proposed by Krasovskii and Kotelnikova.

  2. В работе рассматривается задача Коши для системы квазилинейных уравнений первого порядка специального вида. Система представлена в симметричном виде, фазовая переменная n-мерная. Рассматриваемая задача Коши получается из задачи Коши для одного уравнения Гамильтона-Якоби-Беллмана с помощью операции дифференцирования этого уравнения и краевого условия по переменной xi. Предполагается, что гамильтониан и начальное условие принадлежат классу непрерывно дифференцируемых функций. Гамильтониан является выпуклым по сопряженной переменной.

    В работе предложен новый подход к определению обобщенного решения системы квазилинейных уравнений первого порядка. Обобщенное решение рассматривается в классе многозначных функций с выпуклыми компактными значениями. Доказаны теоремы существования, единственности и устойчивости решения по начальным данным. Получено полугрупповое свойство для введенного обобщенного решения. Показано, что потенциал для обобщенного решения системы квазилинейных уравнений совпадает с единственным минимаксным/вязкостным решением соответствующей задачи Коши для уравнения Гамильтона-Якоби-Беллмана, а в точках дифференцируемости минимаксного решения его градиент совпадает с обобщенным решением исходной задачи Коши. На основе этой связи получены свойства обобщенного решения задачи Коши для системы квазилинейных уравнений. В частности, показано, что введенное обобщенное решение совпадает с супердифференциалом минимаксного решения соответствующей задачи Коши и однозначно почти всюду.

    С помощью характеристик уравнения Гамильтона-Якоби-Беллмана описана структура множества точек, в которых минимаксное решение недифференцируемо.

    Показано, что свойство обобщенного решения для одного квазилинейного уравнения со скалярной фазовой переменной, введенное О.А. Олейник, может быть распространено на случай рассматриваемой системы квазилинейных уравнений.

    We consider the Cauchy problem for the system of quasi-linear first order equations of a special form. The system is symmetric, the state variable is n-dimensional. The considered Cauchy problem is deduced from the Cauchy problem for the Hamilton-Jacobi-Bellman equation by means of the operation of differentiation of this equation and the boundary condition with respect to the variable xi. It is assumed that the Hamiltonian and the initial condition are continuously differentiable functions. The Hamiltonian is convex with respect to the adjoint variable.

    The paper presents a new approach to the definition of the generalized solution of the system of quasi-linear first order equations. The generalized solution belongs to the class of multivalued functions with convex compact values. We prove the existence, uniqueness and stability theorems. The semigroup property for the proposed generalized solution is obtained. It is shown that the potential for generalized solutions of quasi-linear equations coincides with the unique minimax/viscosity solution of the corresponding Cauchy problem for the Hamilton-Jacobi-Bellman equation, and at the points of differentiability of the minimax solution its gradient coincides with the generalized solution of the Cauchy problem. Properties of the generalized solutions of the Cauchy problem for a system of quasi-linear equations are obtained on the basis of this connection. In particular, it is shown that the introduced generalized solution coincides with the superdifferential of the minimax solution of the Cauchy problem and is singlevalued almost everywhere.

    The structure of the set of points at which the minimax solution is not differentiable is described by using the characteristics of the Hamilton-Jacobi-Bellman equation.

    It is shown that the property of the generalized solution of the quasilinear equation with a scalar state variable proposed by O.A. Oleinik, can be extended to the case of the system of quasi-linear equations under consideration.

  3. Для конфликтно-управляемой динамической системы, описываемой функционально-дифференциальным уравнением нейтрального типа в форме Дж. Хейла, рассматривается дифференциальная игра с показателем качества, который оценивает историю движения, реализующуюся к терминальному моменту времени, а также включает интегральную оценку реализаций управлений игроков. Игра формализуется в классе чистых позиционных стратегий. На основе понятия коинвариантных производных для функционала цены этой игры выписывается функциональное уравнение Гамильтона-Якоби. Доказывается, во-первых, что решение этого уравнения, удовлетворяющее определенным условиям гладкости, является ценой исходной дифференциальной игры, а во-вторых, что цена в точках дифференцируемости удовлетворяет выписанному уравнению Гамильтона-Якоби. Таким образом, это уравнение можно трактовать как уравнение Гамильтона-Якоби-Айзекса-Беллмана для систем нейтрального типа.

    For a conflict-controlled dynamical system described by functional differential equations of neutral type in Hale’s form, we consider a differential game with a quality index that estimates the motion history realized up to the terminal time and includes an integral estimation of realizations of players’ controls. The game is formalized in the class of pure positional strategies. Based on a coinvariant derivatives conception we derive a Hamilton–Jacobi functional equation. It is proved, firstly, that the solution of this equation, satisfying certain conditions of smoothness, is the value of the initial differential game, and secondly, that value at points of differentiability satisfies the considered Hamilton–Jacobi equation. Thus this equation can be interpreted as the Hamilton-Jacobi-Isaacs-Bellman equation for neutral type systems.

  4. Рассматривается «аддитивная» задача последовательного обхода мегаполисов (непустых конечных множеств), при посещении которых выполняются некоторые работы; перемещения и выполняемые работы оцениваются функциями стоимости, допускающими зависимость от списка заданий. Имеются ограничения различных типов, среди которых выделяются условия предшествования, используемые «в положительном направлении» (в интересах снижения сложности вычислений). Кроме того, в постановке присутствуют динамические ограничения, формирующиеся по мере выполнения заданий. Исследуемая постановка ориентирована на инженерные приложения, связанные с листовой резкой на машинах с ЧПУ. Исследуется подход к построению оптимальных решений на основе нестандартной версии динамического программирования (ДП). В рамках данного подхода учитываются ограничения различных типов, включая динамические ограничения, естественно возникающие при листовой резке деталей (в частности учитываются тепловые допуски, связанные с надежным отводом тепла из окрестностей точек врезки). При этом допускается комбинация «прямых» запретов на перемещения и выполнение врезки, а также системы штрафов. В последнем случае типично возникают функции стоимости с зависимостью от списка заданий. Применяемый вариант ДП позволяет оптимизировать точку старта, маршрут, отождествляемый с перестановкой индексов, и трассу (траекторию), согласованную с данным маршрутом. На этапе построения функции Беллмана используется экономичный вариант ДП, при котором весь массив значений этой функции не насчитывается, а определяется только система ее слоев (при условиях предшествования, типичных для задачи, связанной с листовой резкой, это приводит к существенному снижению вычислительных затрат). На основе ДП построен оптимальный алгоритм, реализованный на ПЭВМ; приведены результаты вычислительного эксперимента.

    The “additive” problem of sequentially visiting megalopolises (nonempty finite sets) is considered; some tasks are executed as the megalopolises are visited. Permutations and operations are evaluated by cost functions that admit a dependence on the list of tasks. There are restrictions of different types, which include precedence conditions used in the “positive direction” (to reduce the complexity of calculations). In addition, this conception involves dynamical restrictions that are formed in the process of task execution. This conception is oriented to engineering applications associated with sheet cutting on CNC machines. An approach to constructing optimal solutions based on a nonstandard version of dynamic programming (DP) is investigated. This approach takes into account restrictions of different types, including dynamic constraints which naturally arise in sheet cutting applications (in particular, it takes into account heat tolerances related to diffusion of heat in the vicinities of tie-in points). In this regard, a combination of “direct” interdictions of movements and cutting and a system of penalties is allowed; in the latter case, cost functions with a dependence on the list of tasks arise. The variant of DP that is used allows one to optimize the selection of a starting point, the route, which is identified with a permutation of the indexes, and the trajectory corresponding to the above-mentioned route. An economical variant of DP is used at the stage of construction of the Bellman function. This conception allows avoiding calculation of the whole array of values of this function; instead, only the system of its layers is defined (in the case of using the precedence conditions, which are typical of the problem of sheet cutting, this conception results in a considerable reduction of calculation costs). An optimal DP-based algorithm is constructed and realized on PC, and the results of the computational experiment are presented.

  5. Рассматривается маршрутная задача о посещении сечений мультифункций с ограничениями в виде условий предшествования. Кроме того, по постановке предусматривается выполнение некоторых "работ" на упомянутых сечениях. Каждое решение определяется в виде упорядоченной пары, компоненты которой имеют смысл маршрута (перестановки индексов) и трассы (траектории) перемещений по сечениям мультифункций. Согласование трассы и маршрута реализуется на основе процедур последовательного выбора упорядоченных пар (пунктов прибытия и отправления) из декартовых "квадратов" сечений мультифункций, занумерованных в соответствии с маршрутом. Агрегирование стоимостей предполагается аддитивным; совокупный критерий включает стоимости (внешних) перемещений между сечениями мультифункций, внутренних "работ" и финального состояния. При построении расширения основной задачи, порождающего используемую далее функцию Беллмана, применяется эквивалентное преобразование ограничений: допустимость маршрутов по предшествованию заменяется допустимостью по вычеркиванию (заданий из списка), что соответствует варианту ограничений на текущие перемещения с одного множества на другое. Получен аналог уравнения Беллмана в виде процедуры преобразования слоёв функции Беллмана. Операция, определяющая данное преобразование, используется далее для построения эвристических алгоритмов, реализованных на ПЭВМ.

    Cheblokov I.B., Chentsov A.G.
    About one route problem with interior works, pp. 96-119

    The route problem about visiting of multifunction sections with constraints of type of preceding conditions is considered. By setting of this problem the fulfilment of works on the above-mentioned sections is provided. Any solution is defined in the form of the ordered pair for which components have the sense of the route (the index permutation) and the trace (trajectory) of the movements with respect to sections of multifunctions. The agreement of the trace and route is realized by procedures of the sequential choice of ordered pairs (the point of arrival and the starting point) of Descartes "squares" of the multifunction sections numbered in correspondence with a route. The cost aggregation is presupposed additive; the total criterion includes the costs of (exterior) movements between sections of multifunctions, interior works, and the final state. Under constructing of extension of the basic problem that realizes the used Bellman function, the equivalent transformation of constraints is applied: admissibility of routes by preceding is replaced onto admissibility by deletion of tasks (of the list) that corresponds to the constraints variant with respect to the current movements from one set onto another. An analog of the Bellman equation realized by procedure of the transformation of layers of Bellman function is obtained. The operation defining this transformation is further used for constructing of heuristic algorithms realized on PC.

  6. Рассматривается усложненный вариант задачи маршрутизации «на узкие места», а именно: исследуется задача последовательного обхода мегаполисов с условиями предшествования. Предполагается, что функции стоимости, а также «текущие» ограничения на выбор перемещений зависят от списка заданий, не выполненных на данный момент времени. Предложен вариант широко понимаемого динамического программирования, в рамках которого не предусматривается (при наличии условий предшествования) построение всего массива значений функции Беллмана; конструируются специальные слои упомянутой функции, реализующие в своей совокупности частичный (это способствует снижению вычислительной сложности) массив ее значений. На этой основе предлагается алгоритм определения значения задачи (глобального экстремума), при компьютерной реализации которого в памяти всякий раз находится только один слой функции Беллмана; найденное значение может использоваться при тестировании эвристик. Построен и реализован на ПЭВМ также оптимальный алгоритм «полного» решения маршрутной задачи, в рамках которого на этапе построения маршрута и трассы используются уже все слои функции Беллмана.

    A complicated variant of the “bottleneck problem” is considered, namely: the problem of sequential visiting of megalopolises with preceding constraints. It is supposed that costs functions and “current” constraints with respect to displacements selection depend on the tasks list which is not completed at the moment. The variant of widely understood dynamic programming is proposed, it doesn't foresee (with preceding conditions) construction of the whole array of the Bellman function values; the special layers of this function realizing in its totality the partial array of its values are constructed (it helps to decrease the calculation complexity). An algorithm of the problem value (global extremum) calculation is proposed, the computer realization of which implies the existence of only one layer of the Bellman function in a memory of computer; the obtained value may be used for the heuristics testing. The optimal algorithm of “complete” solving of the route problem is constructed, within which all layers of the Bellman function are used at the route and trace constructing.

  7. Рассматривается задача маршрутизации с условиями предшествования и функциями стоимости, зависящими от списка заданий, что отвечает потребностям инженерных приложений. В частности, упомянутые особенности имеются в постановках некоторых задач, возникающих в атомной энергетике и машиностроении. Исследуются вопросы, связанные с последовательным обходом мегаполисов и выполнением, при их посещении, некоторых (внутренних) работ. Предлагается процедура локального улучшения эвристических решений для задач ощутимой размерности, использующая вставки на основе динамического программирования. Последнее реализуется в виде варианта, не предусматривающего (при наличии условий предшествования) построение «полного» массива значений функции Беллмана. На этапе поиска локализации вставки предполагается ограничиваться вариантом беллмановской процедуры, доставляющей экстремум (локального) критерия без построения соответствующего решения в виде пары «маршрут-трасса». Более полная и более затратная в смысле ресурсов памяти процедура, включающая нахождение упомянутого (локально оптимального) решения, планируется после выбора локализации вставки.

    The route problem with precedence conditions and cost functions depending on the jobs list is considered; these singularities correspond to engineering applications. In particular, the above-mentioned singularities exist in statements of some problems arising in nuclear energetics and in machines with numerical control. Problems involved in sequentially circuiting megalopolises and in carrying out some (interior) work during these circuits are investigated. A procedure for local improvement of heuristic solutions for problems of perceptible dimension is proposed; this procedure exploits insertions on the dynamic programming base. Dynamic programming is realized in the form of a variant that does not provide for construction of a “full” array of values of the Bellman function. The search for localization of an insertion involves restricting to the variant of the Bellman procedure that realizes the extremum of the (local) criterion without constructing a corresponding solution in the form of a route-track pair. A more complete and more cost-intensive (in the sense of memory resources) procedure including determination of the above-mentioned (local optimal) solution is planned after the choice of the insertion localization.

  8. Исследование посвящено построению параллельного алгоритма решения задачи «на узкие места», связанного с поиском разбиения конечного множества заданий на конечное число исполнителей (работников). Описывается алгоритм нахождения оптимального разбиения заданий с использованием метода динамического программирования с элементами параллельных вычислений при построении массива значений функции Беллмана. Выполнена оценка вычислительной сложности двух алгоритмов (с использованием и без использования параллельной структуры). Создана программа, с помощью которой проведен вычислительный эксперимент по решению поставленной задачи на суперкомпьютере «УРАН». Выполнен сравнительный анализ реализации алгоритмов как с использованием, так и без использования параллельной структуры. Представлена зависимость времени счета реализованной программы на суперкомпьютере от количества вычислительных ядер.

    The aim of the study is to construct a parallel algorithm for solving a bottleneck (minmax) problem connected with partitioning a finite set of tasks between a finite number of agents. We describe the algorithm of finding an optimal partition of tasks through dynamic programming with a parallel computation of the Bellman function and provide a computational complexity estimate for the two algorithms (with and without the parallel construction). The algorithm was implemented for the Uran supercomputer, and a computational experiment was conducted; computation time was measured for the serial algorithm and for the parallel one on varying numbers of processor cores.

  9. Рассматривается нелинейная задача оптимального управления с функционалом типа Майера. Для определения класса функций, содержащих оптимальные управления, применен метод характеристик уравнения Беллмана.

    We consider nonlinear optimal control problems with the Mayer cost functionals. The method of characteristics for the Bellman equation is applied to describe classes of functions which contain optimal open-loop controls.

Журнал индексируется в Web of Science (Emerging Sources Citation Index)

Журнал индексируется в Scopus

Журнал входит в базы данных zbMATH, MathSciNet

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Журнал включен в перечень ВАК.

Электронная версия журнала на Общероссийском математическом портале Math-Net.Ru.

Журнал включен в Crossref