Семинар Математическое моделирование, 2022-11-10, Гостев И. М.

Job management in large computing systems based on AI elements Ivan M. Gostev Dr. tech. sciences, leading researcher IPTP RAS Managing the execution of tasks in a large computing system of special purpose is a complex problem associated with the need to distribute tasks among computing nodes in such a way that a number of conditions are met: - all tasks were carried out within the specified time of completion (ensuring directive deadlines); - it would be possible to execute one task in parallel on several computers (for example, if subtasks are independent of data); - there are many input streams of tasks that can have different laws of their arrival (uniform, exponential, Poisson, etc.); - The efficiency of such a complex should be maximum. That is, all calculators must be loaded at 100%; - to improve the efficiency of the system, if a solution to the problem is found in one of the subtasks, the execution of all the rest should be stopped; - in the absence of a solution to a certain task under given conditions, it should automatically restart with changed initial conditions; - if one of the calculators fails when solving some subtask, it restarts again. Obviously, the satisfaction of such conditions with a continuous flow of tasks and unpredictable laws of their arrival becomes very difficult. The use of such well-known schedulers as Shortest-Job-First (SJF), Shortest Remaining Time (SRT), Round Robin (RR), Multi-Level Feedback Queue (MLFQ), etc. becomes inefficient for various reasons explored earlier. The report considers a simulation model of a system that satisfies the set conditions on the base of the queuing theory. Управление заданиями в больших вычислительных системах на основе элементов ИИ Гостев И. М. докт. техн. наук, в.н.с. ИППИ РАН Управление выполнением задач в большой вычислительной системе специального назначения представляет собой сложную проблему, связанную с необходимостью распределения задач по вычислительным узлам так, чтобы выполнялись ряд условий: - все задачи выполнялись в рамках заданного времени выполнения (обеспечение директивных сроков выполнения); - существовала бы возможность выполнения одной задачи параллельно на нескольких вычислителях (например, при независимости подзадач по данным); - существует множество входных потоков задач, которые могут иметь различные законы их поступления (равномерный, экспоненциальный, пуассоновский и т.д.); - эффективность работы такого комплекса должна быть максимальной. То есть все вычислители должны быть загружены на 100%; - для повышения эффективности работы системы, в случае нахождения решения задачи в одной из подзадач, выполнение всех остальные должно быть прекращено; - в случае отсутствия решения некоторой задачи при заданных условиях, она должна автоматически перезапускаться с изменёнными начальными условиями; - при отказе одного из вычислителей при решении некоторой подзадачи, она повторно перезапускается. Очевидно, что удовлетворение таких условий при непрерывном потоке задач и непредсказуемых законов их поступления - становится весьма сложной. Использование таких хорошо известных планировщиков, как Shortest-Job-First (SJF), Shortest Remaining Time (SRT), Round Robin (RR), Multi-Level Feedback Queue (MLFQ) и др. становится неэффективным по разным причинам, исследованным ранее. В докладе рассматривается имитационная модель системы, удовлетворяющая поставленным условиям на основе теории массового обслуживания.
Back to Top