Разработчик модуля не может остановить свои задачи (пайплайны) #6

Open
opened 2025-03-17 07:40:35 +00:00 by gzhulikov · 1 comment
Owner

Сейчас если пайплайн запущен, его можно остановить, только удалив pod/job инструментами кубернетес с правами администратора.

Если разработчик запустил большой расчёт с ошибкой, его невозможно перезапустить (или если например в логах в середине расчёта стало видно, что loss = NaN).

Предполагается ли возможность останавливать свои пайплайны у разработчиков модулей?

Сейчас если пайплайн запущен, его можно остановить, только удалив pod/job инструментами кубернетес с правами администратора. Если разработчик запустил большой расчёт с ошибкой, его невозможно перезапустить (или если например в логах в середине расчёта стало видно, что loss = NaN). Предполагается ли возможность останавливать свои пайплайны у разработчиков модулей?
gzhulikov added the
question
label 2025-03-17 07:40:35 +00:00

Функция остановки не была реализована ранее.

Предполагаемое поведение системы при управлении пайплайнами следующее.

Функция управления пайплайнами

Пользователь приложения может через API стартовать выполнения пайплайна, настроенного разработчиком приложения, передать при запуске указанные входные данные и параметры настройки. Пользователь получает статус выполнения этапов пайплайна, получить результаты выполнения этапов пайплайна, остановить выполнение пайплайна по идентификатору запуска пайплайна.

Пользователь может получать сведения и управлять только запусками, сделанными с использованием тех же реквизитов доступа (логин).

При остановке этапа пайплайна, система уведомляет этап о необходимости остановки исполнения. Промежуточные результаты выполнения пайплайна достигнутые до остановки сохраняются и доступны пользователю через API пайплайна.

Остановка пайплайна производится без ожидания пользователем. Система устанавливает статус начала остановки, повторные запросы на остановку и результат ее завершения, успешная ли остановка.

Пользователь при остановке пайплайна может указать принудительную остановку, в этом случае система попытается принудительно остановить выполнение этапа. При принудительной остановке система может вернуть неактуальный статус.

Пользователь может запросить через API обновление фактических сведений о выполнении этапов пайплайна. Система при этом проверяет состояние исполнения каждого этапа в Kubernetes и вносит эти сведения времени исполнения в статус.

Уточнение статуса пайплайна

Статус пайплайна содержит сведения:

  • идентификатор запуска
  • дата и время формирования статуса
  • запуск, ошибки и завершение пайплайна
  • запуск, ошибки и завершение этапа
  • сведение о продолжении пайплайна в запуске следующего пайплайна и его идентификатор запуска
  • завершение и результаты проверки результатов пайплайна
  • начало остановки по требованию пользователя и результат такой остановки, в том числе повторные
  • краткие сообщения и промежуточных шагах исполнения этапа
  • результаты опроса состояния этапов времени исполнения (обновляется при повторном запросе)

Статус пайплайна дополняется новыми сведениями без удаления предыдущих. Повторые сведения вносятся в статус с новой датой и временем.

Функция остановки не была реализована ранее. Предполагаемое поведение системы при управлении пайплайнами следующее. **Функция управления пайплайнами** Пользователь приложения может через API стартовать выполнения пайплайна, настроенного разработчиком приложения, передать при запуске указанные входные данные и параметры настройки. Пользователь получает статус выполнения этапов пайплайна, получить результаты выполнения этапов пайплайна, остановить выполнение пайплайна по идентификатору запуска пайплайна. Пользователь может получать сведения и управлять только запусками, сделанными с использованием тех же реквизитов доступа (логин). При остановке этапа пайплайна, система уведомляет этап о необходимости остановки исполнения. Промежуточные результаты выполнения пайплайна достигнутые до остановки сохраняются и доступны пользователю через API пайплайна. Остановка пайплайна производится без ожидания пользователем. Система устанавливает статус начала остановки, повторные запросы на остановку и результат ее завершения, успешная ли остановка. Пользователь при остановке пайплайна может указать принудительную остановку, в этом случае система попытается принудительно остановить выполнение этапа. При принудительной остановке система может вернуть неактуальный статус. Пользователь может запросить через API обновление фактических сведений о выполнении этапов пайплайна. Система при этом проверяет состояние исполнения каждого этапа в Kubernetes и вносит эти сведения времени исполнения в статус. **Уточнение статуса пайплайна** Статус пайплайна содержит сведения: - идентификатор запуска - дата и время формирования статуса - запуск, ошибки и завершение пайплайна - запуск, ошибки и завершение этапа - сведение о продолжении пайплайна в запуске следующего пайплайна и его идентификатор запуска - завершение и результаты проверки результатов пайплайна - начало остановки по требованию пользователя и результат такой остановки, в том числе повторные - краткие сообщения и промежуточных шагах исполнения этапа - результаты опроса состояния этапов времени исполнения (обновляется при повторном запросе) Статус пайплайна дополняется новыми сведениями без удаления предыдущих. Повторые сведения вносятся в статус с новой датой и временем.
vpolezhaev added the
experiment-pipeline
label 2025-04-10 14:58:31 +00:00
Sign in to join this conversation.
No milestone
No project
No assignees
2 participants
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference: mlops_platform/documentation#6
No description provided.