Разработчик модуля не может остановить свои задачи (пайплайны) #6
Labels
No labels
api-component
bug
catalogue
complex-pipeline
consistency
databox
documentation
duplicate
experiment-pipeline
files
invalid
ml-component
platform-app
question
rel:0.3.10
rel:0.3.11
rel:0.3.12
rel:0.3.8
rel:0.3.8.dev2
rel:0.3.9
security
status: fixed
No milestone
No project
No assignees
2 participants
Notifications
Due date
No due date set.
Dependencies
No dependencies set.
Reference: mlops_platform/documentation#6
Loading…
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Сейчас если пайплайн запущен, его можно остановить, только удалив pod/job инструментами кубернетес с правами администратора.
Если разработчик запустил большой расчёт с ошибкой, его невозможно перезапустить (или если например в логах в середине расчёта стало видно, что loss = NaN).
Предполагается ли возможность останавливать свои пайплайны у разработчиков модулей?
Функция остановки не была реализована ранее.
Предполагаемое поведение системы при управлении пайплайнами следующее.
Функция управления пайплайнами
Пользователь приложения может через API стартовать выполнения пайплайна, настроенного разработчиком приложения, передать при запуске указанные входные данные и параметры настройки. Пользователь получает статус выполнения этапов пайплайна, получить результаты выполнения этапов пайплайна, остановить выполнение пайплайна по идентификатору запуска пайплайна.
Пользователь может получать сведения и управлять только запусками, сделанными с использованием тех же реквизитов доступа (логин).
При остановке этапа пайплайна, система уведомляет этап о необходимости остановки исполнения. Промежуточные результаты выполнения пайплайна достигнутые до остановки сохраняются и доступны пользователю через API пайплайна.
Остановка пайплайна производится без ожидания пользователем. Система устанавливает статус начала остановки, повторные запросы на остановку и результат ее завершения, успешная ли остановка.
Пользователь при остановке пайплайна может указать принудительную остановку, в этом случае система попытается принудительно остановить выполнение этапа. При принудительной остановке система может вернуть неактуальный статус.
Пользователь может запросить через API обновление фактических сведений о выполнении этапов пайплайна. Система при этом проверяет состояние исполнения каждого этапа в Kubernetes и вносит эти сведения времени исполнения в статус.
Уточнение статуса пайплайна
Статус пайплайна содержит сведения:
Статус пайплайна дополняется новыми сведениями без удаления предыдущих. Повторые сведения вносятся в статус с новой датой и временем.