# Список терминов **Apache Airflow** - открытое программное обеспечение для создания, выполнения, мониторинга и оркестровки потоков операций по обработке данных **API** (Application Programming Interface) - набор функций и процедур, позволяющих обращаться к функциям или данным модуля или системы. **AutoML** - автоматическое машинное обучение, процесс автоматизации сквозного процесса применения машинного обучения к реальным задачам **CI/CD** - continuous integration continuous development, набор принципов и практик, позволяющих разработчикам чаще обновлять программное обеспечение и повышать надежность развертывания **CPU** - Central Processing Unit, процессор, главная часть аппаратного обеспечения ЭВМ. Электронный блок или интегральная схема, выполняющая машинные инструкции **DAG** - Directed Acyclic Graphs, направленный ациклический граф, основная концепция построения ETL процесса в Airflow **Docker** - программное обеспечение для контейнеризации приложений для автоматизации развертывания и управления **Dockerfile** - текстовый файл, содержащий набор инструкций для автоматизированной сборки Docker-образа, описывающий, какие шаги нужно выполнить для создания контейнера с необходимым окружением и приложением **Docker-контейнер** - виртуальный блок, служащий для запуска приложений. Каждый контейнер содержит код, системные инструменты, библиотеки, зависимости и файлы конфигурации, необходимые для запуска приложения **Docker-образ** - шаблон, из которого создаются Docker-контейнеры. Образ хранит в себе всё необходимое ПО для запуска приложения, помещенного в контейнер **DSL** - domain-specific programming language **Endpoint** - шлюз, который соединяет серверные процессы сервиса с внешним интерфейсом **ENTRYPOINT** - инструкция в Dockerfile, которая задаёт команду или скрипт, который будет выполняться при запуске контейнера, позволяя определить основное поведение контейнера по умолчанию **ETL** - Extract, Transform, Load, один из основных процессов в управлении хранилищами данных **Fine-tuning** - процесс дообучения предварительно обученной модели на специализированных данных для улучшения ее производительности в конкретной задаче **Forgejo** - бесплатная и открытая платформа для хостинга репозиториев Git, разворачивается локально **GPU** - Graphical Processing Unit, графический процессор, отдельное устройство ЭВМ, производящее параллельные вычисления **Grafana** - свободная программная система визуализации данных, ориентированная на данные систем ИТ-мониторинга **GUI** (Graphical User Interface) - разновидность пользовательских интерфейсов, элементы которого выполнены в виде графических изображений **IaaS** - Infrastructure as a Service, использование готовых настроенных сторонних вычислительных ресурсов (серверов, хранилищ, сервисов резервного копирования и др.) **JSON** - текстовый формат для представления структурированных данных, основанный на подмножестве языка JavaScript. JSON является языконезависимым и используется для обмена данными между системами **Jupyter** - интерактивный блокнот для работы с множеством сред исполнения. Традиционно используется специалистами по анализу данных **Jupyter Notebook** - основной веб-интерфейс Jupyter. Также, отдельный файл блокнота Jupyter с набором исполняемых ячеек с программным кодом **Kubernetes**, K8S - открытое программное обеспечение для автоматизации развертывания, масштабирования и координации приложений, помещенных в контейнеры **ML** - machine learning, машинное обучение **ML-компонент** - сервис, обрабатывающий синхронные запросы пользователей на произведение вычислений, требующих мало вычислительных ресурсов. **MLOps** - Machine Learning Operations, практика разработки и поддержки решений в области машинного обучения, а также набор соответствующих методик и инструментов **MLOps модуль** - элемент фреймворка, не решающий прикладную задачу самостоятельно, а направленный на улучшение или упрощение работы базовых модулей. **Namespaces** - способ организации кластеров в виртуальные подкластеры, которые применяют, когда к кластеру K8s организован доступ нескольких команд со своими задачами **NLP** - natural language processing, обработка естественного языка **Node** - узел, машина в кластере K8s **PaaS** - Platform as a Service, готовая платформа для решения определенного класса задач. Не подразумевает доступа пользователей к операционным системам и настройкам **Pod** - под, группа контейнеров с общими разделами, которые запускаются как одно приложение **Prometheus** - свободно распространяемое программное приложение, используемое для мониторинга и оповещения о событиях **RESTful API** - API, доступный для подключения по протоколу HTTPS/1.1 и следующий стандарту RFC 9205 (REST) **SaaS** - Software as a Service, инфраструктура и среды разработки и развертывания для IaaS и PaaS сервисов **TPU** - Google Tensor Processing Unit, тензорный процессор, специализированная интегральная схема, предназначенная для использования библиотекой TensorFlow **VictoriaMetrics** - свободно распространяемое ПО для мониторинга и база для хранения временных рядов **Xcoms** - механизм Apache Airflow, позволяющий задачам взаимодействовать друг с другом **YAML** - специальный язык для структурированной записи информации, часто применяется для описания конфигураций для инструментов DevOps **Базовый модуль** - приложение, развёрнутое на фреймворке, и решающее прикладную задачу. **БД** - база данных, упорядоченный набор структурированной информации или данных, которые обычно хранятся в электронном виде в компьютерной системе **Генеративное моделирование** - методы иcкyccтвенного создания объектов (в том числе, текстовых фрагментов) с заданными pаcпpеделениями параметров объектов. **Датасет** - dataset, набор данных, предназначенных для обучения, дообучения или тестирования модели машинного обучения **Дашборд** - комплекс аналитических панелей с данными и разделов экранных форм, содержащих сведения в визуальном представлении **ИИ** - искусственный интеллект, AI **Инференс** - Inference, процесс применения обученной модели **Карточка модуля** - метаданные программного модуля, доступные для пользователей модуля. **Классификация** - метод отнесения объекта (документа, фрагмента текста, изображения, звукового сигнала) к одному или нескольким тематическим классам **Манифест** - файл, содержащий декларативное описание объекта Kubernetes, такого как под, служба, развертывание и т. д. Манифесты обычно записываются в формате YAML или JSON и содержат все необходимые параметры для создания, управления и настройки объектов в кластере Kubernetes **Метаданные** - информация о дpyгой информации, или данные, отноcящиеcя к дополнительной инфоpмации о cодеpжимом или объекте. **Набор данных** - совокупность данных, прошедших предварительную подготовку (обработку), необходимых для разработки и/или применения программного обеспечения на основе искусственного интеллекта. **Облако** - общепринятое сокращение для термина “облачные технологии” **Облачные технологии** - технологии предоставления пользователям доступа к удаленному оборудованию, сервисам и программам **Открытые данные** - информация, размещаемая ее обладателями в сети «Интернет» в формате, допускающем автоматизированную обработку без предварительных изменений человеком в целях повторного ее использования **Пайплайн** - pipeline, сквозной процесс программной обработки набора данных несколькими программными модулями. Во фреймворке создаётся с помощью компонента ExperimentPipeline. **Пользователь** - конечный пользователь базового модуля, не разработчик. Стороннее лицо, заинтересованное в решении прикладной задачи. **Пояснения по расчетам** - сведения о выполненном расчете, используемых данных, версиях модулей. **Программный модуль** - совокупность нескольких подпрограмм или классов, объединенных для решения общей задачи **Разметка данных** - этап обработки структурированных и неструктурированных данных, в процессе которого данным (в том числе, текстовым документам, фото- и видеоизображениям) присваиваются идентификаторы, отражающие тип данных (классификация данных), и (или) осуществляется интерпретация данных для решения конкретной задачи, в том числе с использованием методов машинного обучения. **Разработчик** - разработчик *модулей*, размещающий свои модули на фреймворке. **Репозиторий** - меcто, где xpанятcя и поддеpживаютcя какие-либо наборы данных, либо реализации программных модулей. **Скрипт** - программа или пpогpаммный файл, которые автоматизируют некоторую задачy, кoтopyю пользователь делал бы вpyчнyю, либо используя интерфейс программы. **Условия использования модуля** - лицензионное соглашение на предоставления прав использования программного модуля пользователями, в том числе ограничения на объем использования и условия дообучения и адаптации модуля. **Утилита** - вспомогательная компьютерная программа для решения специализированных типовых задач **Фреймворк** - программное обеспечение, облегчающее разработку и объединение разных компонентов большого программного проекта. Здесь – конкретно фреймворк Центра ИИ **Чувствительная информация**, чувствительные данные - любая конфиденциальная корпоративная или персональная информация, персональные медицинские данные, персональные данные о размере заработной плате, а также информация, раскрытие которой может привести к ощутимым убыткам компании или репутационному ущербу **Ящик** - DataBox, пользовательский сетевой том долгосрочного хранения внутри фреймворка