16 KiB
Список терминов
Apache Airflow - открытое программное обеспечение для создания, выполнения, мониторинга и оркестровки потоков операций по обработке данных
API (Application Programming Interface) - набор функций и процедур, позволяющих обращаться к функциям или данным модуля или системы.
AutoML - автоматическое машинное обучение, процесс автоматизации сквозного процесса применения машинного обучения к реальным задачам
CI/CD - continuous integration continuous development, набор принципов и практик, позволяющих разработчикам чаще обновлять программное обеспечение и повышать надежность развертывания
CPU - Central Processing Unit, процессор, главная часть аппаратного обеспечения ЭВМ. Электронный блок или интегральная схема, выполняющая машинные инструкции
DAG - Directed Acyclic Graphs, направленный ациклический граф, основная концепция построения ETL процесса в Airflow
Docker - программное обеспечение для контейнеризации приложений для автоматизации развертывания и управления
Dockerfile - текстовый файл, содержащий набор инструкций для автоматизированной сборки Docker-образа, описывающий, какие шаги нужно выполнить для создания контейнера с необходимым окружением и приложением
Docker-контейнер - виртуальный блок, служащий для запуска приложений. Каждый контейнер содержит код, системные инструменты, библиотеки, зависимости и файлы конфигурации, необходимые для запуска приложения
Docker-образ - шаблон, из которого создаются Docker-контейнеры. Образ хранит в себе всё необходимое ПО для запуска приложения, помещенного в контейнер
DSL - domain-specific programming language
Endpoint - шлюз, который соединяет серверные процессы сервиса с внешним интерфейсом
ENTRYPOINT - инструкция в Dockerfile, которая задаёт команду или скрипт, который будет выполняться при запуске контейнера, позволяя определить основное поведение контейнера по умолчанию
ETL - Extract, Transform, Load, один из основных процессов в управлении хранилищами данных
Fine-tuning - процесс дообучения предварительно обученной модели на специализированных данных для улучшения ее производительности в конкретной задаче
Forgejo - бесплатная и открытая платформа для хостинга репозиториев Git, разворачивается локально
GPU - Graphical Processing Unit, графический процессор, отдельное устройство ЭВМ, производящее параллельные вычисления
Grafana - свободная программная система визуализации данных, ориентированная на данные систем ИТ-мониторинга
GUI (Graphical User Interface) - разновидность пользовательских интерфейсов, элементы которого выполнены в виде графических изображений
IaaS - Infrastructure as a Service, использование готовых настроенных сторонних вычислительных ресурсов (серверов, хранилищ, сервисов резервного копирования и др.)
JSON - текстовый формат для представления структурированных данных, основанный на подмножестве языка JavaScript. JSON является языконезависимым и используется для обмена данными между системами
Jupyter - интерактивный блокнот для работы с множеством сред исполнения. Традиционно используется специалистами по анализу данных
Jupyter Notebook - основной веб-интерфейс Jupyter. Также, отдельный файл блокнота Jupyter с набором исполняемых ячеек с программным кодом
Kubernetes, K8S - открытое программное обеспечение для автоматизации развертывания, масштабирования и координации приложений, помещенных в контейнеры
ML - machine learning, машинное обучение
ML-компонент - сервис, обрабатывающий синхронные запросы пользователей на произведение вычислений, требующих мало вычислительных ресурсов.
MLOps - Machine Learning Operations, практика разработки и поддержки решений в области машинного обучения, а также набор соответствующих методик и инструментов
MLOps модуль - элемент фреймворка, не решающий прикладную задачу самостоятельно, а направленный на улучшение или упрощение работы базовых модулей.
Namespaces - способ организации кластеров в виртуальные подкластеры, которые применяют, когда к кластеру K8s организован доступ нескольких команд со своими задачами
NLP - natural language processing, обработка естественного языка
Node - узел, машина в кластере K8s
PaaS - Platform as a Service, готовая платформа для решения определенного класса задач. Не подразумевает доступа пользователей к операционным системам и настройкам
Pod - под, группа контейнеров с общими разделами, которые запускаются как одно приложение
Prometheus - свободно распространяемое программное приложение, используемое для мониторинга и оповещения о событиях
RESTful API - API, доступный для подключения по протоколу HTTPS/1.1 и следующий стандарту RFC 9205 (REST)
SaaS - Software as a Service, инфраструктура и среды разработки и развертывания для IaaS и PaaS сервисов
TPU - Google Tensor Processing Unit, тензорный процессор, специализированная интегральная схема, предназначенная для использования библиотекой TensorFlow
VictoriaMetrics - свободно распространяемое ПО для мониторинга и база для хранения временных рядов
Xcoms - механизм Apache Airflow, позволяющий задачам взаимодействовать друг с другом
YAML - специальный язык для структурированной записи информации, часто применяется для описания конфигураций для инструментов DevOps
Базовый модуль - приложение, развёрнутое на фреймворке, и решающее прикладную задачу.
БД - база данных, упорядоченный набор структурированной информации или данных, которые обычно хранятся в электронном виде в компьютерной системе
Генеративное моделирование - методы иcкyccтвенного создания объектов (в том числе, текстовых фрагментов) с заданными pаcпpеделениями параметров объектов.
Датасет - dataset, набор данных, предназначенных для обучения, дообучения или тестирования модели машинного обучения
Дашборд - комплекс аналитических панелей с данными и разделов экранных форм, содержащих сведения в визуальном представлении
ИИ - искусственный интеллект, AI
Инференс - Inference, процесс применения обученной модели
Карточка модуля - метаданные программного модуля, доступные для пользователей модуля.
Классификация - метод отнесения объекта (документа, фрагмента текста, изображения, звукового сигнала) к одному или нескольким тематическим классам
Манифест - файл, содержащий декларативное описание объекта Kubernetes, такого как под, служба, развертывание и т. д. Манифесты обычно записываются в формате YAML или JSON и содержат все необходимые параметры для создания, управления и настройки объектов в кластере Kubernetes
Метаданные - информация о дpyгой информации, или данные, отноcящиеcя к дополнительной инфоpмации о cодеpжимом или объекте.
Набор данных - совокупность данных, прошедших предварительную подготовку (обработку), необходимых для разработки и/или применения программного обеспечения на основе искусственного интеллекта.
Облако - общепринятое сокращение для термина “облачные технологии”
Облачные технологии - технологии предоставления пользователям доступа к удаленному оборудованию, сервисам и программам
Открытые данные - информация, размещаемая ее обладателями в сети «Интернет» в формате, допускающем автоматизированную обработку без предварительных изменений человеком в целях повторного ее использования
Пайплайн - pipeline, сквозной процесс программной обработки набора данных несколькими программными модулями. Во фреймворке создаётся с помощью компонента ExperimentPipeline.
Пользователь - конечный пользователь базового модуля, не разработчик. Стороннее лицо, заинтересованное в решении прикладной задачи.
Пояснения по расчетам - сведения о выполненном расчете, используемых данных, версиях модулей.
Программный модуль - совокупность нескольких подпрограмм или классов, объединенных для решения общей задачи
Разметка данных - этап обработки структурированных и неструктурированных данных, в процессе которого данным (в том числе, текстовым документам, фото- и видеоизображениям) присваиваются идентификаторы, отражающие тип данных (классификация данных), и (или) осуществляется интерпретация данных для решения конкретной задачи, в том числе с использованием методов машинного обучения.
Разработчик - разработчик модулей, размещающий свои модули на фреймворке.
Репозиторий - меcто, где xpанятcя и поддеpживаютcя какие-либо наборы данных, либо реализации программных модулей.
Скрипт - программа или пpогpаммный файл, которые автоматизируют некоторую задачy, кoтopyю пользователь делал бы вpyчнyю, либо используя интерфейс программы.
Условия использования модуля - лицензионное соглашение на предоставления прав использования программного модуля пользователями, в том числе ограничения на объем использования и условия дообучения и адаптации модуля.
Утилита - вспомогательная компьютерная программа для решения специализированных типовых задач
Фреймворк - программное обеспечение, облегчающее разработку и объединение разных компонентов большого программного проекта. Здесь – конкретно фреймворк Центра ИИ
Чувствительная информация, чувствительные данные - любая конфиденциальная корпоративная или персональная информация, персональные медицинские данные, персональные данные о размере заработной плате, а также информация, раскрытие которой может привести к ощутимым убыткам компании или репутационному ущербу
Ящик - DataBox, пользовательский сетевой том долгосрочного хранения внутри фреймворка