documentation/pages/terminology.md

139 lines
16 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Список терминов
**Apache Airflow** - открытое программное обеспечение для создания, выполнения, мониторинга и оркестровки потоков операций по обработке данных
**API** (Application Programming Interface) - набор функций и процедур, позволяющих обращаться к функциям или данным модуля или системы.
**AutoML** - автоматическое машинное обучение, процесс автоматизации сквозного процесса применения машинного обучения к реальным задачам
**CI/CD** - continuous integration continuous development, набор принципов и практик, позволяющих разработчикам чаще обновлять программное обеспечение и повышать надежность развертывания
**CPU** - Central Processing Unit, процессор, главная часть аппаратного обеспечения ЭВМ. Электронный блок или интегральная схема, выполняющая машинные инструкции
**DAG** - Directed Acyclic Graphs, направленный ациклический граф, основная концепция построения ETL процесса в Airflow
**Docker** - программное обеспечение для контейнеризации приложений для автоматизации развертывания и управления
**Dockerfile** - текстовый файл, содержащий набор инструкций для автоматизированной сборки Docker-образа, описывающий, какие шаги нужно выполнить для создания контейнера с необходимым окружением и приложением
**Docker-контейнер** - виртуальный блок, служащий для запуска приложений. Каждый контейнер содержит код, системные инструменты, библиотеки, зависимости и файлы конфигурации, необходимые для запуска приложения
**Docker-образ** - шаблон, из которого создаются Docker-контейнеры. Образ хранит в себе всё необходимое ПО для запуска приложения, помещенного в контейнер
**DSL** - domain-specific programming language
**Endpoint** - шлюз, который соединяет серверные процессы сервиса с внешним интерфейсом
**ENTRYPOINT** - инструкция в Dockerfile, которая задаёт команду или скрипт, который будет выполняться при запуске контейнера, позволяя определить основное поведение контейнера по умолчанию
**ETL** - Extract, Transform, Load, один из основных процессов в управлении хранилищами данных
**Fine-tuning** - процесс дообучения предварительно обученной модели на специализированных данных для улучшения ее производительности в конкретной задаче
**Forgejo** - бесплатная и открытая платформа для хостинга репозиториев Git, разворачивается локально
**GPU** - Graphical Processing Unit, графический процессор, отдельное устройство ЭВМ, производящее параллельные вычисления
**Grafana** - свободная программная система визуализации данных, ориентированная на данные систем ИТ-мониторинга
**GUI** (Graphical User Interface) - разновидность пользовательских интерфейсов, элементы которого выполнены в виде графических изображений
**IaaS** - Infrastructure as a Service, использование готовых настроенных сторонних вычислительных ресурсов (серверов, хранилищ, сервисов резервного копирования и др.)
**JSON** - текстовый формат для представления структурированных данных, основанный на подмножестве языка JavaScript. JSON является языконезависимым и используется для обмена данными между системами
**Jupyter** - интерактивный блокнот для работы с множеством сред исполнения. Традиционно используется специалистами по анализу данных
**Jupyter Notebook** - основной веб-интерфейс Jupyter. Также, отдельный файл блокнота Jupyter с набором исполняемых ячеек с программным кодом
**Kubernetes**, K8S - открытое программное обеспечение для автоматизации развертывания, масштабирования и координации приложений, помещенных в контейнеры
**ML** - machine learning, машинное обучение
**ML-компонент** - сервис, обрабатывающий синхронные запросы пользователей на произведение вычислений, требующих мало вычислительных ресурсов.
**MLOps** - Machine Learning Operations, практика разработки и поддержки решений в области машинного обучения, а также набор соответствующих методик и инструментов
**MLOps модуль** - элемент фреймворка, не решающий прикладную задачу самостоятельно, а направленный на улучшение или упрощение работы базовых модулей.
**Namespaces** - способ организации кластеров в виртуальные подкластеры, которые применяют, когда к кластеру K8s организован доступ нескольких команд со своими задачами
**NLP** - natural language processing, обработка естественного языка
**Node** - узел, машина в кластере K8s
**PaaS** - Platform as a Service, готовая платформа для решения определенного класса задач. Не подразумевает доступа пользователей к операционным системам и настройкам
**Pod** - под, группа контейнеров с общими разделами, которые запускаются как одно приложение
**Prometheus** - свободно распространяемое программное приложение, используемое для мониторинга и оповещения о событиях
**RESTful API** - API, доступный для подключения по протоколу HTTPS/1.1 и следующий стандарту RFC 9205 (REST)
**SaaS** - Software as a Service, инфраструктура и среды разработки и развертывания для IaaS и PaaS сервисов
**TPU** - Google Tensor Processing Unit, тензорный процессор, специализированная интегральная схема, предназначенная для использования библиотекой TensorFlow
**VictoriaMetrics** - свободно распространяемое ПО для мониторинга и база для хранения временных рядов
**Xcoms** - механизм Apache Airflow, позволяющий задачам взаимодействовать друг с другом
**YAML** - специальный язык для структурированной записи информации, часто применяется для описания конфигураций для инструментов DevOps
**Базовый модуль** - приложение, развёрнутое на фреймворке, и решающее прикладную задачу.
**БД** - база данных, упорядоченный набор структурированной информации или данных, которые обычно хранятся в электронном виде в компьютерной системе
**Генеративное моделирование** - методы иcкyccтвенного создания объектов (в том числе, текстовых фрагментов) с заданными pаcпpеделениями параметров объектов.
**Датасет** - dataset, набор данных, предназначенных для обучения, дообучения или тестирования модели машинного обучения
**Дашборд** - комплекс аналитических панелей с данными и разделов экранных форм, содержащих сведения в визуальном представлении
**ИИ** - искусственный интеллект, AI
**Инференс** - Inference, процесс применения обученной модели
**Карточка модуля** - метаданные программного модуля, доступные для пользователей модуля.
**Классификация** - метод отнесения объекта (документа, фрагмента текста, изображения, звукового сигнала) к одному или нескольким тематическим классам
**Манифест** - файл, содержащий декларативное описание объекта Kubernetes, такого как под, служба, развертывание и т. д. Манифесты обычно записываются в формате YAML или JSON и содержат все необходимые параметры для создания, управления и настройки объектов в кластере Kubernetes
**Метаданные** - информация о дpyгой информации, или данные, отноcящиеcя к дополнительной инфоации о cодеpжимом или объекте.
**Набор данных** - совокупность данных, прошедших предварительную подготовку (обработку), необходимых для разработки и/или применения программного обеспечения на основе искусственного интеллекта.
**Облако** - общепринятое сокращение для термина “облачные технологии”
**Облачные технологии** - технологии предоставления пользователям доступа к удаленному оборудованию, сервисам и программам
**Открытые данные** - информация, размещаемая ее обладателями в сети «Интернет» в формате, допускающем автоматизированную обработку без предварительных изменений человеком в целях повторного ее использования
**Пайплайн** - pipeline, сквозной процесс программной обработки набора данных несколькими программными модулями. Во фреймворке создаётся с помощью компонента ExperimentPipeline.
**Пользователь** - конечный пользователь базового модуля, не разработчик. Стороннее лицо, заинтересованное в решении прикладной задачи.
**Пояснения по расчетам** - сведения о выполненном расчете, используемых данных, версиях модулей.
**Программный модуль** - совокупность нескольких подпрограмм или классов, объединенных для решения общей задачи
**Разметка данных** - этап обработки структурированных и неструктурированных данных, в процессе которого данным (в том числе, текстовым документам, фото- и видеоизображениям) присваиваются идентификаторы, отражающие тип данных (классификация данных), и (или) осуществляется интерпретация данных для решения конкретной задачи, в том числе с использованием методов машинного обучения.
**Разработчик** - разработчик *модулей*, размещающий свои модули на фреймворке.
**Репозиторий** - мео, где xpанятcя и поддеpживаютcя какие-либо наборы данных, либо реализации программных модулей.
**Скрипт** - программа или пpогpаммный файл, которые автоматизируют некоторую задачy, кoтopyю пользователь делал бы вpyчнyю, либо используя интерфейс программы.
**Условия использования модуля** - лицензионное соглашение на предоставления прав использования программного модуля пользователями, в том числе ограничения на объем использования и условия дообучения и адаптации модуля.
**Утилита** - вспомогательная компьютерная программа для решения специализированных типовых задач
**Фреймворк** - программное обеспечение, облегчающее разработку и объединение разных компонентов большого программного проекта. Здесь конкретно фреймворк Центра ИИ
**Чувствительная информация**, чувствительные данные - любая конфиденциальная корпоративная или персональная информация, персональные медицинские данные, персональные данные о размере заработной плате, а также информация, раскрытие которой может привести к ощутимым убыткам компании или репутационному ущербу
**Ящик** - DataBox, пользовательский сетевой том долгосрочного хранения внутри фреймворка