documentation/pages/terminology.md

140 lines
16 KiB
Markdown
Raw Normal View History

2025-03-10 12:12:33 +00:00
# Список терминов
2025-03-31 08:28:35 +00:00
**Apache Airflow** - открытое программное обеспечение для создания, выполнения, мониторинга и оркестровки потоков операций по обработке данных
**API** (Application Programming Interface) - набор функций и процедур, позволяющих обращаться к функциям или данным модуля или системы.
**AutoML** - автоматическое машинное обучение, процесс автоматизации сквозного процесса применения машинного обучения к реальным задачам
**CI/CD** - continuous integration continuous development, набор принципов и практик, позволяющих разработчикам чаще обновлять программное обеспечение и повышать надежность развертывания
**CPU** - Central Processing Unit, процессор, главная часть аппаратного обеспечения ЭВМ. Электронный блок или интегральная схема, выполняющая машинные инструкции
**DAG** - Directed Acyclic Graphs, направленный ациклический граф, основная концепция построения ETL процесса в Airflow
**Docker** - программное обеспечение для контейнеризации приложений для автоматизации развертывания и управления
**Dockerfile** - текстовый файл, содержащий набор инструкций для автоматизированной сборки Docker-образа, описывающий, какие шаги нужно выполнить для создания контейнера с необходимым окружением и приложением
**Docker-контейнер** - виртуальный блок, служащий для запуска приложений. Каждый контейнер содержит код, системные инструменты, библиотеки, зависимости и файлы конфигурации, необходимые для запуска приложения
**Docker-образ** - шаблон, из которого создаются Docker-контейнеры. Образ хранит в себе всё необходимое ПО для запуска приложения, помещенного в контейнер
**DSL** - domain-specific programming language
**Endpoint** - шлюз, который соединяет серверные процессы сервиса с внешним интерфейсом
**ENTRYPOINT** - инструкция в Dockerfile, которая задаёт команду или скрипт, который будет выполняться при запуске контейнера, позволяя определить основное поведение контейнера по умолчанию
**ETL** - Extract, Transform, Load, один из основных процессов в управлении хранилищами данных
**Fine-tuning** - процесс дообучения предварительно обученной модели на специализированных данных для улучшения ее производительности в конкретной задаче
**Forgejo** - бесплатная и открытая платформа для хостинга репозиториев Git, разворачивается локально
**GPU** - Graphical Processing Unit, графический процессор, отдельное устройство ЭВМ, производящее параллельные вычисления
**Grafana** - свободная программная система визуализации данных, ориентированная на данные систем ИТ-мониторинга
**GUI** (Graphical User Interface) - разновидность пользовательских интерфейсов, элементы которого выполнены в виде графических изображений
**IaaS** - Infrastructure as a Service, использование готовых настроенных сторонних вычислительных ресурсов (серверов, хранилищ, сервисов резервного копирования и др.)
**JSON** - текстовый формат для представления структурированных данных, основанный на подмножестве языка JavaScript. JSON является языконезависимым и используется для обмена данными между системами
**Jupyter** - интерактивный блокнот для работы с множеством сред исполнения. Традиционно используется специалистами по анализу данных
**Jupyter Notebook** - основной веб-интерфейс Jupyter. Также, отдельный файл блокнота Jupyter с набором исполняемых ячеек с программным кодом
**Kubernetes**, K8S - открытое программное обеспечение для автоматизации развертывания, масштабирования и координации приложений, помещенных в контейнеры
**ML** - machine learning, машинное обучение
**ML-компонент** - сервис, обрабатывающий синхронные запросы пользователей на произведение вычислений, требующих мало вычислительных ресурсов.
**MLOps** - Machine Learning Operations, практика разработки и поддержки решений в области машинного обучения, а также набор соответствующих методик и инструментов
2025-03-10 12:12:33 +00:00
**MLOps модуль** - элемент фреймворка, не решающий прикладную задачу самостоятельно, а направленный на улучшение или упрощение работы базовых модулей.
2025-03-31 08:28:35 +00:00
**Namespaces** - способ организации кластеров в виртуальные подкластеры, которые применяют, когда к кластеру K8s организован доступ нескольких команд со своими задачами
2025-03-10 12:12:33 +00:00
2025-03-31 08:28:35 +00:00
**NLP** - natural language processing, обработка естественного языка
**Node** - узел, машина в кластере K8s
**PaaS** - Platform as a Service, готовая платформа для решения определенного класса задач. Не подразумевает доступа пользователей к операционным системам и настройкам
**Pod** - под, группа контейнеров с общими разделами, которые запускаются как одно приложение
**Prometheus** - свободно распространяемое программное приложение, используемое для мониторинга и оповещения о событиях
**RESTful API** - API, доступный для подключения по протоколу HTTPS/1.1 и следующий стандарту RFC 9205 (REST)
2025-03-10 12:12:33 +00:00
2025-03-31 08:28:35 +00:00
**SaaS** - Software as a Service, инфраструктура и среды разработки и развертывания для IaaS и PaaS сервисов
**TPU** - Google Tensor Processing Unit, тензорный процессор, специализированная интегральная схема, предназначенная для использования библиотекой TensorFlow
**VictoriaMetrics** - свободно распространяемое ПО для мониторинга и база для хранения временных рядов
**Xcoms** - механизм Apache Airflow, позволяющий задачам взаимодействовать друг с другом
**YAML** - специальный язык для структурированной записи информации, часто применяется для описания конфигураций для инструментов DevOps
**Базовый модуль** - приложение, развёрнутое на фреймворке, и решающее прикладную задачу.
**БД** - база данных, упорядоченный набор структурированной информации или данных, которые обычно хранятся в электронном виде в компьютерной системе
**Генеративное моделирование** - методы иcкyccтвенного создания объектов (в том числе, текстовых фрагментов) с заданными pаcпpеделениями параметров объектов.
**Датасет** - dataset, набор данных, предназначенных для обучения, дообучения или тестирования модели машинного обучения
**Дашборд** - комплекс аналитических панелей с данными и разделов экранных форм, содержащих сведения в визуальном представлении
**ИИ** - искусственный интеллект, AI
**Инференс** - Inference, процесс применения обученной модели
**Карточка модуля** - метаданные программного модуля, доступные для пользователей модуля.
**Классификация** - метод отнесения объекта (документа, фрагмента текста, изображения, звукового сигнала) к одному или нескольким тематическим классам
**Манифест** - файл, содержащий декларативное описание объекта Kubernetes, такого как под, служба, развертывание и т. д. Манифесты обычно записываются в формате YAML или JSON и содержат все необходимые параметры для создания, управления и настройки объектов в кластере Kubernetes
**Метаданные** - информация о дpyгой информации, или данные, отноcящиеcя к дополнительной инфоации о cодеpжимом или объекте.
**Набор данных** - совокупность данных, прошедших предварительную подготовку (обработку), необходимых для разработки и/или применения программного обеспечения на основе искусственного интеллекта.
**Облако** - общепринятое сокращение для термина “облачные технологии”
**Облачные технологии** - технологии предоставления пользователям доступа к удаленному оборудованию, сервисам и программам
**Открытые данные** - информация, размещаемая ее обладателями в сети «Интернет» в формате, допускающем автоматизированную обработку без предварительных изменений человеком в целях повторного ее использования
2025-03-10 12:12:33 +00:00
**Пайплайн** - pipeline, сквозной процесс программной обработки набора данных несколькими программными модулями. Во фреймворке создаётся с помощью компонента ExperimentPipeline.
2025-03-31 08:28:35 +00:00
**Пользователь** - конечный пользователь базового модуля, не разработчик. Стороннее лицо, заинтересованное в решении прикладной задачи.
**Пояснения по расчетам** - сведения о выполненном расчете, используемых данных, версиях модулей.
**Программный модуль** - совокупность нескольких подпрограмм или классов, объединенных для решения общей задачи
**Разметка данных** - этап обработки структурированных и неструктурированных данных, в процессе которого данным (в том числе, текстовым документам, фото- и видеоизображениям) присваиваются идентификаторы, отражающие тип данных (классификация данных), и (или) осуществляется интерпретация данных для решения конкретной задачи, в том числе с использованием методов машинного обучения.
**Разработчик** - разработчик *модулей*, размещающий свои модули на фреймворке.
**Репозиторий** - мео, где xpанятcя и поддеpживаютcя какие-либо наборы данных, либо реализации программных модулей.
**Скрипт** - программа или пpогpаммный файл, которые автоматизируют некоторую задачy, кoтopyю пользователь делал бы вpyчнyю, либо используя интерфейс программы.
**Условия использования модуля** - лицензионное соглашение на предоставления прав использования программного модуля пользователями, в том числе ограничения на объем использования и условия дообучения и адаптации модуля.
**Утилита** - вспомогательная компьютерная программа для решения специализированных типовых задач
**Фреймворк** - программное обеспечение, облегчающее разработку и объединение разных компонентов большого программного проекта. Здесь конкретно фреймворк Центра ИИ
**Чувствительная информация**, чувствительные данные - любая конфиденциальная корпоративная или персональная информация, персональные медицинские данные, персональные данные о размере заработной плате, а также информация, раскрытие которой может привести к ощутимым убыткам компании или репутационному ущербу
**Ящик** - DataBox, пользовательский сетевой том долгосрочного хранения внутри фреймворка