documentation/pages/terminology.md

16 KiB
Raw Blame History

Список терминов

Apache Airflow - открытое программное обеспечение для создания, выполнения, мониторинга и оркестровки потоков операций по обработке данных

API (Application Programming Interface) - набор функций и процедур, позволяющих обращаться к функциям или данным модуля или системы.

AutoML - автоматическое машинное обучение, процесс автоматизации сквозного процесса применения машинного обучения к реальным задачам

CI/CD - continuous integration continuous development, набор принципов и практик, позволяющих разработчикам чаще обновлять программное обеспечение и повышать надежность развертывания

CPU - Central Processing Unit, процессор, главная часть аппаратного обеспечения ЭВМ. Электронный блок или интегральная схема, выполняющая машинные инструкции

DAG - Directed Acyclic Graphs, направленный ациклический граф, основная концепция построения ETL процесса в Airflow

Docker - программное обеспечение для контейнеризации приложений для автоматизации развертывания и управления

Dockerfile - текстовый файл, содержащий набор инструкций для автоматизированной сборки Docker-образа, описывающий, какие шаги нужно выполнить для создания контейнера с необходимым окружением и приложением

Docker-контейнер - виртуальный блок, служащий для запуска приложений. Каждый контейнер содержит код, системные инструменты, библиотеки, зависимости и файлы конфигурации, необходимые для запуска приложения

Docker-образ - шаблон, из которого создаются Docker-контейнеры. Образ хранит в себе всё необходимое ПО для запуска приложения, помещенного в контейнер

DSL - domain-specific programming language

Endpoint - шлюз, который соединяет серверные процессы сервиса с внешним интерфейсом

ENTRYPOINT - инструкция в Dockerfile, которая задаёт команду или скрипт, который будет выполняться при запуске контейнера, позволяя определить основное поведение контейнера по умолчанию

ETL - Extract, Transform, Load, один из основных процессов в управлении хранилищами данных

Fine-tuning - процесс дообучения предварительно обученной модели на специализированных данных для улучшения ее производительности в конкретной задаче

Forgejo - бесплатная и открытая платформа для хостинга репозиториев Git, разворачивается локально

GPU - Graphical Processing Unit, графический процессор, отдельное устройство ЭВМ, производящее параллельные вычисления

Grafana - свободная программная система визуализации данных, ориентированная на данные систем ИТ-мониторинга

GUI (Graphical User Interface) - разновидность пользовательских интерфейсов, элементы которого выполнены в виде графических изображений

IaaS - Infrastructure as a Service, использование готовых настроенных сторонних вычислительных ресурсов (серверов, хранилищ, сервисов резервного копирования и др.)

JSON - текстовый формат для представления структурированных данных, основанный на подмножестве языка JavaScript. JSON является языконезависимым и используется для обмена данными между системами

Jupyter - интерактивный блокнот для работы с множеством сред исполнения. Традиционно используется специалистами по анализу данных

Jupyter Notebook - основной веб-интерфейс Jupyter. Также, отдельный файл блокнота Jupyter с набором исполняемых ячеек с программным кодом

Kubernetes, K8S - открытое программное обеспечение для автоматизации развертывания, масштабирования и координации приложений, помещенных в контейнеры

ML - machine learning, машинное обучение

ML-компонент - сервис, обрабатывающий синхронные запросы пользователей на произведение вычислений, требующих мало вычислительных ресурсов.

MLOps - Machine Learning Operations, практика разработки и поддержки решений в области машинного обучения, а также набор соответствующих методик и инструментов

MLOps модуль - элемент фреймворка, не решающий прикладную задачу самостоятельно, а направленный на улучшение или упрощение работы базовых модулей.

Namespaces - способ организации кластеров в виртуальные подкластеры, которые применяют, когда к кластеру K8s организован доступ нескольких команд со своими задачами

NLP - natural language processing, обработка естественного языка

Node - узел, машина в кластере K8s

PaaS - Platform as a Service, готовая платформа для решения определенного класса задач. Не подразумевает доступа пользователей к операционным системам и настройкам

Pod - под, группа контейнеров с общими разделами, которые запускаются как одно приложение

Prometheus - свободно распространяемое программное приложение, используемое для мониторинга и оповещения о событиях

RESTful API - API, доступный для подключения по протоколу HTTPS/1.1 и следующий стандарту RFC 9205 (REST)

SaaS - Software as a Service, инфраструктура и среды разработки и развертывания для IaaS и PaaS сервисов

TPU - Google Tensor Processing Unit, тензорный процессор, специализированная интегральная схема, предназначенная для использования библиотекой TensorFlow

VictoriaMetrics - свободно распространяемое ПО для мониторинга и база для хранения временных рядов

Xcoms - механизм Apache Airflow, позволяющий задачам взаимодействовать друг с другом

YAML - специальный язык для структурированной записи информации, часто применяется для описания конфигураций для инструментов DevOps

Базовый модуль - приложение, развёрнутое на фреймворке, и решающее прикладную задачу.

БД - база данных, упорядоченный набор структурированной информации или данных, которые обычно хранятся в электронном виде в компьютерной системе

Генеративное моделирование - методы иcкyccтвенного создания объектов (в том числе, текстовых фрагментов) с заданными pаcпpеделениями параметров объектов.

Датасет - dataset, набор данных, предназначенных для обучения, дообучения или тестирования модели машинного обучения

Дашборд - комплекс аналитических панелей с данными и разделов экранных форм, содержащих сведения в визуальном представлении

ИИ - искусственный интеллект, AI

Инференс - Inference, процесс применения обученной модели

Карточка модуля - метаданные программного модуля, доступные для пользователей модуля.

Классификация - метод отнесения объекта (документа, фрагмента текста, изображения, звукового сигнала) к одному или нескольким тематическим классам

Манифест - файл, содержащий декларативное описание объекта Kubernetes, такого как под, служба, развертывание и т. д. Манифесты обычно записываются в формате YAML или JSON и содержат все необходимые параметры для создания, управления и настройки объектов в кластере Kubernetes

Метаданные - информация о дpyгой информации, или данные, отноcящиеcя к дополнительной инфоации о cодеpжимом или объекте.

Набор данных - совокупность данных, прошедших предварительную подготовку (обработку), необходимых для разработки и/или применения программного обеспечения на основе искусственного интеллекта.

Облако - общепринятое сокращение для термина “облачные технологии”

Облачные технологии - технологии предоставления пользователям доступа к удаленному оборудованию, сервисам и программам

Открытые данные - информация, размещаемая ее обладателями в сети «Интернет» в формате, допускающем автоматизированную обработку без предварительных изменений человеком в целях повторного ее использования

Пайплайн - pipeline, сквозной процесс программной обработки набора данных несколькими программными модулями. Во фреймворке создаётся с помощью компонента ExperimentPipeline.

Пользователь - конечный пользователь базового модуля, не разработчик. Стороннее лицо, заинтересованное в решении прикладной задачи.

Пояснения по расчетам - сведения о выполненном расчете, используемых данных, версиях модулей.

Программный модуль - совокупность нескольких подпрограмм или классов, объединенных для решения общей задачи

Разметка данных - этап обработки структурированных и неструктурированных данных, в процессе которого данным (в том числе, текстовым документам, фото- и видеоизображениям) присваиваются идентификаторы, отражающие тип данных (классификация данных), и (или) осуществляется интерпретация данных для решения конкретной задачи, в том числе с использованием методов машинного обучения.

Разработчик - разработчик модулей, размещающий свои модули на фреймворке.

Репозиторий - мео, где xpанятcя и поддеpживаютcя какие-либо наборы данных, либо реализации программных модулей.

Скрипт - программа или пpогpаммный файл, которые автоматизируют некоторую задачy, кoтopyю пользователь делал бы вpyчнyю, либо используя интерфейс программы.

Условия использования модуля - лицензионное соглашение на предоставления прав использования программного модуля пользователями, в том числе ограничения на объем использования и условия дообучения и адаптации модуля.

Утилита - вспомогательная компьютерная программа для решения специализированных типовых задач

Фреймворк - программное обеспечение, облегчающее разработку и объединение разных компонентов большого программного проекта. Здесь конкретно фреймворк Центра ИИ

Чувствительная информация, чувствительные данные - любая конфиденциальная корпоративная или персональная информация, персональные медицинские данные, персональные данные о размере заработной плате, а также информация, раскрытие которой может привести к ощутимым убыткам компании или репутационному ущербу

Ящик - DataBox, пользовательский сетевой том долгосрочного хранения внутри фреймворка