Глоссарий BI DWH

5C

Система организации рабочего места / пространства, состоящая из 5-ти последовательных шагов (начинающихся с буквы C): Создание своих мест, Сортировка, Содержание в чистоте, Стандартизация, Совершенствование.

Access Management

Управление доступом - дисциплина, которая фокусируется на обеспечении того, чтобы только утвержденные роли могли создавать, читать, обновлять или удалять данные и только с использованием соответствующих и контролируемых методов. Программы управления данными часто фокусируются на поддержке управления доступом путем согласования требований и ограничений, связанных с управлением, управлением рисками, соблюдением, безопасностью и защитой конфиденциальности.

Access to Data

Доступ к данным - возможность пользователей к получению необходимых данных с учетом их роли, полномочий и потребностей. Процесс предоставления доступа должен быть безопасным, управляемым и соответствовать политике конфиденциальности и нормативным требованиям.
Ключевые аспекты:

• определение ролевой модели и прав доступа для пользователей;
• управление и контроль доступом к данным;
• удобство и скорость получения доступа;
• мониторинг и аудит доступа к данным.

ACID

Акроним был придуман в начале 1980-х годов как необходимое ограничение для достижения надежности в рамках транзакций базы данных:

• Atomicity - атомарность: или выполняются все операции или ни одна из них не выполняется; если одна часть транзакции терпит неудачу, то вся транзакция терпит неудачу;
• Consistency - согласованность: транзакция должна соответствовать всем правилам, определенным системой в любое время, и должна не допускать завершенных наполовину транзакций;
• Isolation - изоляция: каждая транзакция независима сама по себе;
• Durability - долговечность: транзакция не может быть отменена после завершения.

Activity Diagram

Диаграмма взаимодействия - аналитическая модель, которая позволяет динамически представить систему, посредством изображения потока процессов от одной функции к другой. Схожа с блок-схемой.

Additive Measure

Аддитивная мера - фактический показатель, который можно суммировать вдоль всех измерений.

Ad hoc Analysis

Произвольный спонтанный анализ с использованием не предопределенных заранее запросов, анализ-"прострел". Такой анализ характерен для продвинутых бизнес-пользователей хранилищ и витрин данных.

Ad hoc Query

Незапланированный запрос информации из базы данных, который обычно создается и запускается по мере текущей необходимости и не может быть предусмотрен заранее. Как правило, это выражение на языке запросов SQL, которое создается подготовленным пользователем непосредственно или с помощью графического инструмента доступа к данным.

Advanced Analytics

Продвинутая аналитика - автономное или полуавтономное исследование данных или контента с использованием сложных методов и инструментов, обычно выходящих за рамки традиционной бизнес-аналитики. Она часто основана на ML, чтобы обнаружить более глубокие идеи, сделать прогнозы или сформировать рекомендации. Продвинутые методы аналитики включают такие методы, как интеллектуальный анализ данных / текста, машинное обучение, сопоставление шаблонов, прогнозирование, визуализация, семантический анализ, анализ настроений, сетевой и кластерный анализ, многомерная статистика, анализ графиков, моделирование, обработка сложных событий, нейронные сети.

Технология автоматического либо полуавтоматического изучения данных и способа их интерпретации, работающая с большими массивами данных и позволяющая решать задачи поиска точек роста, идентифицировать тенденции, прогнозировать, оценивать вероятности потенциальных событий.

Aggregation

Агрегирование - процесс преобразования данных с высокой степенью детализации к более обобщенному их представлению, заключающийся в расчете так называемых агрегатов - значений, получаемых в результате применения преобразования к некоторому набору фактов, связанных с определенными измерениями. Чаще всего используется простое суммирование, вычисление среднего, выбор максимального/минимального значений.

Affinity Analysis

Метод анализа данных для поиска связей между двумя или более событиями (объектами анализа) тем, что они происходят в относительно один и тот же момент времени, например, анализ потребительской корзины (Market Basket Analysis), целью которого является определение, какие из товаров с большой вероятностью покупаются вместе.

Analytical Data

Аналитические данные - Данные, полученные и обработанные из основных, транзакционных и справочных данных с использованием специальных методов и инструментов и использующие для принятия решений в организации.

Anchor Modeling

Якорная модель данных подходит для информации, которая изменяется с течением времени как в структуре, так и в содержании. Эта модель имеет четыре основных понятия: якоря, атрибуты, связи и узлы. Якоря отражают сущности и события, атрибуты - свойства якорей, связи формируют отношения между якорями, а узлы используются для моделирования общих свойств, таких как состояния.

Anonymisation

Анонимизация - процесс необратимого шифрования или удаления личной информации из наборов данных.

API (Application Programming Interface)

Интерфейс прикладного программирования - набор интерфейсных функций, процедур, предоставляемый для других (внешних) разработчиков для развития функционала приложения или обеспечения возможности интеграции с приложением.

Artifact

Артефакт - явление, процесс, предмет, свойство предмета или процесса, возникновение которого в наблюдаемых условиях невозможно или маловероятно по естественным причинам. Следовательно, его возникновение служит признаком целенаправленного вмешательства в наблюдаемый процесс или наличия некоторых неучтенных факторов.

Artificial Intelligence

Искусственный интеллект (ИИ) - направление в компьютерной науке, относящееся к развитию систем обработки данных, которые выполняют функции, обычно связываемые с человеческим интеллектом, в частности, такие функции, как рассуждение, обучение и самосовершенствование.
Как научная дисциплина, ИИ включает в себя несколько подходов и методов, таких как машинное обучение (из которых глубокое обучение и обучение с подкреплением являются конкретными примерами), машинное мышление (которое включает планирование, планирование, представление знаний и рассуждение, поиск и оптимизацию) и робототехника (которая включает в себя управление, восприятие, датчики и исполнительные механизмы, а также интеграция всех других методов в киберфизические системы)

Asset Management Software

Программное обеспечение по управлению активами используется для инвентаризации систем, описания их контента и отслеживания связей между ними. Эти инструменты помогают учитывать лицензии на программное обеспечение, собирать данные, метаданные об активах, которые могут быть использованы для минимизации затрат.

Atomic Data

Атомарные данные - это атрибуты, которые хранят единственное значение и не являются ни списком, ни множеством значений. Это такие данные, разделение которых на составляющие приведет к потере их смысла с точки зрения решаемой задачи.

Audit Trail

Аудиторский след - запись, которая может быть интерпретирована аудиторами, чтобы установить, что действие имело место. Хронологическая запись деятельности системы для того, чтобы включить реконструкцию и рассмотрение последовательности событий и/или изменений в событии. Аудит использования системных ресурсов может включать логин пользователя, доступ к файлам и триггеры, указывающие на фактические или попытки нарушения безопасности.

Bandwidth

Пропускная способность - скорость, с которой данные могут передаваться между компьютерами.

Batch Calculation

Пакетные вычисления - выполнение вычислений над данными DWH, не требующих интерактивного взаимодействия с пользователем. Как правило, пакетные вычисления выполняются для агрегации данных, расчета производных показателей, выполнения регламентных отчетов.

Batch Window

Окно загрузки - промежуток времени, в течение которого возможна загрузка данных из оперативных систем в хранилище данных. Зависит от многих факторов, в частности, от режима работы предприятия. Как правило, это технологическое окно, время наименьшей активности, например, в ночное время.

BI (Business Intelligence)

Совокупность процессов, методов, инструментов, программного обеспечения, предназначенных для предоставления сотрудникам (процессам) организации качественной, достоверной и своевременной информации для принятия стратегических и тактических решений.

Big Data

Большие данные обычно относятся к технологическим разработкам, связанным со сбором, хранением, анализом и применением данных. Они характеризуются увеличением объема, скорости и разнообразия производимых данных и обычно относятся (но не ограничиваются) к данным из интернета. Повышенная изменчивость в отношении согласованности данных с течением времени, достоверность в отношении точности и качества данных, а также сложность с точки зрения того, как связать несколько наборов данных, являются характеристиками больших данных.

Bitmap Index

В реляционной СУБД - индекс, использующий битовые карты для индексирования данных. Данный вид индекса хорошо повышает производительность для запросов, в которых участвуют столбцы со сравнительно небольшим количеством уникальных значений, особенно, если над проиндексированными этим типом индекса столбцами выполняются логические операции (и, или, не). Данный тип индекса помогает при соединении таблиц измерений с таблицами фактов в схеме Star Schema. Недостатком этого типа индекса является снижение производительности при частых обновлениях исходных таблиц.

Brainstorming

Мозговой штурм - оперативный метод решения проблемы на основе стимулирования творческой активности, когда участники обсуждения высказывают возможно большее количество вариантов решения, в том числе самых экзотических. Далее из общего числа озвученных идей выбираются наиболее удачные, которые могут быть воплощены на практике. Это метод экспертного оценивания.

Bridge Table

Вспомогательная таблица - в проектировании схем "звезда" (Star Schema), таблица с составным первичным ключом, предназначенная для связи таблицы измерения с таблицей фактов в тех случаях, когда простого внешнего ключа (Foreign Key) недостаточно для выражения сложных взаимоотношений (связи многие ко многим) между измерением и фактами, например, в случае моделирования причин и фактов покупок. Этот тип таблицы также называют associative table или helper table. Таблица, разрешающая отношения "многие ко многим" между двумя другими таблицами.

BSC (Balanced Scorecard)

Сбалансированная система показателей - согласованная иерархическая структура, состоящая из всех KPI в совокупности относительно выбранной системы.

Bulk Data Transfer

Массовая передача данных - программный механизм, предназначенный для передачи, загрузки больших объемов данных / больших файлов, поддерживая сжатие, блокировку и буферизацию, чтобы сократить время ожидания.

Business Glossary

Бизнес-глоссарий устанавливает общее понимание терминов в организации, определяет бизнес-термины для понимания человеком. Это единая лексика внутри организации; оформляется в виде алфавитного списка терминов и их определений, может содержать: аббревиатуры, синонимы, описания бизнес-правил.
А словарь данных (Data Dictionary) представляет собой набор метаданных об объектах данных, собранных для понимания системы.
Иерархический словарь данных, в котором структурированно хранится информация об атрибутах данных, требованиях к ним, к проверкам их качества, фиксируется назначение ответственного за данные.

Business Process

Бизнес-процесс - система последовательных, целенаправленных и регламентированных видов деятельности, в которой посредством управляющего воздействия и при поддержке определенных ресурсов входы процесса преобразуются в выходы (результаты), представляющие ценность для потребителей. Главное свойство бизнес-процесса - он состоит из конечной и взаимосвязанной последовательности действий, которая определяется отношениями, мотивами, ограничениями и ресурсами внутри конечного множества субъектов и объектов, объединяющихся в систему с целью получения конкретного результата, отчуждаемого или потребляемого ей же самой.

Business Rule

Бизнес-правило - политика, предписание, стандарт, правило или вычислительная формула, определяющая или ограничивающая некоторые стороны бизнес-процессов.

Cache

Кэш - временное место для хранения данных, которые часто требуются для работы приложения. Кэш-память быстрее с точки зрения скорости доступа, чем основное запоминающее устройство (например, диск).

Calculated Member

Вычисленный элемент - элемент измерения, чья величина определяется величинами других элементов (например, математическими или логическими приложениями). Вычисленный элемент может представлять собой часть OLAP-сервера или быть описан пользователем в течение интерактивной сессии. Вычисленный элемент - это любой элемент, который не вводится, а вычисляется (например, процент прироста продаж).

Case Study

Подробное описание и разбор реальной бизнес ситуации.

CDC (Change Data Capture)

Захват измененных данных - процесс обнаружения новых, измененных или удаленных записей в системах-источниках (захват дельты) и обновления хранилища/витрины данных в соответствии с этими изменениями. Система отслеживания может быть основана на данных или на журнале транзакций.

CDE (Critical Data Elements)

Критические элементы данных - это показатели и атрибуты, имеющие большое значение для бизнеса, оказывающие значительное влияние на регуляторную отчетность / операционную эффективность / бизнес-аналитику. Эмпирическое правило: CDE должны составлять только 5-10% данных организации. Поскольку невозможно успешно управлять всеми данными на предприятии, зрелые программы управления данными должны быть сосредоточены на CDE. У CDE должен быть владелец и определены, проверяться бизнес-правила.

CDI (Customer Data Integration)

Интеграция клиентских данных - набор процессов, инструментов, программного обеспечения для создания и поддержки достоверной, качественной, своевременной информации о клиентах организации. Актуально для организаций, собирающих данные о клиентах в различных информационных системах, или получающих их извне.

CDM (Conceptual Data Model)

Концептуальная модель данных - высокоуровневое описание информационных потребностей предприятия. Она обычно включает в себя только основные понятия и основные отношения между ними. Это первая, более абстрактная модель, с недостаточной детализацией для построения реальной базы данных. Концептуальная модель данных - это карта понятий данных и их взаимосвязей. Это описывает семантику организации и представляет собой ряд утверждений о ее природе. В частности, он описывает вещи, имеющие значение для организации (сущности/типы сущностей), о которых она склонна собирать информацию, а также характеристики (атрибуты) и связи между парами этих вещей, имеющих значение (отношения).

CDMP (Certified Data Management Professional)

Статус, присваиваемый после успешной сдачи экзаменов, разработанных и организуемых международной профессиональной некоммерческой организацией в области управления данными DAMA International.

CDO (Chief Data Officer)

Директор по качеству данных является руководителем, ответственным в компании за корпоративную обработку данных, систему качества данных и Data Mining. Он подчиняется директору по технологиям (CTO) или исполнительному директору (CEO). В организации, где признают важность информационных технологий, бизнес-аналитики, интеграции данных и обработки данных, его роль включает в себя определение стратегических приоритетов компании в области информационных систем и возможностей, выявление новых возможностей для бизнеса, применительно к данным, оптимизацию доходов от данных и представление данных как стратегического бизнес-актива.

Cell

Ячейка - является простейшей точкой в многомерном пространстве куба. Куб состоит из ячеек для всех возможных комбинаций всех измерений куба. Ячейка - часть данных, получаемая путем определения одного элемента в каждом измерении многомерного массива. Ячейки гиперкуба могут быть пусты или полны. Когда значительное число ячеек куба не содержит данных, говорят, что он "разрежен" ("sparse").

Change Control

Управление изменениями - формальный процесс, используемый для обеспечения того, чтобы процесс, продукт, услуга или технологический компонент изменялся только в соответствии с согласованными правилами. Многие организации имеют официальные советы по контролю за изменениями, которые рассматривают и одобряют предлагаемые изменения в технологических инфраструктурах, системах и приложениях. Программы управления данными часто стремятся расширить сферу контроля изменений, чтобы включить добавления, изменения или удаления в модели данных и значения для справочных, основных данных.

Checksum

Контрольная сумма - сгенерированное число, вычисленное по содержимому файла / данных, с целью обнаружения ошибок, которые могли случиться во время хранения или передачи данных.

Clickstream Data

Данные, генерируемые при активностях пользователя, связанных с навигацией по web-сайту.

Cloud Computing

Модель обеспечения повсеместного удобного сетевого доступа по требованию к совместно используемому пулу конфигурируемых вычислительных ресурсов (сетям, серверам, приложениям и услугам), которые можно быстро предоставить и внедрить с минимумом административных усилий или взаимодействий с поставщиком услуги.

CMDB (Configuration Management Database)

База данных управления конфигурациями - репозиторий компонентов информационных / технических систем, влияющих на бизнес.

Column

Столбец, поле - набор значений данных одного типа, собранных и сохраненных в строках таблицы.

Columnar Database

Колоночная база данных - СУБД, в которой данные при хранении группируются не по строкам, а по столбцам (то есть, "соседними" являются не данные из двух столбцов одной и той же строки, а данные из одного и того же столбца, но из разных строк). Такие СУБД обладают определенными преимуществами перед традиционными СУБД со строковым хранением. В частности, они демонстрируют высокую производительность на аналитических запросах.

Compliance

Дисциплина, набор практик и/или организационная группа, которая занимается соблюдением законов, правил, стандартов, договорных соглашений, требований. Программы управления данными часто поддерживают многие типы требований соответствия: соответствие нормативным требованиям, соответствие контрактам, соблюдение внутренних стандартов, политик и архитектур, а также соответствие правилам управления данными, управления проектами и другим дисциплинам.

Composite Key

Составной ключ - первичный или альтернативный ключ, состоящий из более, чем одного столбца таблицы.

Conformed Dimensions

Согласованные измерения являются совершенно идентичными, или одно измерение является точным подмножеством другого как на уровне определения (одинаковые названия столбцов), так и на уровне значений (одинаковые значения в строках). Согласованные измерения создаются для потребностей всего предприятия, а не только конкретного проекта, что позволяет делиться этими измерениями между размерными моделями из-за того, что они содержат согласованную терминологию и ценности.

Connection

Соединение источника данных OLAP или куба. Как правило, кубы расположены на выделенных серверах. При добавлении соединения в рабочее пространство/книгу это соединение предоставляет всю информацию, необходимую для доступа, работы с данным в этом кубе.

Content

Контент - содержимое документа, его информационное наполнение. Под контентом понимают данные и информацию, размещенную внутри файла, документа или на веб-сайте.

Contextual Data

Контекстуальные данные - структурирование больших данных для придания ситуационного контекста отдельным элементам больших данных, чтобы обогатить их бизнес-смыслом.

Corporate Data Model

Корпоративная модель данных - совокупность концептуальных моделей данных предметных областей, прикладных логических и физических моделей данных, а также описаний форматов обмена данными.

Costs of Data Management

Затраты на управление данными - расходы, которые образуются на всех этапах жизненного цикла данных (сбор, обработка, сохранение, ...).

CRC (Cyclic Redundancy Check)

Функция, на вход которой подается фрагмент данных любой длины, а на выходе получается число, как правило, 32-битное целое. Наиболее часто CRC применяется для обнаружения ошибок или изменений в данных при их передаче, хранении.

Cube

Куб - в технологии OLAP, абстракция, использующаяся для представления многомерного пространства для осуществления анализа информации. Куб состоит из измерений (Dimension), имеющих, как правило, иерархическую природу, и фактов (Fact) - числовых значений, представляющих интерес для анализа. Аналитический OLAP-куб - это многомерный разреженный массив предрасчитанных полных и непротиворечивых данных, ориентированный на высокоскоростную отработку произвольных запросов.

DAM (Digital Asset Management)

Управление цифровыми активами - это процесс, аналогичный управлению документами, который фокусируется на хранении, отслеживании и использовании мультимедийных документов, таких как видео, аудио, логотипы, цифровые фотографии и т. д.

Digital Transformation

Цифровая трансформация - широкое использование передовой аналитики в различных бизнес-функциях. Использование искусственного интеллекта и других методов, включение цифровых и информационных аспектов в основные стратегии, которые могут выступать в качестве сильного рычага для изменения всей бизнес-модели предприятия.

Dark Data

Темные данные - данные, которые организация собирает, обрабатывает и хранит (для нецелесообразных целей, например, для комплаенса), но не использует.

Dashboard

Информационная панель - аналитическое приложение, предназначенное, в основном, для лиц, принимающих решения, основным принципом которого является графическое представление информации в виде различных графиков, шкал и других визуальных средств (Data Visualization). Современные информационные панели характеризуются интерактивностью и возможностями интеграции с другими приложениями класса Business Intelligence (BI).
Информационная панель – это визуальное представление данных: диаграммы, графики, таблицы, сгруппированные по смыслу на одном экране для интуитивного восприятия информации, самые важные индикаторы бизнес-процессов.

Data Accuracy

Точность данных - степень того, насколько правильно (корректно) данные отражают "реальную жизнь" объектов, представленных в модели.

Data Aggregation

Агрегированные данные - данные, полученные в результате применения процесса комбинирования других элементов данных. Например: суммированием, вычислением среднего, нахождением максимального значения и т.п.

Data Anomaly

Аномалией данных называется такая ситуация в таблице базы данных, которая приводит к противоречию в базе данных либо существенно усложняет её обработку. Причиной является излишнее дублирование данных в таблице, которое вызывается наличием функциональных зависимостей от неключевых атрибутов.

Data Acquisition

Сбор данных - процесс получения совокупности сопутствующей информации о заданной предметной области. Например, извлечение исходных данных из устаревшей системы с целью создания нового хранилища данных, связывающего эти данные с другими данными (возможно, извлеченными из другой устаревшей системы), является сбором данных. Разработка нового приложения для сбора и хранения информации - это еще одна форма сбора данных.

Data Architect

Архитектор данных - высококлассный специалист по проектированию и организации информационных ресурсов, хранилищ данных. Он определяет, как будут храниться, интегрироваться данные, использоваться подразделениями и ИТ-системами. Он обеспечивает стандарты бизнес словаря, формирует модель данных, выражает требования к стратегии данных, ETL-процессам. Архитектор данных тесно связан с бизнес-архитектурой и считается одним из четырех основополагающих фигур архитектуры предприятия.
Этот человек знает бизнес и его правила, управляет знаниями о данных и определяет концептуальное направление и требования к сбору данных.

Data Architecture

Архитектура данных имеет фундаментальное значение для управления данными. Так как большинство компаний имеют больше данных, чем могут понять отдельные люди, необходимо представлять данные организации на разных уровнях абстракции, чтобы их можно было понять, и руководство может принимать решения на этой основе. Максимально подробный документ по архитектуре данных - это формальная модель корпоративных данных, содержащая имена данных, полные данные и определения метаданных, концептуальные, логические и физические сущности, отношения между ними и бизнес-правила. Архитектура данных является наиболее ценной, когда она полностью поддерживает потребности всей компании. Архитектура корпоративных данных обеспечивает согласованную стандартизацию данных и интеграцию на предприятии.
Дисциплина, процесс и программа, ориентированные на интеграцию наборов информации. Одна из четырех корпоративных архитектур: архитектура приложений, архитектура бизнес-процессов и системная архитектура.
Определяет концептуальные решения по управлению информационными активами в соответствии со стратегией организации и устанавливает соответствующие требования к данным и проектным решениям в области данных.

Data Asset

Актив данных - это всё, что состоит из данных: база данных, электронная таблица Excel, файл журнала (лог), текстовый документ, web-страница. Это место "покоя" данных (но не данные "в пути").

Data Asset Valuation

Оценка активов данных - это понимание и расчет экономической ценности данных для организации.

Data Catalog

Каталог данных - набор метаданных в сочетании с инструментами управления данными и поиска, который помогает аналитикам и другим пользователям находить нужные им данные. Каталог предоставляет потребителям (разработчикам, аналитикам баз данных, специалистам по бизнес-аналитике, исследователям данных) информацию о различных ресурсах данных, доступных в организации. Информация в каталоге данных может содержать:

• Сведения о лице / группе / отделе, владеющем или управляющим активом данных;
• Статус актива данных;
• Техническую информацию об активе;
• Происхождение или откуда берутся данные в этом активе;
• Где находится актив данных.

Data Citizens

Граждане данных - сотрудники, полагающиеся на цифровую информацию для принятия деловых решений и выполнения должностных обязанностей. Сотрудники, которым были предоставлены права доступа к корпоративным данным, несут ответственность за соблюдение политики управления данными компании.

Data Classification

Классификация данных - активы данных и файлы должны автоматически классифицироваться и храниться соответствующим образом. Процесс классификации должен включать автоматическую проверку контента на наличие значений и закономерностей в данных.

Data Cleansing

Очистка данных - процесс нахождения и исправления ошибок в данных. В хранилищах данных является частью процесса преобразования данных.

Data Compression

Сжатие данных - процесс кодирования данных, когда данные после кодирования занимают меньше места при хранении, чем изначально. В хранилищах данных сжатие данных позволяет удешевить их хранение и повысить производительность их обработки.

Data Consolidation

Консолидация данных позволяет организовать сбор данных из различных источников и форматов в единое хранилище.

Data Custodian

Хранитель данных - физическое или юридическое лицо, которому предоставлены полномочия на владение, использование и/или хранение данных в соответствии с требованиями, установленными его распорядителем данных. Он несет ответственность за защиту прав владельца данных на доступ, обработку, обслуживание, хранение, защиту и/или уничтожение данных и электронных записей. Хранители данных несут ответственность и подотчетны за управление и уход за данными, находящимися под их контролем.

Data Democratization

Демократизация данных - предоставление пользователям на предприятии доступа к данным, чтобы выполнить анализ в любое время.

Data Dictionary

Словарь данных - это набор базовых метаданных, описывающих столбцы в таблице данных:

• Техническое, системное имя столбца;
• Наименование, понятное человеку;
• Тип данных (текст, целое число, значение с плавающей запятой, логическое и т. д.);
• Длина поля;
• Формат отображения;
• Свободное текстовое описание;
• Допустимые значения для столбца;
• Идентификаторы строк, ссылки на столбцы в других таблицах.

Data Enrichment

Обогащение данных - процессы по улучшению, уточнению необработанных данных.

Data Federation and Virtualization

Если данные существуют в разрозненных хранилищах данных, их можно объединить иными способами, чем физическая интеграция. Федерация данных обеспечивает доступ к комбинации отдельных хранилищ данных независимо от структуры. Виртуализация данных позволяет получать доступ к распределенным базам данных, а также к нескольким разнородным хранилищам данных и просматривать их как единую базу данных.

Data Exchange Agreement

Соглашение по обмену данными - соглашение, определяющие предоставление и использование данных / потоков данных. Сторонами соглашения могут выступать участники обмена данными внутри организации, а также участники за пределами организации. В соглашение включаются базовые требования к качеству, безопасности и своевременности передачи данных и требования к частоте расчета и рассмотрения метрик мониторинга соблюдения соглашений. Для участников обмена за пределами организации могут предусматриваться штрафные санкции за нарушения установленного уровня метрик мониторинга.

Data Flow Diagram

Диаграмма потока данных - модель анализа, описывающая процесс, хранилища данных, внешние сущности и потоки, характеризующие поведение данных, проходящих через бизнес-процессы или программные системы.

Data Governance

Управление данными является дисциплиной для управления всеми аспектами информации компании. Это стратегия и решения для управления корпоративными данными как источником эффективности. Управление корпоративными данными определяется как полномочия и контроль (планирование, мониторинг и обеспечение соблюдения) над управлением данными. К конкретным областям управления данными относятся:

• Качество данных (Data Quality);
• Удобство использования данных (Data Usability);
• Целостность данных (Data Integrity);
• Безопасность данных (Data Security);
• Сохранность данных (Data Preservation).

Data Granularity

Степень детализации данных в хранилищах данных - уровень детализации, хранящийся в строке таблицы. Степень детализации определяется первичным ключом (Primary Key) таблицы.

Data Harmonization

Гармонизация данных - работы по повышению качества (целостности, непротиворечивости, взаимоувязанности) данных с последующим уточнением и корректировкой в случае выявления разночтений.

Data Lake

Озеро данных - один из элементов экосистемы Big Data, где централизованно агрегируются большие объемы данных из множества источников. Данные озера хранятся в своем естественном формате. Без модели данных Data Lake превращается в Data болото.
По мнению компании DIS Group: "Озеро данных станет застойной средой, где общность инфраструктуры не способствует обмену знаниями. Озеро превратится в яму грязи, в которой невозможно различить данные, определить, полезны они или нет. Расчистить болото – выявить все особенности того, что в нем имеется. Создание метаданных во время первоначальной регистрации и накопления сведений о данных является лучшим способом обеспечения гибкости и возможности их повторного применения и совместного использования в процессе управления данными."

Data Lifecycle

Жизненный цикл данных состоит из следующих стадий:

• Создание - ручной ввод данных, захват с устройств, получение извне;
• Хранение - обеспечение безопасности, резервирование и восстановление;
• Использование - просмотр, обработка, модификация, сохранение, обмен / распространение;
• Архивирование - архивирование, защита, доступность для использования;
• Уничтожение - удаление.

Data Lifecycle Management

Управление жизненным циклом данных включает в себя реализацию политик и процедур для приобретения, миграции, хранения, истечения срока действия и распределения данных. Должны быть контрольные списки для обеспечения выполнение всех задач на высоком уровне качества. Администраторы баз данных должны использовать контролируемый, документированный и проверяемый процесс перемещения изменений базы данных приложений в среду обеспечения качества или сертификации и производственные среды. Администратор базы данных должен иметь план для отмены изменений в случае возникновения проблем.

Data Lineage and Dependency

Происхождение данных и зависимость данных тесно взаимосвязаны. Они рассказывают, как элементы данных рождались, как они добирались до места их окончательного размещения. Данный контроль, в частности, позволяет:
- быстро узнать, где и почему какой-либо элемент данных изменил свой тип, значение или размерность;
- быстро выполнить анализ влияния - как изменение в типе, размерности атрибута или метрики в хранилище данных повлияет на исходящие отчеты и приложения.
Возможность по диаграмме потоков данных отследить происхождение и преобразования определенных элементов данных на пути от системы-источника к системе-потребителю.

Data Literacy

Информационная грамотность - Gartner определяет как "способность читать, писать и передавать данные в контексте, включая понимание источников и конструкций данных, применяемых аналитических методов и методов, а также способность описывать прецедент использования, применение и результирующую ценность".

Data Management

Управление данными представляет собой сочетание технологий и процессов, которые совместно обеспечивают безопасность, точность, согласованность и актуальность всех данных организации. Наиболее важной задачей управления данными является постоянно поддерживать данные актуальными, точными, согласованными и обеспечивать своевременное предоставление информации заинтересованным сторонам в соответствии с политикой безопасности.

Data Mapping

Мэппинг данных - определение соответствия данных между потенциально различными семантиками одного или разных объектов; процесс создания отображений элементов данных между двумя отличными моделями данных. Мэппинг данных - один из первых шагов задачи интеграции данных, включая:

• преобразование данных (Data Transformation) между источником (Data Source) и местом назначения (Target, Data Destination);
• идентификацию связей данных как часть анализа происхождения данных;
• обнаружение скрытых зависимостей между элементами данных;
• консолидацию нескольких баз данных в единственную базу данных с выяснением избыточных столбцов данных для устранения или объединения.

Data Mapping Software может показывать связи между:

• различными источниками и приемниками данных;
• системами, которые собирают, манипулируют и хранят данные;
• отчетами, информационными панелями и другими артефактами, которые потребляют данные.

Data Mart

Витрина данных - проблемно-ориентированное подмножество данных из хранилища (или оперативной системы), проектируемое для удовлетворения потребностей определенной группы пользователей, работающих с определенным кругом задач, и требований безопасности доступа к данным. Витрины данных позволяют решить проблемы с производительностью, так как содержат меньший объем данных, агрегируют данные заранее и используются целевой аудиторией пользователей. Витрина данных предназначена для проведения анализа данных. Источником данных для витрины данных может быть хранилище данных (зависимая витрина данных) или оперативная система (независимая витрина данных).

Витрина данных - реляционная форма представления тематического подмножества денормализованных заранее агрегированных данных, максимально приближенных к конечному пользователю и обеспечивающих наиболее удобный способ представления данных для выполнения регламентированных и нерегламентированных (ad-hoc) запросов.

Data Masking

Маскировка данных - метод защиты данных, при котором набор данных копируется, но конфиденциальные данные запутываются. Затем эта доброкачественная копия используется вместо подлинных данных для тестирования или обучения.

Data Mesh

Сетка данных - построение децентрализованной архитектуры данных за счёт использования ориентированного на предметную область дизайна, масштабирование аналитических данных путем децентрализации.

Data Mining

Интеллектуальный анализ данных - выявление скрытых закономерностей или взаимосвязей между элементами данных. Интеллектуальный анализ данных решает задачи классификации и предсказания, и используя различные алгоритмы. Знания, добываемые методами Data Mining принято представлять в виде моделей. В качестве таких моделей выступают: деревья решений, кластеры, ассоциативные правила, статистические методы (факторный анализ, дисперсионный анализ, анализ временных рядов, дескриптивный анализ, корреляционный и регрессионный анализ, компонентный анализ, дискриминантный анализ). Существует большое количество программных продуктов, реализующих алгоритмы Data Mining.

Database Mirroring

Зеркальное отображение баз данных - метод управления реляционными базами данных, позволяющий поддерживать согласованность данных, несмотря на высокую доступность, путем создания избыточных копий набора данных.

Data Modeling

Моделирование данных - процесс анализа и проектирования модели данных, с целью определить и проанализировать требования к данным, спроектировать логические и физические структуры данных, поддерживающие эти требования, определить бизнес- и технические метаданные (Metadata).

Data Modeling Schemes

Схемы моделирования данных - наиболее распространены схемы для представления данных:

• реляционная
• размерностная
• объектно-ориентированная
• основанная на времени
• основанная на фактах
• NoSQL.

DBA (Database Administrator)

Администратор баз данных - специалист ориентирован на производство, управление хранением данных и производительность баз данных, планирует и управляет стратегиями перемещения данных.

DMP (Data Management Plan)

План управления данными - это формальный документ, который описывает все аспекты управления данными во время и после проекта.

Data Modeling Tools

Инструменты моделирования данных необходимы для управления корпоративными моделями данных на всех уровнях. Большинство инструментов включают функции создания сущностей, определения их структуры, связей между сущностями, отслеживания влияния и зависимостей, возможна поддержка DDL.

Data Platform

Платформа данных - совокупность процессов и технологий, используемых для хранения, обновления и предоставления качественных данных заинтересованным пользователям для формирования отчётов и решения аналитических задач.

Data Policies

Политики данных - это директивы, кодифицирующие принципы управления в основополагающие правила, регулирующие создание, приобретение, целостность, безопасность, качество и использование данных и информации.

Data Preparation

Подготовка данных - процесс обработки сырых исходных данных, которые могут поступать из разных источников, в пригодный для бизнес-анализа формат. Подготовка данных является первым шагом в проектах анализа данных и может включать в себя множество дискретных задач: загрузка, прием, слияние, очистка, доставка данных.

Data Privacy

Конфиденциальность данных - гарантия того, что личная и частная информация лица или организации не разглашается ненадлежащим образом. Обеспечение конфиденциальности данных требует управления доступом, кибер безопасностью и других усилий по защите данных.

Data Profiling

Профилирование данных - исследование данных для выяснения статистических характеристик данных (характер распределения величин, наличие выбросов, параметры выборки), а также их качества (наличие пропущенных значений, нарушения целостности данных, другие ошибки в данных). Профилирование часто выполняют при исследовании данных в системах- источниках (Source System) перед разработкой процедур ETL.

Data Protection

Защита данных - применение административных, технических или физических мер защиты от несанкционированного доступа к данным.

Data Science

Наука о данных - междисциплинарная область, включающая извлечение информации и понимание из данных, доступных как в структурированных, так и в неструктурированных формах, подобно интеллектуальному анализу данных. В отличие от интеллектуального анализа данных, Data Science включает в себя все этапы, связанные с очисткой, подготовкой и анализом данных. Наука о данных сочетает в себе большой набор методов и приемов, охватывающих программирование, математику, статистику, интеллектуальный анализ данных и ML.

Data Security

Безопасность данных - набор процессов и технологий, направленных на защиту данных от несанкционированного доступа, изменения, раскрытия или уничтожения на протяжении всего жизненного цикла данных. Обеспечивает конфиденциальность, целостность и доступность, шифрование данных, соответствие нормативным требованиям и лучшим практикам по защите информации, планирование, разработку и осуществление политик и процедур для аутентификации, авторизации и доступа пользователей, управление инцидентами.

Data Semantics

Семантика данных - смысловой аспект информации, отражающий отношение между формой и смысловым содержанием.

Data Sharing

Совместное использование данных - практика предоставления данных для повторного использования (например, депонирование данных в хранилище).

Data Sharing Agreement

Соглашение о совместном пользовании данных или меморандум о взаимопонимании - документ, в котором оговариваются ответственность и допустимость использование данных, подлежащих обмену, утвержденные бизнес-распорядителями данных. В соглашении должны быть указаны предполагаемое использование и права доступа к данным, ограничения на использование, ожидаемые уровни обслуживания, включая требуемое время работы и время отклика. Эти соглашения особенно важны для регулируемых отраслей, или когда речь идет о личной или защищенной информации.

Data Stakeholders

Заинтересованные в данных лица - те, кто использует, влияет или подвержен влиянию данных. Заинтересованные стороны данных могут быть добытчиками, собирателями или приобретатели информации.

Data Steward

Лицо с обязанностями, связанными с данными, установленными программой управления данными. Управляющие данными делятся на несколько типов: стюарды качества данных, стюарды определения данных, стюарды использования данных и т.д.

Data Transfer Agreement

Соглашение о передаче, обработке данных - юридический договор для ситуаций, когда [персональные] данные передаются от владельца третьему лицу, и есть риск необоснованного, неправомерного доступа или использования данных. Соглашение регулирует, как могут быть обработаны данные, кто имеет право доступа к ним, для какой именно цели он может использовать данные и в течение какого срока.

Data Quality

Качество данных - уровень пригодности данных для использования. Под качеством понимают соответствие совокупности факторов: соответствие типам данных, согласованность и непротиворечивость, полнота, уместность, отсутствие избыточности, соответствие предметной области и бизнес правилам, и другие показатели. Степень пригодности данных для принятия решений или другого их использования. Существует целый класс программного обеспечения Data Quality, предназначенного для мониторинга и повышения качества данных, а также соответствующие методологии.

Data Quality Incident

Инцидент качества данных - идентификация факта ошибок в данных после выполнения контролей качества данных и / или мер по повышению качества данных.

Data Vault

Модель данных - набор уникально связанных нормализованных таблиц, содержащих детальные данные, отслеживающих историю изменений и предназначенных для поддержки одной или нескольких функциональных областей бизнеса. Это - гибридный подход, обобщающий лучшие свойства третьей нормальной формы (3NF) и схемы Звезда (Star Schema). Существует три типа объектов: концентраторы (хабы), связи и сателлиты. Дизайн сосредоточен вокруг функциональных областей бизнеса с концентратором, представляющим первичный ключ. Связи обеспечивают интеграцию транзакций между хабами. Сателлиты покрывают контекст первичного ключа концентратора (Lindstedt, 2012).

Data Warehouse Appliance

Комплекс для хранилищ данных - специализированная совокупность СУБД и аппаратной платформы, заранее интегрированные в единое целое, предназначенная выступать как платформа для хранилищ данных.

Decision Tree

Дерево решений - модель анализа, которая графически показывает действия системы в ответ на все комбинации набора факторов, которые влияют на поведение части системы.

Degenerate Dimension

Вырожденное измерение (например, номер счета-фактуры, номер билета) имеет степень гранулярности схожую с таблицей фактов, и поэтому зачастую такие значения хранятся в самой таблице фактов.

Dense

Многомерная база данных считается плотной, если относительно высокий процент, не менее 10%, возможных комбинаций её измерений содержит данные.

Derived Data

Производные данные - данные, получаемые с помощью математических вычислений, логических преобразований или других манипуляций, выполняемых в процессе загрузки данных в хранилище и витрины данных.

Desktop OLAP

Клиентский OLAP - класс продуктов OLAP, реализующих функциональность OLAP на стороне клиентской рабочей станции. Такие продукты могут хранить и обрабатывать многомерные кубы без осуществления доступа к серверу OLAP и даже в отсутствие доступа к сети.

Dimension

Измерение - в многомерном моделировании измерение - сущность, которая служит средством группировки числовых величин, хранящихся в таблице фактов. Логический контейнер для атрибутов, в разрезе которых осуществляется анализ.

Dimension Table

Таблица измерений хранилища данных содержит подробную информацию, относящуюся к специфичным атрибутам записей о фактах, такую как номер контракта, демографические данные о клиенте, описание продуктов. Из таблиц измерений в многомерных OLAP-кубах создаются измерения.

Distributed DW (Distributed Data Warehouse)

Распределенное хранилище данных - данные хранятся не в единой платформе, а распределены между несколькими системами.

Distributed Query

Распределенный запрос - запрос, при исполнении которого используются данные из баз данных, размещенных на разных серверах, в разных узлах сети.

DMBoK (Data Management Body of Knowledge)

Свод знаний по управлению данными, разработанный организацией DAMA International (см. сайт dama.org). Набор рекомендаций оформлен в виде книги, редакции:
Data Management Body of Knowledge 1st ed., 2011
Data Management Body of Knowledge 2nd ed., 2017

Domain

Домен - набор возможных значений элемента данных (например, столбца таблицы базы данных).

DPO (Data Protection Officer)

Специалист по защите данных призван обеспечивать безопасность персональных данных в соответствии с регламентом GDPR (ст. 37, 38, 39). DPO должен обладать юридическими знаниями и необходимой технической экспертизой, подотчетен наивысшему посту в управленческой иерархии компании.

Drilling

Анализ с изменением уровня агрегирования - метод анализа информации в BI-системах, предусматривающий переход с одного уровня иерархии элементов измерений на другой с целью получения более детализированной информации (Drill-Down Analysis) или более агрегированной (Roll-Up Analysis).

DSS (Decision Support System)

Система поддержки принятия решений - приложение, предназначенное для анализа больших массивов данных, прогнозирования, а также выполнения вычислений любой степени сложности. Служба поддержки принятия решений (Decision Support Services). Термин, используемый для обозначения версии бэта 3 продукта Plato корпорации Microsoft, который впоследствии был переименован в SQL Server OLAP Services, а затем - в SQL Server Analysis Services.

Dummy Value

Фиктивное значение, которое вводят операторы систем первичной регистрации данных и учетных систем, если исходное значение отсутствует, но соответствующее поле является обязательным для заполнения. Например, вместо номера телефона оператор может ввести значение типа 000-00-01, вместо указания реального возраста может ввести значение 160 и т.п. Фиктивное значение может быть введено и по иным причинам, например, если бумажная запись неразборчива. Аномальное значение должно насторожить пользователя о том, что оно никак не связано с реальным.

Dublicate

Дубликат - две и более записи называются дубликатами, если они содержат идентичные наборы значений всех полей. В большинстве случаев дубликаты вопринимаются как негативный фактор, и в процессе чистки данных от них избавляются. Это связано с тем, что дублирующиеся (кроме одной) записи бесполезны, не несут никакой полезной нагрузки, но могут повлиять на правильность результатов запросов.

DW Bus Matrix

Матрица шины хранилища данных - в методологии Ральфа Кимбалла, инструмент для проектирования и документирования шины хранилища данных (Data Warehouse Bus). Строки матрицы представляют бизнес-процессы организации, а столбцы - согласованные измерения. В ячейках матрицы - факты того, имеет ли отношение данное измерение к данному бизнес-процессу.

DWH (Data Ware House)

Хранилище данных - предметно-ориентированная, вариантная по времени, не разрушаемая совокупность данных, предназначенная для поддержки управленческих решений. Это система, которая получает данные из используемых компанией баз данных и других источников данных, а затем трансформирует их в структуру, подходящую для выполнения бизнес- анализа. Зачастую к по-новому структурированным и организованным данным применяются математические операции, чтобы сделать их максимально полезными для принятия управленческих решений. Хранилище данных содержит долгосрочный набор данных.

EAV (Entity Attribute Value)

Сущность-Атрибут-Значение - вертикальная модель базы данных - модель данных для описания сущностей, где количество атрибутов (параметров), которые могут быть использованы для описания сущностей, потенциально огромно, но в действительности применительно к конкретной сущности используется (заполняется) значительно меньше атрибутов. В математике эта модель известна как разреженная матрица (Sparse Matrix). Основная цель EAV - дать конечным пользователям возможность расширения модели без программирования. Концептуально EAV можно представить в виде таблицы из 3-х полей: "Сущность", "Атрибут", "Значение атрибута". Таблица содержит по одной строке на каждую тройку Сущность-Атрибут-Значение. На практике, для содержания индексации и правил проверки, поле "Значение атрибута" предпочитают разделять на отдельные поля по основным типам данных: строка, вещественное и целое числа, дата, большой двоичный объект (BLOB).

ESB (Enterprise Service Bus)

Сервисная шина предприятия - это система, действующая как посредник между системами, передавая между ними сообщения почти в реальном времени. Приложения могут отправлять и получать сообщения или файлы с помощью ESB и инкапсулируются из других процессов, существующих на ESB. Чаще всего ESB используется в асинхронном режиме для обеспечения свободного потока данных.

ELT (Extract, Load and Transform)

Подход к разработке процессов преобразования данных для хранилища данных, при котором данные сначала извлекаются из систем-источников, затем загружаются без преобразований в целевую базу данных хранилища данных (в промежуточную область), а затем преобразуются средствами систем управления базами данных - СУБД (с использованием языка SQL) и вставляются в целевые таблицы хранилища данных. Инструменты, реализующие такой подход, способны генерировать операторы SQL для целевой СУБД хранилища данных, учитывая ее возможности и особенности синтаксиса.

ER-diagram (Entity Relationship Diagram)

Диаграмма Сущность-Связь. Модель данных, описывающая сущности (таблицы) и атрибуты (столбцы), а также связи между сущностями. Применяется для проектирования моделей данных для реляционных СУБД (RDBMS).

ETL (Extract, Transform and Load)

Набор процессов для извлечения данных из систем-источников, преобразования данных и их загрузки в целевую базу данных (как правило, в хранилище или витрину данных). Существует класс программного обеспечения, решающий задачи ETL (Informatica, DataStage, SQL Server Integration Services и другие). В последние годы в качестве эволюционной замены становится более актуальным термин Data Integration - интеграция данных

External Data

Внешние данные - данные из внешних относительно организации источников, получаемые / закупаемые от внешних контрагентов для использования в организации, например, СПАРК, Bloomberg, курсы валют Банка России, рекрутинговые сайты и т.д.

Fact Table

Таблицы фактов хранилища данных обычно содержит бизнес-информацию – количественные данные, такие как остатки, платежи, количество проданных товаров, номера клиентов и внешние ключи (Foreign Key) для связи с таблицами измерений. Как правило, таблицы фактов пополняются записями значительно больше, в разы, чем таблицы измерений. Из фактов в многомерных OLAP-кубах формируются размерности (Measures), к значениям которых достаточно часто применяются операции агрегирования, т.е. предварительного вычисления сгруппированных (свернутых) по уровням иерархии данных, что впоследствии приводит к увеличению скорости выполнения запросов.

FAIR (Findable, Accessible, Interoperable, Reusable)

Данные, которые можно найти, они доступны, совместимы и повторно используются.

Federated Database Architecture

Федеративная архитектура баз данных позволяет предоставлять пользователям данные из различных источников без усилий по их подготовке или дублирования массивов источников данных. Федеративные базы лучше всего гетерогенных и распределенных систем. Базы данных блокчейн (Blockchain) — пример федеративной базы данных.

FK (Foreign Key)

Внешний ключ - это поле в связанной таблице, значения которого совпадает с полем первичного уникального ключа в другой таблице. Внешние ключи обеспечивают возможность перекрестных ссылок на таблицы, а также обеспечивают поддержки целостности данных. Различают простые и составные (состоящие из нескольких полей) внешние ключи.

Flat File

Плоский файл подразумевает различные способы кодирования набора данных в виде одного файла, который может быть обычным текстовым файлом или двоичным файлом. В более широком смысле - база данных, существующая в одном файле в виде строк и столбцов, без каких-либо связей, связей между записями и полями.

Formula

Формула - это объект базы данных, представляющий собой вычисление, правило или другое выражение для операций с данными в многомерной базе данных. Формула определяет отношения между элементами измерения и используется разработчиками баз данных OLAP для обеспечения большего по количеству наполнения для сервера базы данных. Формула используется конечными пользователями для моделирования отношения внутри предприятия и для персонализации данных с целью обеспечения большей наглядности и точности отображения.

Fraud Detection

Класс аналитических приложений, предназначенных для обнаружения мошенничеств. Примерами мошенничеств, обнаруживаемых в настоящее время системами подобного класса являются различные телефонные мошенничества, мошенничества с кредитными картами, отмывание денег, мошенничества в сфере розничной торговли, фальсификации страховых случаев для получения страховых выплат и другие.

Fuzzy Logic

Нечеткая логика - раздел математики, представляющий собой обобщение классической логики и теории множеств. Понятие нечеткой логики было введено профессором Лютфи Заде в 1965 г., который в своих работах расширил понятие "множеств" допущением, что функция принадлежности элемента к множеству может принимать любые значения в интервале [0..1], а не только 0 или 1.
Такие множества стали называть нечеткими. Предметом нечеткой логики является построение моделей приближенных рассуждений человека и использование их в анализе данных, системах управления и поддержки принятия решений в компьютерных системах. В основе нечеткой логики лежит описание объектов и процессов с помощью нечетких множеств.

GAP Analysis

Гэп-анализ - метод, который помогает получить подробную информацию между состоянием в настоящее время (What is ?) и желаемой ситуацией в будущем (What should be ?), чтобы определить пробелы, (требования, которые не выполняются) и разработать меры для удовлетворения этих требований в будущем.

GDPR (General Data Protection Regulation)

Генеральный регламент защиты данных принят Европейским парламентом, ориентирован на современные условия охраны людей от изъянов процедур обработки их данных. Постановление усиливает защиту персональных данных всех лиц в Европейском Союзе.

Geodata

Геоданные - любой набор данных, в котором точки данных включают местоположение, например широту и долготу или другую стандартную кодировку. Карты, транспортные маршруты, экологические данные, кадастровые данные и многие другие виды данных могут быть опубликованы в виде геоданных.

GIGO (Garbage In Garbage Out)

«Мусор на входе - мусор на выходе» - принцип, означающий, что при неверных входящих данных будут получены неверные результаты, несмотря на то, что сам по себе алгоритм правилен. Построение OLAP-куба на таких данных возводит бардак в степень 3.
По мнению компании DIS Group: "Отсутствие корпоративной культуры управления данными и сильных специалистов - верный способ провалить аналитику данных. Аналитика данных занимает узловые позиции любого результативного процесса в промышленности, становясь одним из самых важных различий технологий управления данными. Создание сквозных архитектур, позволяющих осуществлять управление данными и аналитикой от ядра до края промышленной организации, способствует появлению новых ролей профессионалов управления данными и аналитики, непосредственно участвующих в разработке стратегий и тактик, создающих бизнес-рост. Насущными элементами успешного включения управления данными и аналитики в управление промышленным предприятием являются организационная основа управления данными, корпоративная культура поддержки аналитики данных, грамотные ученые и специалисты, активное поощрение применения аналитических выводов менеджерами среднего и низшего уровней".

Graph

Графовая модель предназначена для данных, отношения которых хорошо представлены в виде набора узлов с неопределенным числом связей между этими узлами. Например, социальные отношения, где узлы - это люди; связи общественного транспорта, где узлы могут быть автобусными или железнодорожными станциями. Часто требования приводят к обходу графа, чтобы найти самые короткие маршруты, ближайших соседей и т.д., что может быть сложным и трудоемким для навигации в случае традиционных баз данных.

Hadoop

Программный фрэймворк с открытым исходным кодом, который обеспечивает обработку огромных объемов данных в распределенной вычислительной среде.

Hashing

Хеширование - применение хэш-функции, которая преобразует поданный на вход большой фрагмент данных (с переменной длиной) в элемент данных простого типа (как правило, целочисленный). Иначе говоря, конвертирование входного массива данных произвольной длины в выходную битовую строку фиксированной длины. Хеширование интенсивно применяется в база данных, например, для распределения таблиц между единицами параллелизма в массивно-параллельных системах (MPP).

Hierarchy

Иерархия- логическая организация данных в виде древовидной структуры.

Несбалансированная иерархия (Ragged Hierarchy) - иерархия, в которой не все листовые элементы находятся на одном и том же уровне. Иными словами, количество уровней иерархии каждой ветви может отличаться.

Horizontal Partitioning

Горизонтальное секционирование - разделение строк таблицы на группы по определенным критериям с последующим их хранением в физически близких областях диска с целью ускорения обработки запросов, критерии выборки которых формируются с участием столбцов таблицы, которые также участвуют в критерии формирования секций (Partition). Горизонтальное секционирование также используется для распределения данных (Data Distribution) между единицами параллелизма в системе архитектуры MPP (массово-параллельная архитектура - Massive Parallel Processing).

Hub-and-Spoke Architecture

Архитектура хранилища данных, в которой данные в хранилище загружаются из различных источников, затем данные из хранилища перегружаются в витрины данных (Data Mart), к которым предоставляется доступ пользователям. При этом доступ к самому хранилищу данных пользователям не дается.

Identifiable Personal Data

Идентифицируемые персональные данные - это данные, которые без особых усилий приводят прямо (например, домашний адрес) или косвенно (например, редкая профессия + возраст) к личности человека; один или несколько факторов, характерных для физической, физиологической, психической, экономической, культурной или социальной идентичности человека.

IMDB (In-Memory Database)

Система управления базами данных, в которой хранение и обработка данных осуществляется в оперативной памяти компьютера. За счет этого производительность СУБД увеличивается. Такие СУБД могут быть в системах реального времени, или там, где обработка данных в памяти может ускорить аналитическую обработку.

In-Database Analytics

Способ аналитической, сложной алгоритмической обработки данных, Data Mining, при которых данные не покидают СУБД, а для обработки используются либо механизмы СУБД (язык SQL), либо гибридные механизмы (например UDF, MapReduce). Используется для анализа больших и сверхбольших объемов данных. Позволяет сократить издержки на пересылку данных для анализа между СУБД и аналитическим сервером, а также позволяет использовать архитектуру MPP для обеспечения высокой производительности и масштабируемости аналитических алгоритмов при условии возможности их распараллеливания.

Information

Информация - продукт, полученный из данных путем анализа или упорядоченного представления данных для интерпретации человеком.

Information Intoxication

Информационная интоксикация - невозможность человека правильно осмыслить проблему и принять верное решение в связи с наличием слишком большого объёма поступающей информации. Академик Сергей Петрович Капица говорил, что информационная перегрузка (Information Overload), переизбыток информации вредит нормальному её анализу, мешает её усвоению в мозге и пользном использовании в дальнейшем.

Informed Consent

Информированное согласие - добровольное, специфичное и однозначное волеизъявление субъекта исследования принять в обработку его персональные данные на основании адекватной информации.

Initial Data

Первичные данные - детальные данные, обычно развернутые до описания характеристик индивидуальных субъектов, объектов, операций.

Initial Load

Начальная загрузка - процесс загрузки данных в пустое хранилище данных, которое может отличаться от процессов инкрементальной загрузки, например, тем, что при первоначальной загрузке в хранилище могут загружаться исторические данные из архивных систем.

Instance

Инстанс - реализуется программным обеспечением базы данных, контролирующим доступ к определенной области хранения. Обычно будет иметь несколько экземпляров, выполняемых одновременно, используя разные области хранения. Каждый экземпляр не зависит от всех других экземпляров.

Interoperability

Совместимость данных - это способность сравнивать, объединять и/или анализировать данные с аналогичными данными. Совместимость данных базируется на применении стандартов, метаданных и документации по данным.

Issue Resolution

Решение проблемы - структурированный процесс для достижения решения проблемы с учетом потребностей всех заинтересованных сторон. В большинстве программ управления данными признается, что успешное решение вопросов, связанных с данными, требует политически нейтрального содействия процессу принятия решений с участием заинтересованных сторон, занимающихся данными.

ITIL (IT Infrastructure Library)

Библиотека ИТ-инфраструктуры - серия публикаций, содержащих рекомендации по управлению ИТ-услугами.

ITSM (IT Service Management)

Внедрение и управление качественными ИТ-услугами, отвечающими потребностям бизнеса. Управление ИТ-услугами осуществляется поставщиками ИТ-услуг через соответствующее сочетание людей, процессов и информационных технологий.

JSON (JavaScript Object Notation)

Открытый, легкий стандартный формат обмена данными. Его текстовый формат не зависит от языка и легко разбирается, но использует соглашения из семейства языков C. Простой, но мощный формат для хранения данных. Он может описывать сложные структуры данных, является высоко машиночитаемым, а также разумно читаемым человеком, и не зависит от платформы и языка программирования, и поэтому является популярным форматом для обмена данными между программами и системами. JSON имеет две структуры: коллекцию неупорядоченных пар имя / значение, известных как объекты, и упорядоченный список значений, реализованных в виде массива. Предпочтительный формат в web-ориентированных базах данных NoSQL.

Junk Dimension

Мусорное измерение - создается абстрактное вспомогательное измерение, в которое из таблицы фактов переносятся поля с низким количеством повторений значений (низкой кардинальностью), например, флаги - да\нет, текстовые перечисления - мужской / женский. Таким образом, сокращается количество простейших измерений и количество полей - внешних ключей в таблице фактов, размер таблицы фактов (при количестве записей в ней в несколько десятков, сотен миллионов записей) может ощутимо уменьшиться. Подобное измерение особенно эффективно тогда, когда набор комбинаций значений детерминирован и ограничен до приемлемого уровня. Размер таблицы измерения будет 2^x строк, где x - количество показателей.

Key

Ключ - комбинация атрибутов, однозначно идентифицирующих каждый экземпляр сущности (каждую строку таблицы, каждую запись файла). Значения комбинации атрибутов должны быть уникальными для каждого экземпляра сущности (в пределах одной сущности). Чаще всего ключ состоит из одного атрибута – это простой ключ. Ключ, состоящий из нескольких атрибутов, – составной (сложный).

Knowledge

Знание - это обладание проверенной (согласованной) информацией, позволяющей решить какую-либо практическую задачу.
Классификация знаний:

• Явные: информация или знания, зафиксированные на материальных носителях;
• Потенциально явные: информация или знания, которые еще не зафиксированы в материальной форме, но могут быть преобразованы в явные;
• Неявные: информация или знания, которые сложно зафиксировать на материальных носителях.

Knowledge Base

База знаний - специализированная база данных, используемая для управления знаниями, их сбором, хранением, поиском и предоставлением пользователю. Раздел искусственного интеллекта, изучающий базы знаний и методы работы с ними, называется инженерией знаний. Простейшие базы знаний могут использоваться для хранения данных об организации: документация, руководства, инструкции и т. д. Цель их создания - помочь новым и менее опытным работникам найти существующее описание способа решения какой-либо проблемы предметной области. База знаний -важнейший компонент интеллектуальных, экспертных информационных систем.

Knowledge Management

Управление знаниями - это система, которая предполагает интегрированный подход к поиску, сбору, оценке, восстановлению и распространению всех информационных активов предприятия. В состав таких активов могут входить базы данных, документы, политики, процедуры, а также знания и опыт отдельных работников, которые ранее не фиксировались (определение Gartner Group).
Под управлением знаниями подразумевают перманентную необходимость формировать, обновлять, применять знания для получения прибыли от активов предприятия.

Knowledge Management System

Система управления знаниями - информация и данные, доступные всем членам организации через специальные порталы и системы управления контентом (Content Management Systems). Система управления контентом — это наиболее очевидная и оперативная составляющая системы управления знаниями, но есть и следующие составляющие:

• В базе извлеченных уроков (Lessons Learned) фиксируются и находятся в общем доступе те знания и опыт, которые были получены в ходе операционной деятельности, но не подлежат документированию в рамках стандартных процедур. В контексте управления знаниями упор обычно делается на сбор данных лично от участников деятельности, то есть превращение неявных знаний в явные.
• Определение местонахождения компетенций (Expertise Location) - поиск сотрудников организации, которые обладают знаниями в той или иной области. Такие системы раньше называли системами "желтых страниц".
• Сообщества специалистов-практиков (Communities of Practice) - это группы людей со схожими интересами, которые собираются лично или виртуально вместе, чтобы поделиться опытом, обсудить проблемы и возможности, поговорить о лучших практиках и извлеченных уроках.

Knowledge Worker

Работник умственного труда - человек, который использует данные для принятия решений, оценки эффективности или разработки политики. Работник умственного труда поможет определить необходимые типы отчетов и аналитических решений. Работник умственного труда может быть экспертом по предмету, но не обязан им быть.

KPI (Key Performance Indicator)

Ключевой показатель эффективности - величина, отражающая один из ключевых аспектов деятельности организации. Ключевые показатели эффективности предназначены для оценки успешности работы организации. Часто для расчета и отображения ключевых показателей эффективности используются системы Business Intelligence.

Late Arriving Data

Поздно прибывающие данные - иногда не все данные сразу доступны при регистрации операций в учетных системах, например, некоторые данные при оформлении заказа на склад, эти данные будут дозаполнены позже, когда поступят оригиналы документов. Различают поздно прибывающие факты (Late Arriving Facts) и поздно прибывающие измерения (Late Arriving Dimensions). Для обработки неизвестных значений (NULL) в существующие измерения, в зависимости от бизнес-требований, можно добавить следующие записи:
-1 - неизвестно (Unknown)
-2 - еще не поступило (Not Arrived)
-3 - не применимо (Not Applicable)

Latency

Латентность данных - это разница во времени между моментом создания данных в исходной системе и моментом, когда данные доступны для использования в целевой системе. Различные дата-интеграционные процессы характеризуются различной степенью задержки данных: высокой (при пакетной обработке), низкой (обработка, управляемой событиями) и очень низкой (синхронизация в реальном режиме времени).

MapReduce

Это модель программирования и соответствующая реализация, предназначенные для параллельной обработки больших объёмов данных. Пользователи описывают функции map (обработка единицы входных данных с генерацией промежуточного результата) и reduce (агрегация промежуточных результатов в окончательный). Данная модель позволяет решать довольно широкий спектр задач. Программы, написанные с использованием модели MapReduce, автоматически распараллеливаются и выполняются на больших кластерах, состоящих из стандартного оборудования. При этом, распараллеливающий механизм заботится об автоматическом распределении работы между рабочими узлами, обеспечивает надёжность вычислений при сбоях отдельных рабочих узлов и обеспечивает необходимые коммуникации между узлами системы. Данный подход позволяет абстрагировать программиста от деталей реализации распараллеливания, предоставив ему простой интерфейс в виде двух функций. Модель MapReduce, довольно интенсивно используется компанией Google.

Master Data, Golden Record

Мастер данные - основные данные предприятия, основной актив, представляющие собой ключевые объекты деятельности предприятия, например, данные о клиентах, поставщиках, товарной номенклатуре.

Maturity of the Data Management System

Зрелость системы управления данными - степень, в которой организация последовательно и эффективно определяет, управляет, измеряет, контролирует и использует свои данные для достижения своих целей. Зрелая система управления данными характеризуется наличием хорошо определенных и функционирующих политик, процессов, стандартов и технологий для управления данными.

Measure

Мера, значение показателя, соответствующее некоторой ячейке куба данных. Различают меры:

• аддитивные (Additive Measure) - допускают агрегирование относительно любого измерения куба;
• неаддитивные (Nonadditive Measure) - значения не могут агрегироваться ни по какому измерению куба. Примером неаддитивной меры является процент (составные части меры могут быть аддитивными), или нечисловой (текстовый) факт;
• полуаддитивные (Semiadditive Measure) - допускают агрегирование относительно одних измерений и не допускают относительно других (например, остатки на складе, которые нельзя суммировать в разрезе времени)

MDM (Master Data Management)

Набор процессов, методик и инструментов для управления справочными данными, классификаторами, каталогами предприятия, носящими нетранзакционный характер (например, данными о продуктах, клиентах, поставщиках) с целью формирования эталонных записей (Golden Records). MDM система предоставляет целостный взгляд на все составляющие бизнеса, в том числе на источники данных, авторство, качество, полноту и на потенциальное использование данных. Под нормативно-справочной информацией (НСИ) понимается условно-постоянная информация, представляющая собой совокупность взаимосвязанных справочников и классификаторов, а также нормативных документов, используемых в бизнес-процессах компании.
Управление основными данными - это организация людей, процессов и технологий для создания и поддержания авторитетной, надежной, устойчивой, точной и безопасной среды данных, которая представляет собой "единую версию истины" для основных данных и ее отношений на предприятии.
Для реализации концепции MDM существует специальный класс программных продуктов.

MDX (Multidimensional Expressions)

Язык запросов для простого и эффективного доступа к многомерным структурам данных, наподобие языка SQL для реляционных баз данных. Средство (язык) формулирования запросов к многомерным базам данных, позволяет осуществить доступ к данным в любых разрезах, комбинациях и порядке следования. Для проведения анализа можно получать всевозможные срезы данных (двумерный (плоскостной) срез, многомерный субкуб).

Member of Dimension

Элемент измерения - отдельное имя или идентификатор, служащий для определения положения и описания элемента данных в измерении. Основная единица данных, представляющая определенную величину в многомерной базе данных OLAP. Элемент может обладать родительскими и дочерними элементами. Январь 2009 года или 1-й квартал 2010 года являются типичными примерами элементов измерения «Отчетные даты».

Metadata

Метаданные - это данные о данных. Метаданные представляют собой описание структуры данных и методов их обработки. Кроме того, в метаданных может содержаться дополнительная информация о базах данных, являющихся источниками и получателями информации, о сведениях, помещаемых в хранилище, а также о качестве данных в хранилище. Также метаданные включают сведения о преобразованиях данных, о дате последнего обновления и о правах доступа пользователей к информации.
Классификация метаданных:

• бизнес-метаданные;
• технические метаданные;
• операционные метаданные.

ML (Machine Learning)

Машинное обучение - дисциплина искусственного интеллекта, направленная на то, чтобы программные приложения стали более точными в прогнозировании результатов. Компьютеры учатся справляться с новыми ситуациями через анализ, самообучение, наблюдение и опыт через воздействие новых сценариев, тестирование и адаптацию. Стандарт ISO / IEC 38505-1:2017 определяет ML как "процесс, использующий алгоритмы, а не процедурное кодирование, который позволяет учиться на основе существующих данных для прогнозирования будущих результатов".

Monitoring

Мониторинг - непрерывный процесс сбора данных для определения, насколько качественно выполнено решение по сравнению с ожидаемыми результатами.

MPP (Massively Parallel Processing)

Массивно-параллельные вычисления - метод распараллеливания операций по вычислению или обработке данных, при котором необходимые для проведения вычислений данные разделяются между единицами параллелизма так, что единицы параллелизма работают со своим фрагментом данных. Данный вид параллельной обработки активно используется в технологиях хранилищ данных. Яркими представителями технологий MPP в области хранилищ данных являются программно-аппаратные решения от Teradata, Netezza, Oracle Exadata, DATAllegro.

Multidimensional Model

Многомерная модель - многомерная структура, в рамках которой заранее определены правила расчета различных показателей на основе имеющихся данных.

Multi-Pass SQL

Многопроходный SQL - код на языке SQL, обычно, генерируемый средствами ROLAP, состоящий из нескольких операторов SQL (SQL Statement), которые помимо операторов манипуляции данными (SQL DML) могут включать операторы создания объектов (SQL DDL), таких как временные таблицы, представления, индексы. Многопроходный SQL предназначен для реализации сложных расчетов, повышения производительности выполнения отчетов.

Natural Key

Естественный ключ - первичный ключ, обладающий смысловой нагрузкой в противоположность суррогатному (синтетическому) ключу (Surrogate Key). Может состоять из нескольких полей. Естественные ключи более характерны в качестве первичных ключей для приложений OLTP, в то время, как в хранилищах данных первичными ключами, как правило, выступают суррогатные ключи.

Navigation

Навигация - этот термин используется для описания процесса, с помощью которого пользователями интерактивно изучают куб путем углубления, вращения и отображения. Обычно встречающихся в графических клиентах OLAP, подсоединенных к OLAP-серверу.

Node

Узел - индивидуальный компьютер, обслуживающий либо обработку, либо данные как часть распределенной базы данных.

Non-disclosure Agreement

Соглашение о неразглашении информации - юридически обязывающий договор между двумя сторонами профессиональных отношений обеспечить конфиденциальность конфиденциальной информации.

Normalization

Цель нормализации: исключить избыточное дублирование данных, которое является причиной аномалий, возникших при добавлении, редактировании и удалении кортежей (строк таблицы).
Нормализация - процесс применения правил для организации сложности бизнеса в стабильных структурах данных. Основная цель нормализации - сохранение каждого атрибута только в одном месте для устранения избыточности и несоответствий, которые могут возникнуть в результате избыточности. Процесс требует глубокого понимания каждого атрибута и отношения каждого атрибута к его первичному ключу.

ODBC (Open DataBase Connectivity)

Открытый интерфейс взаимодействия с базами данных. API для взаимодействия приложений с базами данных, разработанный корпорацией Microsoft. Наиболее широко используется в среде Windows, существуют реализации для UNIX.

ODS (Operational Data Store)

База данных для интеграции данных детального уровня из различных источников, собранные за некоторый промежуток времени, без хранения истории их изменения или с хранением ограниченной истории (в противоположность хранилищу данных, в котором хранятся данные за длительные периоды, а также хранится история их изменений). Обычно ODS наполняется данными в режиме, приближенному к реальному времени. Назначение ODS - оперативная отчетность по актуальным данным, еще не загруженным в хранилище данных, или иное оперативное использование. Структура данных ODS обычно близка к структуре данных источников данных (что, в частности, облегчает оперативную загрузку данных).

OLAP (Online Analytical Processing)

Оперативный анализ данных - компьютерные аналитические приложения и технологии, поддерживающие сбор, управление, обработку и многомерное представление, отображение и визуализацию данных с целью анализа информации, составления и публикации отчетов. Термин OLAP был введен в 1993 году Эдвардом Коддом (Кодд – так же автор реляционной модели данных), сформулировавшим основные требования к функциональности программных продуктов, реализующих эти технологии. Технология (а также класс соответствующих программных продуктов), реализующая концепцию анализа данных, представленных в виде многомерного пространства. Данная технология предназначена, в основном, для быстрого просмотра и выполнения вычислений над агрегированными значениями показателей в различных разрезах.

Класс приложений и технологий, предназначенных для сбора, хранения и анализа многомерных данных в целях поддержки принятия управленческих решений. Технология OLAP позволяет аналитикам, менеджерам и управляющим сформировать свое собственное видение данных, используя быстрый, единообразный, оперативный доступ к разнообразным формам представления информации. Эти формы, полученные на основании первичных данных, позволяют пользователю сформировать полноценное представление о деятельности предприятия. Функциональность OLAP заключается в динамическом многомерном анализе консолидированных данных предприятия, направленном на поддержание следующих аналитических и навигационных видов деятельности пользователя:

• вычисления и моделирование, примененные к измерениям и/или их конкретным элементам, использующие информацию об иерархиях, анализ временных тенденций показателей (анализ трендов);
• формирование срезов многомерного представления для просмотра на экране;
• переход к более глубоким уровням детализации;
• доступ к исходным данным - "вращение" многомерных представлений: перемещение измерений с целью формирования различных форм представления данных на экране компьютера.

Клиент-серверная архитектура OLAP-продуктов обеспечивает одновременный доступ большого числа пользователей (многопользовательский режим работы). При этом анализ должен производиться одинаково быстро по всем аспектам информации (приемлемое время отклика - 5 с или менее) независимо от размера и сложности структуры базы данных. OLAP предоставляет удобные быстродействующие средства доступа, просмотра и анализа деловой информации. Пользователь получает интуитивно понятную модель данных, организуя их в виде многомерных кубов. Это позволяет ему проводить как сравнительный анализ показателей, так анализ различных сценариев по принципу "что-если", построенных на основе прогнозных и статистических данных компании.

Виды OLAP:

MOLAP

Это классическая форма OLAP, использует многомерную базу данных с сохранением как базовых данных, так и агрегированных (предрассчитанных) данных.

ROLAP

Работает напрямую с реляционным хранилищем: таблицы фактов и таблицы измерений хранятся в реляционных таблицах, а для хранения агрегатов создаются дополнительные реляционные таблицы.

HOLAP

Использует реляционные таблицы для хранения базовых данных и многомерные таблицы для агрегатов.

R-ROLAP (Real-Time ROLAP)

ROLAP реального времени, в котором не создаются дополнительные реляционные таблицы для хранения агрегатов. Агрегаты рассчитываются в момент запроса, при этом многомерный запрос к OLAP-системе автоматически преобразуется в SQL-запрос к реляционным данным.

OLAP Client

OLAP-клиент - приложение оперативной аналитической обработки данных, которое позволяет пользователям выполнять нужный им анализ на основе результатов запросов к OLAP- серверу. Мощные аналитические возможности определяют диапазон модификации и представления информации (в двумерных и многомерных таблицах), средств вычисления и классификации данных. Пользователи могут легко изменять представление информации, чтобы изменить угол обзора информации. Они могут менять расположение измерения «Время» в отчете, (размещая его, например, в строках или столбцах отчета). Используется интуитивная навигация по базе данных, поскольку многомерная модель отображает информацию в том виде, в котором большинство людей ее себе представляет. Работа с OLAP- клиентом может быть не намного сложнее работы с программой электронных таблиц: OLAP-клиент выполняет произвольные запросы и результаты их отображает в OLAP-таблице. В этой таблице пользователь, хорошо знакомый с принципом работы с таблицами типа MS Excel, может манипулировать данными и получать на экране или на бумаге сотни различных отчетов. В то же время, OLAP-клиенты могут обладать высокой функциональностью приложений для финансового моделирования, анализа продаж и других сфер.

OLTP (Online Transaction Processing)

Оперативная обработка транзакций применяется в оперативных/учетных системах, предназначенных для обработки множественных операций, (таких как ввод и вывод данных), поддерживающих повседневные бизнес-процессы.

Ontology

Онтология - это тип таксономии, представляющий собой набор понятий и их отношений в пределах предметной области. Онтологии обеспечивают первичное представление знаний в семантической сети и используются при обмене информацией между семантическими веб-приложениями.

Open Data

Открытые данные - структурированные данные, являющиеся машиночитаемыми, понятными и свободно распространяемыми по наименее ограничительной лицензии.
Данные являются открытыми, если они могут быть свободно доступны, использованы, изменены и совместно использованы кем-либо для любых целей при условии соблюдения требований о предоставлении атрибуции и/или совместного использования.

Page Dimension

Измерение страницы - измерение, которое фактически не появляется в качестве одного из двух измерений, представленных на отображаемой странице (ось строк и ось столбцов). Измерение страницы используется "за кулисами" для ограничения данных в видимых измерениях. Измерение страницы поддерживают не все OLAP клиентские приложения.

Pareto Principle (20-80 Rule)

Принцип Парето, принцип 20/80 - эмпирическое правило, в наиболее общем виде утверждающее: "20% усилий дают 80% результата, а остальные 80% усилий - лишь 20% результата". Принцип Парето имеет следующие важные следствия:

• значимых факторов немного, а тривиальных большое количество, поэтому лишь некоторые действия приводят к важным результатам;
• большая часть усилий не дает желаемых результатов;
• то, что мы видим, не всегда соответствует действительности, т.е. всегда имеются скрытые факторы.

PDСA (Plan Do Check Act)

Цикл Деминга — это непрерывность процесса управления через последовательные этапы: планирование, выполнение, проверка / изучение, корректировочное действие.

Periodic Snapshot Grain

Степень детализации таблицы фактов, при которой в каждой строке таблицы фактов хранятся данные на конец определенного периода времени (дня, месяца, квартала и т.д.). Записи в таблицу фактов вставляются вне зависимости от того, происходили ли изменения в значении фактов.

PIM (Product Information Management)

Система централизованного управления данными о продуктах, товарах. Это процесс управления всей информацией, необходимой для продвижения и продажи продуктов по каналам дистрибуции.

Pivot

Вращение данных - процесс вращения таблицы с данными, т.е. преобразования столбцов в строки и наоборот.

Power User

Продвинутый пользователь, обладающий хорошими навыками анализа, вплотную использующий хранилище данных / витрины данных и способный написать свои собственные специализированные запросы (Ad hoc Queries).

Predictive Analysis

Упреждающий анализ, направленный на изучение поведения потребителя в определенной ситуации, на основе результатов которого аналитик разрабатывает прогноз его действий в схожей ситуации в будущем. Полученные результаты могут быть представлены в виде системы баллов. Эффективным инструментом такого анализа являются аналитические технологии Data Mining, позволяющие выделять группы клиентов с похожим поведением, обнаруживать типичные поведенческие шаблоны, строить прогнозные модели.

Preventive Data Quality Control

Превентивный контроль качества данных - контроль, направленный на недопущение возникновения ошибки в данных.

Process

Процесс - это упорядоченные и направленные события, определенные их конечной целью или результатом, достигаемым в данных конкретных условиях.

Proprietary Format

Пропиетарный формат - собственный формат файла, кодировка которого либо секретна, либо ограничена лицензией. Это формат, которым владеет и управляет компания. Для надежного считывания данных в таком формате может потребоваться специальное программное обеспечение. В отличие от открытого формата, описание формата может быть конфиденциальным или неопубликованным и может быть изменено компанией в любое время. Проприетарное программное обеспечение обычно считывает и сохраняет данные в собственном формате.

Prototyping

Прототипирование - быстрая "черновая" реализация базовой функциональности для анализа работы системы в целом. После этапа прототипирования обязательно следуют этапы пересмотра архитектуры системы, разработки, реализации и тестирования конечного продукта. Во время прототипирования видна более детальная картина устройства системы.

RACI Matrix

Матрица RACI - таблица по принятию действий или решений, в которой на пересечении каждого действия и роли возможно назначить значения:

• R – Responsible - исполняет;
• A – Accountable - ответственный;
• C – Consult before doing - консультирует до исполнения;
• I – Inform after doing - оповещается после исполнения.

Reactive Data Quality Control

Реактивный контроль качества данных - контроль, срабатывающий по факту возникновения ошибки.

RDM (Reference Data Management)

Управление справочными данными. Справочные данные - это данные, используемые для классификации или категоризации других данных. Как правило, они статичны или медленно меняются с течением времени. Различие между справочными данными и мастер-данными заключается в том, что изменение значений справочных данных может потребовать соответствующего изменения в бизнес-процессе, а изменение основных данных всегда будет управляться как часть существующих бизнес-процессов.

Real-Time System

Система реального времени - аппаратная и/или программная система, которая должна реагировать в точно определенное время на заданные события.

Reconversion

Реконсиляция - Проверка соответствия данных предъявляемым к ним требованиям путем сверки этих данных с иными данными (более агрегированными или детальными, полученными из различных источников, до и после передачи данных из системы в систему и т.п.). Контроль целостности и идентичности данных между источниками.

Reference Data, Dictionaries, Lookup Data

НСИ (нормативно-справочная информация) - ссылочные данные, базовые данные для всех информационных систем, часто представляющие собой нормативы, сокращения, акронимы, стандарты, словари, например, справочники счетов, тематические классификаторы.

Relation Cardinality

Кратность связи атрибутов таблиц, мощность связи (отношения). Мощность связи служит для обозначения отношения числа экземпляров родительской сущности к числу экземпляров дочерней. Различают четыре типа мощности связи:
Родитель Потомок Описание

1 - 0, 1 или много - Одному экземпляру родительской сущности соответствует 0, 1 или много экземпляров дочерней;
1 - 1 или много - Одному экземпляру родительской сущности соответствует 1 или много экземпляров дочерней;
1 - 0 или 1 - Одному экземпляру родительской сущности соответствует 0 или 1 экземпляров дочерней. Множественные значения исключены;
1 - Конкретное число - Одному экземпляру родительской сущности соответствует точно установленное количество экземпляров дочерней.

Relational Database

Реляционная база данных - совокупность отношений, содержащих всю информацию, которая должна храниться в базе. На физическому уровне - это хранение данных в виде двумерных таблиц, связанных между собой с помощью ключевых полей.

Replication

Репликация - синхронизация физически распределенных копий наборов данных. Репликация представляет собой набор технологий копирования и распространения данных и объектов баз данных между базами данных, а также синхронизации баз данных для поддержания согласованности.

Requirements Engineering

Анализ требований - это процесс сбора требований к программному обеспечению (ПО), их систематизации, документирования, анализа, выявления противоречий, неполноты, разрешения конфликтов в процессе разработки программного обеспечения. В англоязычной среде также говорят о дисциплине «инженерия требований» В процессе сбора требований важно принимать во внимание возможные противоречия требований различных заинтересованных лиц, таких как заказчики, разработчики или пользователи.

Requirements Traceability Matrix

Матрица отслеживания связей требований - таблица, отображающая логические связи между функциональными требованиями и другими системными артефактами, в том числе функциональными требованиями, пользовательскими требованиями, бизнес-требованиями, элементами архитектуры и дизайна, модулями кода, тестами и бизнес-правилами.

Repository

Репозиторий - центральное хранилище для сохранения, управления и предоставления доступа ко многим типам цифрового материала, в том числе метаданным. В репозитории можно искать, обнаруживать, использовать повторно информацию.

Reverse Engineering

Обратное проектирование - восстановление информационной модели по существующей базе данных, получение метаданных базы, которая была построена без необходимой сопроводительной документации, с целью модификации и/или расширения существующей структуры. После завершения процесса восстановления модели в специализированных CASE-продуктах (SAP Sybase PowerDesigner, ERwin, IDERA ER/Studio, Dell Toad Data Modeler, TimeXtender, Navicat Data Modeler и другие) таблицы автоматически "раскладываются" на ER-диаграмме.

RI (Referential Integrity)

Правила ссылочной целостности - обеспечивают целостность базы данных по ссылкам, то есть соответствия друг другу значений первичных и внешних ключей отношений (сущностей), можно задать логические правила, которые будут выполняться при выполнении операций добавления, удаления и редактирования записей.

Role-playing Dimension

Ролевое измерение - измерение, использующееся несколько раз в пределах одной многомерной базы данных, но с разной смысловой нагрузкой (например, измерение "Даты" может использоваться как измерения "Даты заказы", "Даты оплаты", "Даты отгрузки").

Root Cause Analysis

Анализ первопричины проблемы, т.е. фактора, который, если его устранить, устранит саму проблему. Анализ первопричин - это процесс понимания факторов, способствующих возникновению проблем, и способов их устранения.

Running Total

Нарастающий итог - промежуточный итог суммирования последовательности чисел после добавления к сумме очередного числа.

SaaS (Software as a Service)

Модель использования программного обеспечения, при которой программное обеспечение работает у провайдера услуги SaaS на его оборудовании, а пользователи пользуются программным обеспечением удаленно, оплачивая как услугу. При этом данные приложений также хранятся у провайдера. Такой способ позволяет экономить на приобретении оборудования, программного обеспечения, их обслуживании и сократить время на внедрение решения.

Scalability

Масштабируемость - способность программно-аппаратной платформы расширяться для удовлетворения растущей нагрузки. Касательно хранилищ данных, масштабируемость является одним из критических требований к СУБД хранилища данных. СУБД должна иметь возможность масштабироваться при росте объемов данных, количества пользователей, сложности обрабатываемых запросов.

SCD (Slowly Changing Dimension)

Медленно изменяющаяся размерность - способ моделирования истории данных в измерениях, различают типы:

• SCD 1 - изменяющиеся атрибуты измерения перезаписываются, а история не хранится; таким образом, размерность хранит только последние значения атрибутов;
• SCD 2 - хранятся как старые, так и новые значения атрибутов. При изменении данных в источнике, в размерность добавляется строка с актуальными значениями, а строка, хранящая старые значения, помечается, как архивная;
• SCD 3 – каждый такой атрибут строки измерения представлен в виде двух полей - для хранения текущего значения и предыдущего значения. При изменении данных в источнике, в измерение не добавляется новая строка, а осуществляется лишь перезапись значений атрибутов, что позволяет хранить ограниченную историю.

Schema

Схема - подмножество объектов базы данных. Схемы используются для организации объектов в более управляемые части. Как правило, схема имеет владельца и список доступа для содержимого схемы. Общее использование схем: изоляция объектов, содержащих конфиденциальные данные от общей пользовательской базы; изоляция представлений только для чтения из базовых таблиц в реляционных базах данных; обозначение логического набора объектов базы данных.

Scoping

Ограничения при отборе объектов базы данных в специальный поднабор. Последующие операции (обновление, отбор) могут влиять только на те ячейки, которые включены в этот поднабор. Например, при желании с помощью этой функции пользователи могут получать и обновлять только данные об оборотах продаж в Москве за декабрь.

Scraping

Извлечение данных из немашиночитаемого источника, такого как веб-сайт или PDF-документ, и создание структурированных данных из результата. Очистка набора данных от экрана требует специального программирования и требует больших затрат времени программиста, поэтому обычно это делается только после того, как все другие попытки получить данные в структурированном виде потерпели неудачу. Могут возникнуть юридические вопросы о том, нарушаются ли авторские права или условия предоставления услуг.

Self-Service

ВІ практика, позволяющая бизнес-пользователям иметь доступ к корпоративным данным и работать самостоятельно без бэкграунда в статистическом анализе.

Semantic Layer

Семантический слой - часть архитектуры программного обеспечения, которая использует метаданные для перевода наименований физических полей базы данных в понятные бизнес- пользователям термины для использования в отчетности и анализа.

Semantic Modeling

Семантическое моделирование - тип моделирования знаний, который описывает сеть понятий (идей или тем, представляющих интерес) и их отношений. Включенные в информационные системы семантические модели позволяют пользователям задавать вопросы об информации нетехническим способом.

Semi-additive Measure

Полуаддитивная мера - фактический показатель, который можно суммировать вдоль некоторых, но не всех измерений. Например, балансовые остатки нельзя суммировать по измерению дат.

Sensitive Data

Конфиденциальные данные - данные, которые являются частными, личными или собственностью и должны быть защищены от несанкционированного доступа.

Sharding

Сегментирование - это процесс, в котором небольшие фрагменты базы данных изолированы и могут обновляться независимо от других сегментов, поэтому репликация - это просто копия файла. Поскольку кусочки небольшие, то обновление / перезапись может быть оптимальным.

Sizing

Определение оптимальной конфигурации аппаратно-программных средств.

SLA (Service Level Agreement)

Соглашение об уровне обслуживания. Формальное соглашение между Поставщиком услуг (внешней компанией или внутренним подразделением) и Заказчиком об уровне и качестве предоставляемых услуг. Соглашение, как правило, описывает услуги в нетехнических терминах, на уровне понимания заказчика и содержит критерии их оценки.

Slice

Срез - подмножество многомерного массива данных, соответствующее единственному значению одного или нескольких элементов измерений, не входящих в это подмножество. Если рассматривать термин "срез" с позиции конечного пользователя, то наиболее часто его роль играет двумерная проекция куба.

Slice and Dice

Продольные и поперечные, плоскостные и объемные срезы, дословно - "нарезка на кубики и ломтики". Термин, использующийся для описания функции сложного анализа данных, обеспечиваемой средствами OLAP. Выборка данных из многомерного куба с заданными значениями и заданным взаимным расположением измерений. При этом пользователь обычно использует операции вращения концептуального куба данных и детализации/агрегирования данных.

Snapshot

Снимок - представление, срез набора данных в определенный момент времени.

Snowflake Schema

Схема "снежинка" - принцип проектирования моделей данных хранилищ и витрин данных, при котором таблицы делятся на два типа - таблица фактов и таблица измерений. В отличие от схемы "звезда", в которой, в общем случае, каждое измерение хранится в одной единственной таблице, в схеме "снежинка" таблица измерений нормализуется с тем, чтобы каждый уровень иерархии измерения хранился в отдельной нормализованной таблице.

SOA (Service-Oriented Architecture)

Сервис-ориентированной архитектура - функциональность предоставления данных или обновления данных обеспечивается посредством четко определенных вызовов служб между приложениями, которые не должны иметь прямого взаимодействия или знания о внутренней работе других приложений. SOA обеспечивает возможность для организации заменять системы без необходимости внесения в них существенных изменений.

SMART

SMART-методология - методология, помогающая определить конкретные и измеримые цели. Аббревиатура SMART состоит из пяти первых букв английских слов: Specific (конкретный): Measurable (измеримый); Achievable (достижимый); Relevant (релевантный); Time-Bound (ограниченный во времени).

SOP (Standard Operating Procedures)

Стандартные операционные процедуры - подробные письменные инструкции, призванные обеспечить единообразие выполнения какой-либо процедуры.

Sparse Data

Разреженные данные - данные в многомерном кубе, которые существуют для небольшого количества комбинаций измерений.

Spatial Database

Пространственная база данных оптимизирована для хранения и обращений к данным, представляющих объекты, определенных в геометрическом пространстве. Эта база поддерживает несколько примитивных типов: простые геометрические фигуры (прямоугольник, куб, цилиндр и др.) и геометрию, состоящую из коллекции точек, линий и фигур. Spatial базы используют пространственный индекс для быстрого поиска значений.

Spreadsheet

Таблица данных и вычислений, которые могут быть обработаны в интерактивном режиме с помощью специализированных электронных таблиц, таких как Microsoft Excel или OpenOffice Calc.

SQL Lineage

автоматизированные инструменты (например, Octopai, Manta) анализа потоков, происхождения данных, которые автоматически находят, парсят, анализируют SQL-код и выстраивают, визуализируют связи между объектами данных без вмешательства человека.

Star Schema

Схема "звезда" - в проектировании хранилищ и витрин данных, подход к проектированию базы данных хранилища или витрины данных, при котором таблицы базы данных разбиваются на два класса - таблица фактов (Fact Table) и таблица измерения (Dimension Table). В таблицах фактов, при этом, хранится числовая информация, представляющая интерес для анализа, а в таблицах измерений - описательная информация относительно разрезов анализа. Такой подход к проектированию позволяет реализовать многомерный подход к анализу данных на реляционных СУБД. Альтернативным подходом считается проектирование хранилища данных в третьей нормальной форме (3NF) с отметками времени для хранения истории изменений. Схема "звезда" является денормализованной структурой (в части таблиц измерений). Более нормализованной версией схемы "звезда" является схема "снежинка" (Snowflake Schema), в которой таблицы измерений нормализуются.

Surrogate Key

Суррогатный ключ - в проектировании реляционных баз данных (и в многомерном моделировании, в частности) - искусственный ключ, обычно реализуемый в виде возрастающей последовательности целых чисел, не имеющей сама по себе смысла в реальном мире. Используется исключительно в технических целях - для соединения таблиц измерений с таблицами фактов.

Swimlane

Модель анализа в виде диаграммы, показывающей последовательные шаги потока бизнес-процессов предлагаемой программной системы. Процесс разбивается на визуальные компоненты, называемые дорожками, которые показывают системы или действующие лица, выполняющие эти шаги.

Taxonomy

Таксономия, кластеризация - результат классификации и группировки сложных систем, представляемый обычно в виде иерархической структуры. Выделенные для исследования элементы и группы объектов подсистемы называются таксонами.
Таксономия (систематика) - теория классификации и систематизации сложноорганизованных областей действительности, имеющих обычно иерархическое строение; это учение о принципах и практике классификации и систематизации. Математически таксономией является древообразная структура классификаций определенного набора объектов. Вверху этой структуры - объединяющая единая классификация (корневой таксон), которая относится ко всем объектам данной таксономии. Таксоны, находящиеся ниже корневого, являются более специфическими классификациями, которые относятся к поднаборам общего набора классифицируемых объектов.

TCO (Total Cost of Ownership)

Совокупная стоимость владения включает затраты на приобретение, установку, администрирование, и поддержку устройства (например, компьютера или программного продукта), обучение сотрудников.

Technical Documentation

Техническая документация — набор документов, используемых при проектировании, конструировании, разработке, изготовлении и использовании объектов: зданий, сооружений, промышленных изделий, программное и аппаратное обеспечение. В составе технической документации выделяют:

• конструкторские документы, включая чертежи, спецификации, пояснительные записки, технические отчеты, технические условия, эксплуатационные и ремонтные документы (регламенты, руководства);
• технологические документы, включая документы, необходимые для организации производства и ремонта изделия;
• программные документы, сопровождающие программы для электронно-вычислительных машин.

Temporal Database

Темпоральная база данных - реляционная база данных со встроенной поддержкой параметров времени. Темпоральные базы позволяют управлять текущими, предлагаемыми и историческими версиями данных в одной базе данных. Временные аспекты обычно включают действительное время и время транзакции (эти атрибуты могут комбинироваться, чтобы сформировать битемпоральные данные):

• Допустимое время - это период времени, когда факт является истинным по отношению к сущности, которую он представляет в реальном мире;
• Время транзакции - это период, в течение которого факт, хранящийся в базе данных, считается истинным.

Term

Термин - слово или словосочетание, являющееся названием некоторого понятия какой-нибудь области науки, техники, искусства. Термины служат специализирующими, ограничительными обозначениями характерными для сферы предметов, явлений, их свойств и отношений. В отличие от слов общей лексики, которые зачастую многозначны и несут эмоциональную окраску, термины в пределах сферы применения однозначны и лишены экспрессии. В отличие от слов общего языка, термины не связаны с контекстом.

Text Mining

Анализ текста - процесс извлечения информации из текстовых данных на основе обнаружения в них закономерностей. Как правило, данный анализ включает этапы структурирования исходного текста (обычно путем синтаксического анализа, добавления одних лингвистических структур и удаления других с последующей вставкой результатов в базу данных), поиска закономерностей в данных, а также оценивания и интерпретации результатов.

Transactional Data, Operational Data

Транзакционные данные - данные, описывающие событие (транзакцию) и всегда имеют измерение во времени; данные, отображающие результат выполнения транзакции и относящийся непосредственно к бизнес-операции, например, счёт за услуги, накладная к отгрузке, банковская операция.

Transparency

Прозрачность заключается в предоставлении данных, характеристик, алгоритмов и методов обучения для внешнего контроля и является основой для построения надежных моделей.

Trickle Feed

Режим загрузки данных в хранилище относительно небольшими порциями в режиме, близком к реальному времени. Является одной из компонент смешанной нагрузки на хранилище данных.

Trigger

Триггеры - это программы, которые выполняются CУБД всякий раз при выполнении операций вставки, замены или удаления (INSERT, UPDATE, DELETE) записей.

Tuple

Кортеж, соответствующий данной схеме отношения в базе данных, — это множество пар {имя атрибута, значение}, которое содержит одно вхождение каждого имени атрибута, принадлежащего схеме отношения. Значение является допустимым значением домена данного атрибута (или типа данных, если понятие домена не поддерживается). Тем самым, степень (арность) кортежа, т.е. число элементов в нем, совпадает с арностью соответствующей схемы отношения. Проще говоря, кортеж — это набор именованных значений заданного типа.

UAT (User Acceptance Testing)

Пользовательское приемочное тестирование используется для проверки функциональности системы с точки зрения пользователя.

Unstructured Data

Неструктурированные данные - данные, которые либо не имеют заранее определенной структуры, не имеют модели данных, либо их модель данных сложна для использования приложениями. Обычно неструктурированные данные содержатся в документах (например, опубликованных в Интернет сети); текст, почта, и другие данные, у которых нет формально определенной и описанной структуры.
Полуструктурированные данные - данные не имеющие определенной схемы или имеющие переменную структуру, но тем не менее, имеющие формальное описание в виде тегов и/или определенных маркеров. Слабоструктурированные данные организованны в соответствии с определенными правилами и форматами, допускающими возможность произвольного представления информации, или произвольные по форме данные, которые не имеютзаранее определенной структуры. XML - пример полуструктурированных данных.
Структурированные данные - транзакционные данные, имеющие формально определенную схему.

Vertical Partitioning

Вертикальное секционирование - разделение реляционной таблицы на две или несколько таблиц с целью группировки столбцов, которые обычно участвуют в запросах совместно. Данный прием направлен на повышение производительности запросов к реляционным таблицам за счет уменьшения дискового пространства для хранения групп связанных друг с другом столбцов. Недостатком данного подхода является необходимость соединения таблиц в случае, если в запросе участвуют столбцы из разных таблиц, на которые была разделена исходная таблица.

View

Представление - виртуальная таблица, служащая средством представления данных из одной или нескольких таблиц, содержащих фактические атрибуты и / или производные атрибуты. Обычное представление в процессе его использования запускает SQL-запросы к базе данных, обеспечивающие получение и отображение текущих значений входящих в представление атрибутов.

Virtualization

Виртуализация - организация работы приложений, когда приложение работает не под управлением операционной системы на реальном оборудовании, а под управлением, так называемой гостевой операционной системы. При этом основная операционная система эмулирует для гостевой операционной системы реальное оборудование. Таким образом достигается возможность запуска нескольких гостевых операционных систем под управлением основной операционной системы, что обеспечивает изоляцию приложений друг от друга и от их негативного влияния (утечка памяти, сбои) на основную операционную систему. Это также позволяет сохранять состояние приложения и гостевой операционной системы в виде снимков для запуска после сбоев. Все вышеперечисленное повышает надежность работы приложений, сокращает расходы на оборудование.

Visualization

Визуализация - комплекс методов представления результатов анализа данных в форме, наиболее удобной для восприятия и интерпретации человеком. Визуализация может применяться для мониторинга процесса построения и работы различных аналитических моделей, проверки гипотез и других целей, связанных с проведением анализа. Современные методы визуализации широко используют не только обычные графики и диаграммы, но и 3-х мерное представление, анимацию и другие мультимедийные технологии.

Workflow

Рабочий процесс - перемещение данных, документов или задач через рабочий процесс; обычно используется в контексте технологий, автоматизирующих рабочие процессы.

Workflow Monitoring

Мониторинг технологического процесса, рабочего потока ETL с целью выявления узких мест и улучшения производительности процесса. Мониторинг процесса не что-то, что выполняется администратором 1-2 раза, а затем он занимается чем-то другим. Мониторинг не заканчивается, когда все ETL-пакеты отработали без ошибок, это постоянный процесс. Вот некоторые примеры метрик для технологического мониторинга:

• плохо индексированные SQL-запросы;
• не оптимально составленные SQL-запросы, вызывающие неправильный выбор оптимизатора запросов
• медленные преобразования, трансформации данных
• необоснованные сортировки
• плохое управление агрегациями
• запоздалые операции захвата изменившихся записей
• возможность выполнения операций в параллельном режиме
• недостаточность оперативной памяти серверов
• нехватка процессорной мощности серверов
• нехватка свободного дискового пространства
• чрезмерное количество дисковых операций ввод-вывода
• ненужная/избыточная регистрация операций в журнале транзакций
• увеличение сетевого трафика и проблемы с передачей файлов.

295

Глоссарий по управлению данными (Data Governance), хранилищам данных (DWH) и бизнес-аналитике (BI)

5C