BUSINESS INTELLIGENCE ГЛОССАРИЙ

5C

Система организации рабочего места / пространства, состоящая из 5-ти последовательных шагов (начинающихся с буквы C): Создание своих мест, Сортировка, Содержание в чистоте, Стандартизация, Совершенствование.

 

Activity Diagram

Диаграмма взаимодействия - аналитическая модель, которая позволяет динамически представить систему, посредством изображения потока процессов от одной функции к другой. Схожа с блок-схемой.

 

Additive Measure

Аддитивная мера - фактический показатель, который можно суммировать вдоль всех измерений.

 

Ad hoc Analysis

Произвольный спонтанный анализ с использованием не предопределенных заранее запросов, анализ-"прострел". Такой анализ характерен для продвинутых бизнес-пользователей хранилищ и витрин данных.

 

Ad hoc Query

Незапланированный запрос информации из базы данных, который обычно создается и запускается по мере текущей необходимости и не может быть предусмотрен заранее. Как правило, это выражение на языке запросов SQL, которое создается подготовленным пользователем непосредственно или с помощью графического инструмента доступа к данным.

 

Aggregation

Агрегирование - процесс преобразования данных с высокой степенью детализации к более обобщенному их представлению, заключающийся в расчете так называемых агрегатов - значений, получаемых в результате применения преобразования к некоторому набору фактов, связанных с определенными измерениями. Чаще всего используется простое суммирование, вычисление среднего, выбор максимального/минимального значений.

 

Affinity Analysis

Метод анализа данных для поиска связей между двумя или более событиями (объектами анализа) тем, что они происходят в относительно один и тот же момент времени, например, анализ потребительской корзины (Market Basket Analysis), целью которого является определение, какие из товаров с большой вероятностью покупаются вместе.

 

API  (Application Programming Interface)

Интерфейс прикладного программирования - набор интерфейсных функций, процедур, предоставляемый для других (внешних) разработчиков для развития функционала приложения или обеспечения возможности интеграции с приложением.

 

Artifact

Артефакт - явление, процесс, предмет, свойство предмета или процесса, возникновение которого в наблюдаемых условиях невозможно или маловероятно по естественным причинам. Следовательно, его возникновение служит признаком целенаправленного вмешательства в наблюдаемый процесс или наличия некоторых неучтенных факторов.

 

Artifical Intelligence

Искусственный интеллект - направление в компьютерной науке, относящееся к развитию систем обработки данных, которые выполняют функции, обычно связываемые с человеческим интеллектом, в частности, такие функции, как рассуждение, обучение и самосовершенствование.

 

Atomic Data

Атомарные данные - это атрибуты, которые хранят единственное значение и не являются ни списком, ни множеством значений. Это такие данные, разделение которых на составляющие приведет к потере их смысла с точки зрения решаемой задачи.

 

Batch Calculation

Пакетные вычисления - выполнение вычислений над данными DWH, не требующих интерактивного взаимодействия с пользователем. Как правило, пакетные вычисления выполняются для агрегации данных, расчета производных показателей, выполнения регламентных отчетов.

 

Batch Window

Окно загрузки - промежуток времени, в течение которого возможна загрузка данных из оперативных систем в хранилище данных. Зависит от многих факторов, в частности, от режима работы предприятия. Как правило, это технологическое окно, время наименьшей активности, например, в ночное время.

 

Bitmap Index

В реляционной СУБД - индекс, использующий битовые карты для индексирования данных. Данный вид индекса хорошо повышает производительность для запросов, в которых участвуют столбцы со сравнительно небольшим количеством уникальных значений, особенно, если над проиндексированными этим типом индекса столбцами выполняются логические операции (и, или, не). Данный тип индекса помогает при соединении таблиц измерений с таблицами фактов в схеме Star Schema. Недостатком этого типа индекса является снижение производительности при частых обновлениях исходных таблиц.

 

Brainstorming

Мозговой штурм - оперативный метод решения проблемы на основе стимулирования творческой активности, когда участники обсуждения высказывают возможно большее количество вариантов решения, в том числе самых экзотических. Далее из общего числа озвученных идей выбираются наиболее удачные, которые могут быть воплощены на практике. Это метод экспертного оценивания.

 

Bridge Table

Вспомогательная таблица - в проектировании схем "звезда" (Star Schema), таблица с составным первичным ключом, предназначенная для связи таблицы измерения с таблицей фактов в тех случаях, когда простого внешнего ключа (Foreign Key) недостаточно для выражения сложных взаимоотношений (связи многие-ко-многим) между измерением и фактами, например, в случае моделирования причин и фактов покупок. Этот тип таблицы также называют associative table или helper table.

 

Business Intelligence

BI - совокупность процессов, методов, инструментов, программного обеспечения, предназначенных для предоставления сотрудникам (процессам) организации качественной, достоверной и своевременной информации для принятия стратегических и тактических решений.

 

Business Process

Бизнес-процесс - система последовательных, целенаправленных и регламентированных видов деятельности, в которой посредством управляющего воздействия и при поддержке определенных ресурсов входы процесса преобразуются в выходы (результаты), представляющие ценность для потребителей. Главное свойство бизнес-процесса - он состоит из конечной и взаимосвязанной последовательности действий, которая определяется отношениями, мотивами, ограничениями и ресурсами внутри конечного множества субъектов и объектов, объединяющихся в систему с целью получения конкретного результата, отчуждаемого или потребляемого ей же самой.

 

Business Rule

Бизнес-правило - политика, предписание, стандарт, правило или вычислительная формула, определяющая или ограничивающая некоторые стороны бизнес- процессов.

 

Cache

Кэш - временное место для хранения данных, которые часто требуются для работы приложения. Кэш-память быстрее с точки зрения скорости доступа, чем основное запоминающее устройство (например, диск).

 

Calculated Member

Вычисленный элемент - элемент измерения, чья величина определяется величинами других элементов (например, математическими или логическими приложениями). Вычисленный элемент может представлять собой часть OLAP-сервера или быть описан пользователем в течение интерактивной сессии. Вычисленный элемент - это любой элемент, который не вводится, а вычисляется (например, процент прироста продаж).

 

Case Study

Подробное описание и разбор реальной бизнес ситуации.

 

CDC   (Change Data Capture)

Захват измененных данных - процесс обнаружения новых, измененных или удаленных записей в системах-источниках (захват дельты) и обновления хранилища/витрины данных в соответствии с этими изменениями.

 

CDI   (Customer Data Integration)

Интеграция клиентских данных - набор процессов, инструментов, программного обеспечения для создания и поддержки достоверной, качественной, своевременной информации о клиентах организации. Актуально для организаций, собирающих данные о клиентах в различных информационных системах, или получающих их извне.

 

CDO  (Chief Data Officer)

Директор по качеству данных является руководителем, ответственным в компании за корпоративную обработку данных, систему качества данных и Data Mining. Он подчиняется директору по технологиям (CTO) или исполнительному директору (CEO). В организации, где признают важность информационных технологий, бизнес-аналитики, интеграции данных и обработки данных, его роль включает в себя определение стратегических приоритетов компании в области информационных систем и возможностей, выявление новых возможностей для бизнеса, применительно к данным, оптимизацию доходов от данных и представление данных как стратегического бизнес-актива.

 

Cell

Ячейка - является простейшей точкой в многомерном пространстве куба. Куб состоит из ячеек для всех возможных комбинаций всех измерений куба. Ячейка - часть данных, получаемая путем определения одного элемента в каждом измерении многомерного массива. Ячейки гиперкуба могут быть пусты или полны. Когда значительное число ячеек куба не содержит данных, говорят, что он "разрежен" ("sparse").

 

Clickstream Data

Данные, генерируемые при активностях пользователя, связанных с навигацией по web-сайту.

 

Columnar Database

Колоночная база данных - СУБД, в которой данные при хранении группируются не по строкам, а по столбцам (то есть, "соседними" являются не данные из двух столбцов одной и той же строки, а данные из одного и того же столбца, но из разных строк). Такие СУБД обладают определенными преимуществами перед традиционными СУБД со строковым хранением. В частности, они демонстрируют высокую производительность на аналитических запросах.

 

Composite Key

Составной ключ - первичный или альтернативный ключ, состоящий из более, чем одного столбца таблицы.

 

Conformed Dimensions

Согласованные измерения являются совершенно идентичными, или одно измерение является точным подмножеством другого как на уровне определения (одинаковые названия столбцов), так и на уровне значений (одинаковые значения в строках).

 

Connection

Соединение источника данных OLAP или куба. Как правило, кубы расположены на выделенных серверах. При добавлении соединения в рабочее пространство/книгу это соединение предоставляет всю информацию, необходимую для доступа, работы с данным в этом кубе.

 

CRC   (Cyclic Redundancy Check)

Функция, на вход которой подается фрагмент данных любой длины, а на выходе получается число, как правило, 32-битное целое. Наиболее часто CRC применяется для обнаружения ошибок или изменений в данных при их передаче, хранении.

 

Cube

Куб - в технологии OLAP, абстракция, использующаяся для представления многомерного пространства для осуществления анализа информации. Куб состоит из измерений (Dimension), имеющих, как правило, иерархическую природу, и фактов (Fact) - числовых значений, представляющих интерес для анализа. Аналитический OLAP-куб - это многомерный разреженный массив предрасчитанных полных и непротиворечивых данных, ориентированный на высокоскоростную отработку произвольных запросов.

 

Dashboard

Информационная панель - аналитическое приложение, предназначенное, в основном, для лиц, принимающих решения, основным принципом которого является графическое представление информации в виде различных графиков, шкал и других визуальных средств (Data Visualization). Современные информационные панели характеризуются интерактивностью и возможностями интеграции с другими приложениями класса Business Intelligence (BI).

 

Data Accuracy

Точность данных - степень того, насколько правильно (корректно) данные отражают "реальную жизнь" объектов, представленных в модели.

 

Data Aggregation

Агрегированные данные - данные, полученные в результате применения процесса комбинирования других элементов данных. Например: суммированием, вычислением среднего, нахождением максимального значения и т.п.

 

Data Anomaly

Аномалией называется такая ситуация в таблице базы данных, которая приводит к противоречию в базе данных либо существенно усложняет её обработку. Причиной является излишнее дублирование данных в таблице, которое вызывается наличием функциональных зависимостей от неключевых атрибутов.

 

Data Architect

Архитектор данных - высококлассный специалист по проектированию и организации информационных ресурсов, хранилищ данных. Он определяет, как будут храниться, интегрироваться данные, использоваться подразделениями и ИТ-системами. Он обеспечивает стандарты бизнес словаря, формирует модель данных, выражает требования к стратегии данных, ETL-процессам. Архитектор данных тесно связан с бизнес-архитектурой и считается одним из четырех основополагающих фигур архитектуры предприятия.

 

Data Cleansing

Очистка данных - процесс нахождения и исправления ошибок в данных. В хранилищах данных является частью процесса преобразования данных.

 

Data Compression

Сжатие данных - процесс кодирования данных, когда данные после кодирования занимают меньше места при хранении, чем изначально. В хранилищах данных сжатие данных позволяет удешевить их хранение и повысить производительность их обработки.

 

Data Consolidation

Консолидация данных позволяет организовать сбор данных из различных источников и форматов в единое хранилище.

 

Data Dictionary

Словарь данных - набор определений элементов данных, структуры и атрибутов, относящихся к определенной предметной области.

 

Data Flow Diagram

Диаграмма потока данных - модель анализа, описывающая процесс, хранилища данных, внешние сущности и потоки, характеризующие поведение данных, проходящих через бизнес-процессы или программные системы.

 

Data Granularity

Степень детализации данных в хранилищах данных - уровень детализации, хранящийся в строке таблицы. Степень детализации определяется первичным ключом (Primary Key) таблицы.

 

Data Harmonization

Гармонизация данных - работы по повышению качества (целостности, непротиворечивости, взаимоувязанности) данных с последующим уточнением и корректировкой в случае выявления разночтений.

 

Data Lake

Озеро данных - один из элементов экосистемы Big Data, где централизованно агрегируются большие объемы данных из множества источников. Данные озера хранятся в своем естественном формате. Без модели данных Data Lake превращается в Data болото.

 

Data Lineage and Dependency

Происхождение данных и зависимость данных тесно взаимосвязаны. Они рассказывают, как элементы данных рождались, как они добирались до места их окончательного размещения. Данный контроль, в частности, позволяет:
- быстро узнать, где и почему какой-либо элемент данных изменил свой тип, значение или размерность;
- быстро выполнить анализ влияния - как изменение в типе, размерности атрибута или метрики в хранилище данных повлияет на исходящие отчеты и приложения.

 

Data Management

Управление данными представляет собой сочетание технологий и процессов, которые совместно обеспечивают безопасность, точность, согласованность и актуальность всех данных организации. Наиболее важной задачей управления данными является постоянно поддерживать данные актуальными, точными, согласованными и обеспечивать своевременное предоставление информации заинтересованным сторонам в соответствии с политикой безопасности.

 

Data Mapping

Мэппинг данных - определение соответствия данных между потенциально различными семантиками одного или разных объектов; процесс создания отображений элементов данных между двумя отличными моделями данных. Мэппинг данных - один из первых шагов задачи интеграции данных включая:- преобразование данных (Data Transformation) между источником (Data Source) и местом назначения (Target, Data Destination);- идентификация связей данных как часть анализа происхождения данных;- обнаружение скрытых зависимостей между элементами данных;- консолидация нескольких баз данных в единственную базу данных с выяснением избыточных столбцов данных для устранения или объединения

 

Data Mart

Витрина данных - проблемно-ориентированное подмножество данных из хранилища (или оперативной системы), проектируемое для удовлетворения потребностей определенной группы пользователей, работающих с определенным кругом задач, и требований безопасности доступа к данным. Витрины данных позволяют решить проблемы с производительностью, так как содержат меньший объем данных, агрегируют данные заранее и используются целевой аудиторией пользователей. Витрина данных предназначена для проведения анализа данных. Источником данных для витрины данных может быть хранилище данных (зависимая витрина данных) или оперативная система (независимая витрина данных).

Витрина данных - реляционная форма представления тематического подмножества денормализованных заранее агрегированных данных, максимально приближенных к конечному пользователю и обеспечивающих наиболее удобный способ представления данных для выполнения регламентированных и нерегламентированных (ad-hoc) запросов.

 

Data Mining

Интеллектуальный анализ данных - выявление скрытых закономерностей или взаимосвязей между элементами данных. Интеллектуальный анализ данных решает задачи классификации и предсказания, и используя различные алгоритмы. Знания, добываемые методами Data Mining принято представлять в виде моделей. В качестве таких моделей выступают: деревья решений, кластеры, ассоциативные правила, статистические методы (факторный анализ, дисперсионный анализ, анализ временных рядов, дескриптивный анализ, корреляционный и регрессионный анализ, компонентный анализ, дискриминантный анализ). Существует большое количество программных продуктов, реализующих алгоритмы Data Mining.

 

Data Modeling

Моделирование данных - процесс анализа и проектирования модели данных, с целью определить и проанализировать требования к данным, спроектировать логические и физические структуры данных, поддерживающие эти требования, определить бизнес- и технические метаданные (Metadata).

 

Data Profiling

Профилирование данных - исследование данных для выяснения статистических характеристик данных (характер распределения величин, наличие выбросов, параметры выборки), а также их качества (наличие пропущенных значений, нарушения целостности данных, другие ошибки в данных). Профилирование часто выполняют при исследовании данных в системах- источниках (Source System) перед разработкой процедур ETL.

 

Data Protection

Защита данных - применение административных, технических или физических мер защиты от несанкционированного доступа к данным.

 

Data Quality

Качество данных - уровень пригодности данных для использования. Под качеством понимают соответствие совокупности факторов: соответствие типам данных, согласованность и непротиворечивость, полнота, уместность, отсутствие избыточности, соответствие предметной области и бизнес правилам, и другие показатели. Степень пригодности данных для принятия решений или другого их использования. Существует целый класс программного обеспечения Data Quality, предназначенного для мониторинга и повышения качества данных, а также соответствующие методологии.

 

Data Vault

Набор уникально связанных нормализованных таблиц, содержащих детальные данные, отслеживающих историю изменений и предназначенных для поддержки одной или нескольких функциональных областей бизнеса. Это - гибридный подход, обобщающий лучшие свойства третьей нормальной формы (3NF) и схемы Звезда (Star Schema).

 

Data Warehouse Appliance

Комплекс для хранилищ данных - специализированная совокупность СУБД и аппаратной платформы, заранее интегрированные в единое целое, предназначенная выступать как платформа для хранилищ данных.

 

Decision Tree

Дерево решений - модель анализа, которая графически показывает действия системы в ответ на все комбинации набора факторов, которые влияют на поведение части системы.

 

Degenerate Dimension

Вырожденное измерение (например, номер счета-фактуры, номер билета) имеет степень гранулярности схожую с таблицей фактов, и поэтому зачастую такие значения хранятся в самой таблице фактов.

 

Dense

Многомерная база данных считается плотной, если относительно высокий процент, не менее 10%, возможных комбинаций её измерений содержит данные.

 

Derived Data

Производные данные - данные, получаемые с помощью математических вычислений или других манипуляций, выполняемых в процессе загрузки данных в хранилище и витрины данных (например, определение эффективной ставки кредитования).

 

Desktop OLAP

Клиентский OLAP - класс продуктов OLAP, реализующих функциональность OLAP на стороне клиентской рабочей станции. Такие продукты могут хранить и обрабатывать многомерные кубы без осуществления доступа к серверу OLAP и даже в отсутствие доступа к сети.

 

Dimension

Измерение - в многомерном моделировании измерение - сущность, которая служит средством группировки числовых величин, хранящихся в таблице фактов. Логический контейнер для атрибутов, в разрезе которых осуществляется анализ.

 

Dimension Table

Таблица измерений хранилища данных содержит подробную информацию, относящуюся к специфичным атрибутам записей о фактах, такую как номер контракта, демографические данные о клиенте, описание продуктов. Из таблиц измерений в многомерных OLAP-кубах создаются измерения.

 

Distributed DW   (Distributed Data Warehouse)

Распределенное хранилище данных - данные хранятся не в единой платформе, а распределены между несколькими системами.

 

Domain

Домен - набор возможных значений элемента данных (например, столбца таблицы базы данных).

 

Drilling

Анализ с изменением уровня агрегирования - метод анализа информации в BI-системах, предусматривающий переход с одного уровня иерархии элементов измерений на другой с целью получения более детализированной информации (Drill-Down Analysis) или более агрегированной (Roll-Up Analysis).

 

DSS (Decision Support System)g

Система поддержки принятия решений - приложение, предназначенное для анализа больших массивов данных, прогнозирования, а также выполнения вычислений любой степени сложности. Служба поддержки принятия решений (Decision Support Services). Термин, используемый для обозначения версии бэта 3 продукта Plato корпорации Microsoft, который впоследствии был переименован в SQL Server OLAP Services, а затем - в SQL Server Analysis Services.

 

Dummy Value

Фиктивное значение, которое вводят операторы систем первичной регистрации данных и учетных систем, если исходное значение отсутствует, но соответствующее поле является обязательным для заполнения. Например, вместо номера телефона оператор может ввести значение типа 000-00-01, вместо указания реального возраста может ввести значение 160 и т.п. Фиктивное значение может быть введено и по иным причинам, например, если бумажная запись неразборчива. Аномальное значение должно насторожить пользователя о том, что оно никак не связано с реальным.

 

Dublicate

Дубликат - две и более записи называются дубликатами, если они содержат идентичные наборы значений всех полей. В большинстве случаев дубликаты вопринимаются как негативный фактор, и в процессе чистки данных от них избавляются. Это связано с тем, что дублирующиеся (кроме одной) записи бесполезны, не несут никакой полезной нагрузки, но могут повлиять на правильность результатов запросов.

 

DW Bus Matrix

Матрица шины хранилища данных - в методологии Ральфа Кимбалла, инструмент для проектирования и документирования шины хранилища данных (Data Warehouse Bus). Строки матрицы представляют бизнес-процессы организации, а столбцы - согласованные измерения. В ячейках матрицы - факты того, имеет ли отношение данное измерение к данному бизнес-процессу.

 

DWH   (Data Ware House)

Хранилище данных - предметно-ориентированная, вариантная по времени, не разрушаемая совокупность данных, предназначенная для поддержки управленческих решений. Это система, которая получает данные из используемых компанией баз данных и других источников данных, а затем трансформирует их в структуру, подходящую для выполнения бизнес- анализа. Зачастую к по-новому структурированным и организованным данным применяются математические операции, чтобы сделать их максимально полезными для принятия управленческих решений. Хранилище данных содержит долгосрочный набор данных.

 

EAV   (Entity Attribute Value)

Сущность-Атрибут-Значение - вертикальная модель базы данных - модель данных для описания сущностей, где количество атрибутов (параметров), которые могут быть использованы для описания сущностей, потенциально огромно, но в действительности применительно к конкретной сущности используется (заполняется) значительно меньше атрибутов. В математике эта модель известна как разреженная матрица (Sparse Matrix). Основная цель EAV - дать конечным пользователям возможность расширения модели без программирования. Концептуально EAV можно представить в виде таблицы из 3-х полей: "Сущность", "Атрибут", "Значение атрибута". Таблица содержит по одной строке на каждую тройку Сущность-Атрибут-Значение. На практике, для содержания индексации и правил проверки, поле "Значение атрибута" предпочитают разделять на отдельные поля по основным типам данных: строка, вещественное и целое числа, дата, большой двоичный объект (BLOB).

 

ELT   (Extract, Load and Transform)

Подход к разработке процессов преобразования данных для хранилища данных, при котором данные сначала извлекаются из систем-источников, затем загружаются без преобразований в целевую базу данных хранилища данных (в промежуточную область), а затем преобразуются средствами систем управления базами данных - СУБД (с использованием языка SQL) и вставляются в целевые таблицы хранилища данных. Инструменты, реализующие такой подход, способны генерировать операторы SQL для целевой СУБД хранилища данных, учитывая ее возможности и особенности синтаксиса.

 

ER-diagram  (Entity Relationship Diagram)

Диаграмма Сущность-Связь. Модель данных, описывающая сущности (таблицы) и атрибуты (столбцы), а также связи между сущностями. Применяется для проектирования моделей данных для реляционных СУБД (RDBMS).

 

ETL  (Extract, Transform and Load)

Набор процессов для извлечения данных из систем-источников, преобразования данных и их загрузки в целевую базу данных (как правило, в хранилище или витрину данных). Существует класс программного обеспечения, решающий задачи ETL (Informatica, DataStage, SQL Server Integration Services и другие). В последние годы в качестве эволюционной замены становится более актуальным термин Data Integration - интеграция данных

 

Fact Table

Таблицы фактов хранилища данных обычно содержит бизнес-информацию – количественные данные, такие как остатки, платежи, количество проданных товаров, номера клиентов и внешние ключи (Foreign Key) для связи с таблицами измерений. Как правило, таблицы фактов пополняются записями значительно больше, в разы, чем таблицы измерений. Из фактов в многомерных OLAP-кубах формируются размерности (Measures), к значениям которых достаточно часто применяются операции агрегирования, т.е. предварительного вычисления сгруппированных (свернутых) по уровням иерархии данных, что впоследствии приводит к увеличению скорости выполнения запросов.

 

FK (Foreign Key)

Внешний ключ - это поле в связанной таблице, значения которого совпадает с полем первичного уникального ключа в другой таблице. Внешние ключи обеспечивают возможность перекрестных ссылок на таблицы, а также обеспечивают поддержки целостности данных. Различают простые и составные (состоящие из нескольких полей) внешние ключи.

 

Formula

Формула - это объект базы данных, представляющий собой вычисление, правило или другое выражение для операций с данными в многомерной базе данных. Формула определяет отношения между элементами измерения и используется разработчиками баз данных OLAP для обеспечения большего по количеству наполнения для сервера базы данных. Формула используется конечными пользователями для моделирования отношения внутри предприятия и для персонализации данных с целью обеспечения большей наглядности и точности отображения.

 

Fraud Detection

Класс аналитических приложений, предназначенных для обнаружения мошенничеств. Примерами мошенничеств, обнаруживаемых в настоящее время системами подобного класса являются различные телефонные мошенничества, мошенничества с кредитными картами, отмывание денег, мошенничества в сфере розничной торговли, фальсификации страховых случаев для получения страховых выплат и другие.

 

Fuzzy Logic

Нечеткая логика - раздел математики, представляющий собой обобщение классической логики и теории множеств. Понятие нечеткой логики было введено профессором Лютфи Заде в 1965 г., который в своих работах расширил понятие "множеств" допущением, что функция принадлежности элемента к множеству может принимать любые значения в интервале [0..1], а не только 0 или 1.
Такие множества стали называть нечеткими. Предметом нечеткой логики является построение моделей приближенных рассуждений человека и использование их в анализе данных, системах управления и поддержки принятия решений в компьютерных системах. В основе нечеткой логики лежит описание объектов и процессов с помощью нечетких множеств.

 

GAP Analysis

Гэп-анализ - метод, который помогает получить подробную информацию между состоянием в настоящее время (What is ?) и желаемой ситуацией в будущем (What should be ?), чтобы определить пробелы, (требования, которые не выполняются) и разработать меры для удовлетворения этих требований в будущем.

 

GIGO   (Garbage In Garbage Out)

«Мусор на входе - мусор на выходе» - принцип, означающий, что при неверных входящих данных будут получены неверные результаты, несмотря на то, что сам по себе алгоритм правилен. Построение OLAP-куба на таких данных возводит бардак в степень 3.

 

Hadoop

Программный фрэймворк, который обеспечивает обработку огромных объемов данных в распределенной вычислительной среде.

 

Hashing

Хеширование - применение хэш-функции, которая преобразует поданный на вход большой фрагмент данных (с переменной длиной) в элемент данных простого типа (как правило, целочисленный). Хеширование интенсивно применяется в база данных, например, для распределения таблиц между единицами параллелизма в массивно-параллельных системах (MPP).

 

Hierarchy

Иерархия- логическая организация данных в виде древовидной структуры.

Несбалансированная иерархия (Ragged Hierarchy) - иерархия, в которой не все листовые элементы находятся на одном и том же уровне. Иными словами, количество уровней иерархии каждой ветви может отличаться.

 

Horizontal Partitioning

Горизонтальное секционирование - разделение строк таблицы на группы по определенным критериям с последующим их хранением в физически близких областях диска с целью ускорения обработки запросов, критерии выборки которых формируются с участием столбцов таблицы, которые также участвуют в критерии формирования секций (Partition). Горизонтальное секционирование также используется для распределения данных (Data Distribution) между единицами параллелизма в системе архитектуры MPP (массово-параллельная архитектура - Massive Parallel Processing).

 

Hub-and-Spoke Architecture

Архитектура хранилища данных, в которой данные в хранилище загружаются из различных источников, затем данные из хранилища перегружаются в витрины данных (Data Mart), к которым предоставляется доступ пользователям. При этом доступ к самому хранилищу данных пользователям не дается.

 

In-Database Analytics

Способ аналитической, сложной алгоритмической обработки данных, Data Mining, при которых данные не покидают СУБД, а для обработки используются либо механизмы СУБД (язык SQL), либо гибридные механизмы (например UDF, MapReduce). Используется для анализа больших и сверхбольших объемов данных. Позволяет сократить издержки на пересылку данных для анализа между СУБД и аналитическим сервером, а также позволяет использовать архитектуру MPP для обеспечения высокой производительности и масштабируемости аналитических алгоритмов при условии возможности их распараллеливания.

 

IMDB   (In-Memory Database)

Система управления базами данных, в которой хранение и обработка данных осуществляется в оперативной памяти компьютера. За счет этого производительность СУБД увеличивается. Такие СУБД могут быть в системах реального времени, или там, где обработка данных в памяти может ускорить аналитическую обработку.

 

Initial Load

Начальная загрузка - процесс загрузки данных в пустое хранилище данных, которое может отличаться от процессов инкрементальной загрузки, например, тем, что при первоначальной загрузке в хранилище могут загружаться исторические данные из архивных систем.

 

Junk Dimension

Мусорное измерение - создается абстрактное вспомогательное измерение, в которое из таблицы фактов переносятся поля с низким количеством повторений значений (низкой кардинальностью), например, флаги - да\нет, текстовые перечисления - мужской / женский. Таким образом, сокращается количество простейших измерений и количество полей - внешних ключей в таблице фактов, размер таблицы фактов (при количестве записей в ней в несколько десятков, сотен миллионов записей) может ощутимо уменьшиться. Подобное измерение особенно эффективно тогда, когда набор комбинаций значений детерменирован и ограничен до приемлемого уровня. Размер таблицы измерения будет 2^x строк, где x - количество показателей.

 

Key

Ключ - комбинация атрибутов, однозначно идентифицирующих каждый экземпляр сущности (каждую строку таблицы, каждую запись файла). Значения комбинации атрибутов должны быть уникальными для каждого экземпляра сущности (в пределах одной сущности). Чаще всего ключ состоит из одного атрибута – это простой ключ. Ключ, состоящий из нескольких атрибутов, – составной (сложный).

 

Knowledge Base

База знаний - специализированная база данных, используемая для управления знаниями, их сбором, хранением, поиском и предоставлением пользователю. Раздел искусственного интеллекта, изучающий базы знаний и методы работы с ними, называется инженерией знаний. Простейшие базы знаний могут использоваться для хранения данных об организации: документация, руководства, инструкции и т. д. Цель их создания - помочь новым и менее опытным работникам найти существующее описание способа решения какой-либо проблемы предметной области. База знаний -важнейший компонент интеллектуальных, экспертных информационных систем.

 

KPI   (Key Performance Indicator)

Ключевой показатель эффективности - величина, отражающая один из ключевых аспектов деятельности организации. Ключевые показатели эффективности предназначены для оценки успешности работы организации. Часто для расчета и отображения ключевых показателей эффективности используются системы Business Intelligence.

 

Late Arriving Data

Поздно прибывающие данные - иногда не все данные сразу доступны при регистрации операций в учетных системах, например, некоторые данные при оформлении заказа на склад, эти данные будут дозаполнены позже, когда поступят оригиналы документов. Различают поздно прибывающие факты (Late Arriving Facts) и поздно прибывающие измерения (Late Arriving Dimensions). Для обработки неизвестных значений (NULL) в существующие измерения, в зависимости от бизнес-требований, можно добавить следующие записи:
-1 - неизвестно (Unknown)
-2 - еще не поступило (Not Arrived)
-3 - не применимо (Not Applicable)

 

MapReduce

Это модель программирования и соответствующая реализация, предназначенные для параллельной обработки больших объёмов данных. Пользователи описывают функции map (обработка единицы входных данных с генерацией промежуточного результата) и reduce (агрегация промежуточных результатов в окончательный). Данная модель позволяет решать довольно широкий спектр задач. Программы, написанные с использованием модели MapReduce, автоматически распараллеливаются и выполняются на больших кластерах, состоящих из стандартного оборудования. При этом, распараллеливающий механизм заботится об автоматическом распределении работы между рабочими узлами, обеспечивает надёжность вычислений при сбоях отдельных рабочих узлов и обеспечивает необходимые коммуникации между узлами системы. Данный подход позволяет абстрагировать программиста от деталей реализации распараллеливания, предоставив ему простой интерфейс в виде двух функций. Модель MapReduce, довольно интенсивно используется компанией Google.

 

Measure

Мера, значение показателя, соответствующее некоторой ячейке куба данных. Различают меры:

  • - аддитивные (Additive Measure) - допускают агрегирование относительно любого измерения куба;
  • - неаддитивные (Nonadditive Measure) - значения не могут агрегироваться ни по какому измерению куба. Примером неаддитивной меры является процент (составные части меры могут быть аддитивными), или нечисловой (текстовый) факт;
  • - полуаддитивные (Semiadditive Measure) - допускают агрегирование относительно одних измерений и не допускают относительно других (например, остатки на складе, которые нельзя суммировать в разрезе времени)

 

MDM   (Master Data Management)

Набор процессов, методик и инструментов для управления справочными данными, классификаторами, каталогами предприятия, носящими нетранзакционный характер (например, данными о продуктах, клиентах, поставщиках) с целью формирования эталонных записей (Golden Records). MDM система предоставляет целостный взгляд на все составляющие бизнеса, в том числе на источники данных, авторство, качество, полноту и на потенциальное использование данных. Под нормативно-справочной информацией (НСИ) понимается условно-постоянная информация, представляющая собой совокупность взаимосвязанных справочников и классификаторов, а также нормативных документов, используемых в бизнес-процессах компании. Для реализации концепции MDM существует специальный класс программных продуктов.

 

MDX   (Multidimensional Expressions)

Язык запросов для простого и эффективного доступа к многомерным структурам данных, наподобие языка SQL для реляционных баз данных. Средство (язык) формулирования запросов к многомерным базам данных, позволяет осуществить доступ к данным в любых разрезах, комбинациях и порядке следования. Для проведения анализа можно получать всевозможные срезы данных (двумерный (плоскостной) срез, многомерный субкуб).

 

Member of Dimension

Элемент измерения - отдельное имя или идентификатор, служащий для определения положения и описания элемента данных в измерении. Основная единица данных, представляющая определенную величину в многомерной базе данных OLAP. Элемент может обладать родительскими и дочерними элементами. Январь 2009 года или 1-й квартал 2010 года являются типичными примерами элементов измерения «Отчетные даты».

 

Metadata

Метаданные - это данные о данных. Метаданные представляют собой описание структуры данных и методов их обработки. Кроме того, в метаданных может содержаться дополнительная информация о базах данных, являющихся источниками и получателями информации, о сведениях, помещаемых в хранилище, а также о качестве данных в хранилище. Также метаданные включают сведения о преобразованиях данных, о дате последнего обновления и о правах доступа пользователей к информации.

 

MPP   (Massively Parallel Processing)

Массивно-параллельные вычисления - метод распараллеливания операций по вычислению или обработке данных, при котором необходимые для проведения вычислений данные разделяются между единицами параллелизма так, что единицы параллелизма работают со своим фрагментом данных. Данный вид параллельной обработки активно используется в технологиях хранилищ данных. Яркими представителями технологий MPP в области хранилищ данных являются программно-аппаратные решения от Teradata, Netezza, Oracle Exadata, DATAllegro.

 

Multidimensional Model

Многомерная модель - многомерная структура, в рамках которой заранее определены правила расчета различных показателей на основе имеющихся данных.

 

Multi-Pass SQL

Многопроходный SQL - код на языке SQL, обычно, генерируемый средствами ROLAP, состоящий из нескольких операторов SQL (SQL Statement), которые помимо операторов манипуляции данными (SQL DML) могут включать операторы создания объектов (SQL DDL), таких как временные таблицы, представления, индексы. Многопроходный SQL предназначен для реализации сложных расчетов, повышения производительности выполнения отчетов.

 

Natural Key

Естественный ключ - первичный ключ, обладающий смысловой нагрузкой в противоположность суррогатному (синтетическому) ключу (Surrogate Key). Может состоять из нескольких полей. Естественные ключи более характерны в качестве первичных ключей для приложений OLTP, в то время, как в хранилищах данных первичными ключами, как правило, выступают суррогатные ключи.

 

Navigation

Навигация - этот термин используется для описания процесса, с помощью которого пользователями интерактивно изучают куб путем углубления, вращения и отображения. Обычно встречающихся в графических клиентах OLAP, подсоединенных к OLAP-серверу.

 

Normalization

Цель нормализации: исключить избыточное дублирование данных, которое является причиной аномалий, возникших при добавлении, редактировании и удалении кортежей (строк таблицы).

 

ODBC (Open DataBase Connectivity)

Открытый интерфейс взаимодействия с базами данных. API для взаимодействия приложений с базами данных, разработанный корпорацией Microsoft. Наиболее широко используется в среде Windows, существуют реализации для UNIX.

 

ODS   (Operational Data Store)

База данных для интеграции данных детального уровня из различных источников, собранные за некоторый промежуток времени, без хранения истории их изменения или с хранением ограниченной истории (в противоположность хранилищу данных, в котором хранятся данные за длительные периоды, а также хранится история их изменений). Обычно ODS наполняется данными в режиме, приближенному к реальному времени. Назначение ODS - оперативная отчетность по актуальным данным, еще не загруженным в хранилище данных, или иное оперативное использование. Структура данных ODS обычно близка к структуре данных источников данных (что, в частности, облегчает оперативную загрузку данных).

 

OLAP   (Online Analytical Processing)

Оперативный анализ данных - компьютерные аналитические приложения и технологии, поддерживающие сбор, управление, обработку и многомерное представление, отображение и визуализацию данных с целью анализа информации, составления и публикации отчетов. Термин OLAP был введен в 1993 году Эдвардом Коддом (Кодд – так же автор реляционной модели данных), сформулировавшим основные требования к функциональности программных продуктов, реализующих эти технологии. Технология (а также класс соответствующих программных продуктов), реализующая концепцию анализа данных, представленных в виде многомерного пространства. Данная технология предназначена, в основном, для быстрого просмотра и выполнения вычислений над агрегированными значениями показателей в различных разрезах.

Класс приложений и технологий, предназначенных для сбора, хранения и анализа многомерных данных в целях поддержки принятия управленческих решений. Технология OLAP позволяет аналитикам, менеджерам и управляющим сформировать свое собственное видение данных, используя быстрый, единообразный, оперативный доступ к разнообразным формам представления информации. Эти формы, полученные на основании первичных данных, позволяют пользователю сформировать полноценное представление о деятельности предприятия. Функциональность OLAP заключается в динамическом многомерном анализе консолидированных данных предприятия, направленном на поддержание следующих аналитических и навигационных видов деятельности пользователя:

  • - вычисления и моделирование, примененные к измерениям и/или их конкретным элементам, использующие информацию об иерархиях, анализ временных тенденций показателей (анализ трендов);
  • - формирование срезов многомерного представления для просмотра на экране;
  • - переход к более глубоким уровням детализации;
  • - доступ к исходным данным - "вращение" многомерных представлений: перемещение измерений с целью формирования различных форм представления данных на экране компьютера.

Клиент-серверная архитектура OLAP-продуктов обеспечивает одновременный доступ большого числа пользователей (многопользовательский режим работы). При этом анализ должен производиться одинаково быстро по всем аспектам информации (приемлемое время отклика - 5 с или менее) независимо от размера и сложности структуры базы данных. OLAP предоставляет удобные быстродействующие средства доступа, просмотра и анализа деловой информации. Пользователь получает интуитивно понятную модель данных, организуя их в виде многомерных кубов. Это позволяет ему проводить как сравнительный анализ показателей, так анализ различных сценариев по принципу "что-если", построенных на основе прогнозных и статистических данных компании.

Виды OLAP:

MOLAP

Это классическая форма OLAP, использует многомерную базу данных с сохранением как базовых данных, так и агрегированных (предрассчитанных) данных.

ROLAP

Работает напрямую с реляционным хранилищем: таблицы фактов и таблицы измерений хранятся в реляционных таблицах, а для хранения агрегатов создаются дополнительные реляционные таблицы.

HOLAP

Использует реляционные таблицы для хранения базовых данных и многомерные таблицы для агрегатов.

R-ROLAP (Real-Time ROLAP)

ROLAP реального времени, в котором не создаются дополнительные реляционные таблицы для хранения агрегатов. Агрегаты рассчитываются в момент запроса, при этом многомерный запрос к OLAP-системе автоматически преобразуется в SQL-запрос к реляционным данным.

 

OLAP Client

OLAP-клиент - приложение оперативной аналитической обработки данных, которое позволяет пользователям выполнять нужный им анализ на основе результатов запросов к OLAP- серверу. Мощные аналитические возможности определяют диапазон модификации и представления информации (в двумерных и многомерных таблицах), средств вычисления и классификации данных. Пользователи могут легко изменять представление информации, чтобы изменить угол обзора информации. Они могут менять расположение измерения «Время» в отчете, (размещая его, например, в строках или столбцах отчета). Используется интуитивная навигация по базе данных, поскольку многомерная модель отображает информацию в том виде, в котором большинство людей ее себе представляет. Работа с OLAP- клиентом может быть не намного сложнее работы с программой электронных таблиц: OLAP-клиент выполняет произвольные запросы и результаты их отображает в OLAP-таблице. В этой таблице пользователь, хорошо знакомый с принципом работы с таблицами типа MS Excel, может манипулировать данными и получать на экране или на бумаге сотни различных отчетов. В то же время, OLAP-клиенты могут обладать высокой функциональностью приложений для финансового моделирования, анализа продаж и других сфер.

 

OLTP   (Online Transaction Processing)

Оперативная обработка транзакций применяется в оперативных/учетных системах, предназначенных для обработки множественных операций, (таких как ввод и вывод данных), поддерживающих повседневные бизнес-процессы.

 

Page Dimension

Измерение страницы - измерение, которое фактически не появляется в качестве одного из двух измерений, представленных на отображаемой странице (ось строк и ось столбцов). Измерение страницы используется "за кулисами" для ограничения данных в видимых измерениях. Измерение страницы поддерживают не все OLAP клиентские приложения.

 

Pareto Principle (20-80 Rule)

Принцип Парето, принцип 20/80 - эмпирическое правило, в наиболее общем виде утверждающее: "20% усилий дают 80% результата, а остальные 80% усилий - лишь 20% результата". Принцип Парето имеет следующие важные следствия:

  • - значимых факторов немного, а тривиальных большое количество, поэтому лишь некоторые действия приводят к важным результатам;
  • - большая часть усилий не дает желаемых результатов;
  • - то, что мы видим, не всегда соответствует действительности, т.е. всегда имеются скрытые факторы.

 

Periodic Snapshot Grain

Степень детализации таблицы фактов, при которой в каждой строке таблицы фактов хранятся данные на конец определенного периода времени (дня, месяца, квартала и т.д.). Записи в таблицу фактов вставляются вне зависимости от того, происходили ли изменения в значении фактов.

 

Pivot

Вращение данных - процесс вращения таблицы с данными, т.е. преобразования столбцов в строки и наоборот.

 

Power User

Продвинутый пользователь, обладающий хорошими навыками анализа, вплотную использующий хранилище данных / витрины данных и способный написать свои собственные специализированные запросы (Ad hoc Queries).

 

Predictive Analysis

Упреждающий анализ, направленный на изучение поведения потребителя в определенной ситуации, на основе результатов которого аналитик разрабатывает прогноз его действий в схожей ситуации в будущем. Полученные результаты могут быть представлены в виде системы баллов. Эффективным инструментом такого анализа являются аналитические технологии Data Mining, позволяющие выделять группы клиентов с похожим поведением, обнаруживать типичные поведенческие шаблоны, строить прогнозные модели.

 

Process

Процесс - это упорядоченные и направленные события, определенные их конечной целью или результатом, достигаемым в данных конкретных условиях.

 

Prototyping

Прототипирование - быстрая "черновая" реализация базовой функциональности для анализа работы системы в целом. После этапа прототипирования обязательно следуют этапы пересмотра архитектуры системы, разработки, реализации и тестирования конечного продукта. Во время прототипирования видна более детальная картина устройства системы.

 

Relation Cardinality

Кратность связи атрибутов таблиц, мощность связи (отношения). Мощность связи служит для обозначения отношения числа экземпляров родительской сущности к числу экземпляров дочерней. Различают четыре типа мощности связи:
Родитель    Потомок       Описание

  • 1 - 0, 1 или много - Одному экземпляру родительской сущности соответствует 0, 1 или много экземпляров дочерней;
  • 1 - 1 или много - Одному экземпляру родительской сущности соответствует 1 или много экземпляров дочерней;
  • 1 - 0 или 1 - Одному экземпляру родительской сущности соответствует 0 или 1 экземпляров дочерней. Множественные значения исключены;
  • 1 - Конкретное число - Одному экземпляру родительской сущности соответствует точно установленное количество экземпляров дочерней.

 

Relational Database

Реляционная база данных - совокупность отношений, содержащих всю информацию, которая должна храниться в базе. На физическому уровне - это хранение данных в виде двумерных таблиц, связанных между собой с помощью ключевых полей.

 

Requirements Engineering

Анализ требований - это процесс сбора требований к программному обеспечению (ПО), их систематизации, документирования, анализа, выявления противоречий, неполноты, разрешения конфликтов в процессе разработки программного обеспечения. В англоязычной среде также говорят о дисциплине «инженерия требований» В процессе сбора требований важно принимать во внимание возможные противоречия требований различных заинтересованных лиц, таких как заказчики, разработчики или пользователи.

 

Requirements Traceability Matrix

Матрица отслеживания связей требований - таблица, отображающая логические связи между функциональными требованиями и другими системными артефактами, в том числе функциональными требованиями, пользовательскими требованиями, бизнес-требованиями, элементами архитектуры и дизайна, модулями кода, тестами и бизнес-правилами.

 

Reverse Engineering

Обратное проектирование - восстановление информационной модели по существующей базе данных, получение метаданных базы, которая была построена без необходимой сопроводительной документации, с целью модификации и/или расширения существующей структуры. После завершения процесса восстановления модели в специализированных CASE-продуктах (SAP Sybase Power Designer, ERwin, IDERA ER/Studio, Dell Toad Data Modeler, TimeXtender, Navicat Data Modeler и другие) таблицы автоматически "раскладываются" на ER-диаграмме.

 

RI (Referential Integrity)

Правила ссылочной целостности - обеспечивают целостность базы данных по ссылкам, то есть соответствия друг другу значений первичных и внешних ключей отношений (сущностей), можно задать логические правила, которые будут выполняться при выполнении операций добавления, удаления и редактирования записей.

 

Role-playing Dimension

Ролевое измерение - измерение, использующееся несколько раз в пределах одной многомерной базы данных, но с разной смысловой нагрузкой (например, измерение "Даты" может использоваться как измерения "Даты заказы", "Даты оплаты", "Даты отгрузки").

 

Running Total

Нарастающий итог - промежуточный итог суммирования последовательности чисел после добавления к сумме очередного числа.

 

SaaS   (Software as a Service)

Модель использования программного обеспечения, при которой программное обеспечение работает у провайдера услуги SaaS на его оборудовании, а пользователи пользуются программным обеспечением удаленно, оплачивая как услугу. При этом данные приложений также хранятся у провайдера. Такой способ позволяет экономить на приобретении оборудования, программного обеспечения, их обслуживании и сократить время на внедрение решения.

 

Scalability

Масштабируемость - способность программно-аппаратной платформы расширяться для удовлетворения растущей нагрузки. Касательно хранилищ данных, масштабируемость является одним из критических требований к СУБД хранилища данных. СУБД должна иметь возможность масштабироваться при росте объемов данных, количества пользователей, сложности обрабатываемых запросов.

 

SCD   (Slowly Changing Dimension)

Медленно изменяющаяся размерность - способ моделирования истории данных в измерениях, различают типы:

  • - SCD 1 - изменяющиеся атрибуты измерения перезаписываются, а история не хранится; таким образом, размерность хранит только последние значения атрибутов;
  • - SCD 2 - хранятся как старые, так и новые значения атрибутов. При изменении данных в источнике, в размерность добавляется строка с актуальными значениями, а строка, хранящая старые значения, помечается, как архивная;
  • - SCD 3 – каждый такой атрибут строки измерения представлен в виде двух полей - для хранения текущего значения и предыдущего значения. При изменении данных в источнике, в измерение не добавляется новая строка, а осуществляется лишь перезапись значений атрибутов, что позволяет хранить ограниченную историю.

 

Scoping

Ограничения при отборе объектов базы данных в специальный поднабор. Последующие операции (обновление, отбор) могут влиять только на те ячейки, которые включены в этот поднабор. Например, при желании с помощью этой функции пользователи могут получать и обновлять только данные об оборотах продаж в Москве за декабрь.

 

Self-Service

ВІ практика, позволяющая бизнес-пользователям иметь доступ к корпоративным данным и работать самостоятельно без бэкграунда в статистическом анализе.

 

Semantic Layer

Семантический слой - часть архитектуры программного обеспечения, которая использует метаданные для перевода наименований физических полей базы данных в понятные бизнес- пользователям термины для использования в отчетности и анализа.

 

Semi-additive Measure

Полуддитивная мера - фактический показатель, который можно суммировать вдоль некоторых, но не всех измерений. Например, балансовые остатки нельзя суммировать по измерению дат.

 

Sizing

Определение оптимальной конфигурации аппаратно-программных средств.

 

SLA (Service Level Agreement)

Соглашение об уровне обслуживания. Формальное соглашение между Поставщиком услуг (внешней компанией или внутренним подразделением) и Заказчиком об уровне и качестве предоставляемых услуг. Соглашение, как правило, описывает услуги в нетехнических терминах, на уровне понимания заказчика и содержит критерии их оценки.

 

Slice

Срез - подмножество многомерного массива данных, соответствующее единственному значению одного или нескольких элементов измерений, не входящих в это подмножество. Если рассматривать термин "срез" с позиции конечного пользователя, то наиболее часто его роль играет двумерная проекция куба.

 

Slice and Dice

Продольные и поперечные, плоскостные и объемные срезы, дословно - "нарезка на кубики и ломтики". Термин, использующийся для описания функции сложного анализа данных, обеспечиваемой средствами OLAP. Выборка данных из многомерного куба с заданными значениями и заданным взаимным расположением измерений. При этом пользователь обычно использует операции вращения концептуального куба данных и детализации/агрегирования данных.

 

Snowflake Schema

Схема "снежинка" - принцип проектирования моделей данных хранилищ и витрин данных, при котором таблицы делятся на два типа - таблица фактов и таблица измерений. В отличие от схемы "звезда", в которой, в общем случае, каждое измерение хранится в одной единственной таблице, в схеме "снежинка" таблица измерений нормализуется с тем, чтобы каждый уровень иерархии измерения хранился в отдельной нормализованной таблице.

 

SOP (Standard Operating Procedures)

Стандартные операционные процедуры - подробные письменные инструкции, призванные обеспечить единообразие выполнения какой-либо процедуры.

 

Sparse Data

Разреженные данные - данные в многомерном кубе, которые существуют для небольшого количества комбинаций измерений.

 

Star Schema

Схема "звезда" - в проектировании хранилищ и витрин данных, подход к проектированию базы данных хранилища или витрины данных, при котором таблицы базы данных разбиваются на два класса - таблица фактов (Fact Table) и таблица измерения (Dimension Table). В таблицах фактов, при этом, хранится числовая информация, представляющая интерес для анализа, а в таблицах измерений - описательная информация относительно разрезов анализа. Такой подход к проектированию позволяет реализовать многомерный подход к анализу данных на реляционных СУБД. Альтернативным подходом считается проектирование хранилища данных в третьей нормальной форме (3NF) с отметками времени для хранения истории изменений. Схема "звезда" является денормализованной структурой (в части таблиц измерений). Более нормализованной версией схемы "звезда" является схема "снежинка" (Snowflake Schema), в которой таблицы измерений нормализуются.

 

Surrogate Key

Суррогатный ключ - в проектировании реляционных баз данных (и в многомерном моделировании, в частности) - искусственный ключ, обычно реализуемый в виде возрастающей последовательности целых чисел, не имеющей сама по себе смысла в реальном мире. Используется исключительно в технических целях - для соединения таблиц измерений с таблицами фактов.

 

Swimlane

Модель анализа в виде диаграммы, показывающей последовательные шаги потока бизнес-процессов предлагаемой программной системы. Процесс разбивается на визуальные компоненты, называемые дорожками, которые показывают системы или действующие лица, выполняющие эти шаги.

 

Taxonomy

Таксономия, кластеризация - результат классификации и группировки сложных систем, представляемый обычно в виде иерархической структуры. Выделенные для исследования элементы и группы объектов подсистемы называются таксонами.
   Таксономия (систематика) - теория классификации и систематизации сложноорганизованных областей действительности, имеющих обычно иерархическое строение; это учение о принципах и практике классификации и систематизации. Математически таксономией является древообразная структура классификаций определенного набора объектов. Вверху этой структуры - объединяющая единая классификация (корневой таксон), которая относится ко всем объектам данной таксономии. Таксоны, находящиеся ниже корневого, являются более специфическими классификациями, которые относятся к поднаборам общего набора классифицируемых объектов.

 

TCO (Total Cost of Ownership)

Совокупная стоимость владения включает затраты на приобретение, установку, администрирование, и поддержку устройства (например, компьютера или программного продукта), обучение сотрудников.

 

Text Mining

Анализ текста - процесс извлечения информации из текстовых данных на основе обнаружения в них закономерностей. Как правило, данный анализ включает этапы структурирования исходного текста (обычно путем синтаксического анализа, добавления одних лингвистических структур и удаления других с последующей вставкой результатов в базу данных), поиска закономерностей в данных, а также оценивания и интерпретации результатов.

 

Trickle Feed

Режим загрузки данных, при котором они загружаются в хранилище данных относительно небольшими порциями в режиме, близком к реальному времени. Является одной из компонент смешанной нагрузки на хранилище данных.

 

Trigger

Триггеры - это программы, которые выполняются CУБД всякий раз при выполнении операций вставки, замены или удаления (INSERT, UPDATE, DELETE) записей.

 

Tuple

Кортеж, соответствующий данной схеме отношения в базе данных, — это множество пар {имя атрибута, значение}, которое содержит одно вхождение каждого имени атрибута, принадлежащего схеме отношения. Значение является допустимым значением домена данного атрибута (или типа данных, если понятие домена не поддерживается). Тем самым, степень (арность) кортежа, т.е. число элементов в нем, совпадает с арностью соответствующей схемы отношения. Проще говоря, кортеж — это набор именованных значений заданного типа.

 

Unstructured Data

Неструктурированные данные - данные, которые либо не имеют модели данных, либо их модель данных сложна для использования приложениями. Обычно неструктурированные данные содержатся в документах (например, опубликованных в Интернет сети); текст, почта, и другие данные, у которых нет формально определенной и описанной структуры.
Полуструктурированные данные - данные не имеющие определенной схемы или имеющие переменную структуру, но тем не менее, имеющие формальное описание в виде тегов и/или определенных маркеров. XML - пример полуструктурированных данных.
Структурированные данные - транзакционные данные, имеющие формально определенную схему.

 

Vertical Partitioning

Вертикальное секционирование - разделение реляционной таблицы на две или несколько таблиц с целью группировки столбцов, которые обычно участвуют в запросах совместно. Данный прием направлен на повышение производительности запросов к реляционным таблицам за счет уменьшения дискового пространства для хранения групп связанных друг с другом столбцов. Недостатком данного подхода является необходимость соединения таблиц в случае, если в запросе участвуют столбцы из разных таблиц, на которые была разделена исходная таблица.

 

Virtualization

Виртуализация - организация работы приложений, когда приложение работает не под управлением операционной системы на реальном оборудовании, а под управлением, так называемой гостевой операционной системы. При этом основная операционная система эмулирует для гостевой операционной системы реальное оборудование. Таким образом достигается возможность запуска нескольких гостевых операционных систем под управлением основной операционной системы, что обеспечивает изоляцию приложений друг от друга и от их негативного влияния (утечка памяти, сбои) на основную операционную систему. Это также позволяет сохранять состояние приложения и гостевой операционной системы в виде снимков для запуска после сбоев. Все вышеперечисленное повышает надежность работы приложений, сокращает расходы на оборудование.

 

Visualization

Визуализация - комплекс методов представления результатов анализа данных в форме, наиболее удобной для восприятия и интерпретации человеком. Визуализация может применяться для мониторинга процесса построения и работы различных аналитических моделей, проверки гипотез и других целей, связанных с проведением анализа. Современные методы визуализации широко используют не только обычные графики и диаграммы, но и 3-х мерное представление, анимацию и другие мультимедийные технологии.

  

Workflow Monitoring

Мониторинг технологического процесса, рабочего потока ETL с целью выявления узких мест и улучшения производительности процесса. Мониторинг процесса не что-то, что выполняется администратором 1-2 раза, а затем он занимается чем-то другим. Мониторинг не заканчивается, когда все ETL-пакеты отработали без ошибок, это постоянный процесс. Вот некоторые примеры метрик для технологического мониторинга:

  • - плохо индексированные SQL-запросы;
  • - неоптимально составленные SQL-запросы, вызывающие неправильный выбор оптимизатора запросов
  • - медленные преобразования, трансформации данных
  • - необоснованные сортировки
  • - плохое управление агрегациями
  • - запоздалые операции захвата изменившихся записей
  • - возможность выполнения операций в параллельном режиме
  • - недостаточность оперативной памяти серверов
  • - нехватка процессорной мощности серверов
  • - нехватка свободного дискового пространства
  • - чрезмерное количество дисковых операций ввод-вывода
  • - ненужная/избыточная регистрация операций в журнале транзакций
  • - увеличение сетевого трафика и проблемы с передачей файлов.