Качество данных

УПРАВЛЕНИЕ ДАННЫМИ  Качество Категория:  УПРАВЛЕНИЕ ДАННЫМИ MDM, НСИ, DQ
Опубликовал:         27.11.2025        К списку статей        print

Качество данных - степень пригодности данных для их конкретного предполагаемого использования. Качественные данные позволяют принимать точные и обоснованные решения.

Требования к качеству данных - формализованные, документированные, однозначно трактуемые ожидания потребителей данных касательно структуры, состава и характеристик данных, соответствующих решаемым задачам.


Добиться качества всех данных в организации вряд ли представляется возможным (чрезвычайно дорого), но качество критических данных обеспечить необходмо.

    Достаточным условием для отнесения атрибута к критическому является соответствие хотя бы одному из следующих критериев:
  • • влияет на бухгалтерский учёт или финансовую отчётность;
  • • влияет на отчётность для высшего руководства организации;
  • • влияет на отчётность для государственных надзорных орагнов, регуляторов;
  • • используется в основных бизнес-процессах (например, для банков - расчёт долговой нагрузки на клиента);
  • • чувствительны к риску потерь, убытков, регуляторным рискам, комплаенс рискам, репутационным рискам.



Качество данных определяется степенью соответствия нижеследующим характеристикам:

Характеристика данных Характеристика данных EN Описание характеристики данных Пояснения Примеры
Точность и достоверность Accuracy Отсутствие семантических и синтаксических ошибок в данных. Соответствие данных реальным и статистически наиболее вероятным значениям. Насколько данные соответствуют реальному миру. • Попадание проверяемых значений в доверительный интервал
• Соответствие значения поля эталонному значению или маске
• Кросс-проверка значений записей на сходимость с записями эталонной таблицы / отчёта
• Проверка значения поля на соответствие технических правилам (NOT NULL, не пробел, не 0 или больше 0, только цифры, только буквы, только цифры и буквы, соответствует расчётному контрольному числу и другие)
• Проверка значений нескольких полей записи на соблюдение правил
• Дата начала договора младше даты окончания договора, а дата досрочного закрытия договора старше даты начала и меньше даты окончания
• ИНН физического лица РФ - строка в 12 знаков, допускаются только цифры
• Если пол пациента мужской, то поле "Беременность" не должно быть заполнено
Полнота Completeness Достаточность объёма данных - количества хранящихся записей;
глубины данных - периода данных, необходимого для целей аналитического, управленческого, бухгалтерского учёта, для применения в моделях оценки рисков, для формирования отчётности для надзорных органов;
широты данных - охвата данными всех разрезов, характеристик сущностей, которые используются для целей аналитического, управленческого, бухгалтерского учёта, для применения в моделях оценки рисков, для формирования отчётности для надзорных органов.
Насколько заполнены все необходимые поля записей, нет ли отсутствующих или неполных записей.
• Наличие значений в обязательных полях записей
• Плотность (заполненность) полей
• Наличие необходимого объёма данных в глубину истории
• Наличие необходимых полей (ширина) записей
• Совпадение контрольных сумм, количества записей между таблицей источника и таблицей приёмника
• В кредитном договоре должен быть обязательно заполнен alfa-3 код валюты договора
Актуальность Relevance Обязательность фиксирования данных на определённую дату для использования в целях аналитического, управленческого, бухгалтерского учёта, для применения в моделях оценки рисков, для формирования отчётности для надзорных органов. Отклонение фактического времени размещения / обновления проверяемого набора базы данных в информационной системе или файловом ресурсе от зафиксированного в техническом регламенте (контракте) на поставку данных либо в бизнес-правилах.
Своевременность Timeliness Доступность актуальных данных в нужное потребителям данных время в соответствии с выполняемыми ими функциями.
Насколько данные свежие и доступны тогда, когда они нужны.
• Объекты недвижимости 1-ой или 2-ой категории качества, связанные с открытыми на отчётную дату договорами обеспечения, должны иметь оценку стоимости, выполненную не более года назад. Исключение для объектов обеспечения клиентов малого бизнеса.
Согласованность Consistency Взаимная непротиворечивость данных, хранящихся во всех внутренних системах компании, во всех доступных внешних системах, в том числе в бумажных документах, а также целостность соответствующих идентификационных ссылок в структурах баз данных.
Насколько данные согласованы (нет противоречий) между собой в рамках одной системы, между разными системами или во времени.
• Соблюдение структуры набора данных, записи, потока данных
• Использование корректных типов данных для полей записей, в сообщениях, в потоках данных
• Соответствие единиц измерения для значений
• Наличие корректных идентификаторов / справочных кодов в ссылочных полях (соответствие значений первичных и внешних ключей записей таблиц)
• Выявление дубликатов записей
• Проверка уникальности идентификаторов записей
• Столбцы для числовых кодов валют по ISO 4217 должны иметь строковый тип данных Char(3)
Целостность Integrity Способность данных сохранять свою структуру и связи с другими данными при их изменении и хранении (часто пересекается с согласованностью).
Доступность Availability Возможность использования данных в существующих формах представления. • Разница во времени между самым поздним моментом доступности для потребителей актуальных наборов данных и параметрами технического регламента поставки данных
• Разница во времени между моментом регистрации факта в информационной системе и моментом доступности фактов потребителям данных
Контролируемость Controllability Возможность осуществления контроля качества и происхождения (родословной) данных, в том числе отражение источников данных, истории создания, изменения, преобразования, хранения, передачи и удаления данных. • Наличие описанной актуальной модели данных
• Наличие описаний проверяемых данных в Каталоге данных
• Каждый объект (таблица) в физической модели данных обязательно должен иметь описание (комментарий) на русском языке и краткое бизнес-наименование на русском языке, уникальное в рамках модели.
Восстанавливаемость Recoverability Возможность сохранять заданный уровень функциональности и качества данных после их утраты, повреждения или изменения в результате сбоев или иных нарушений работы информационных систем, ошибок и непредусмотренных действий персонала. Наличие проверяемых наборов данных в плане (документе) обеспечения непрерывности и восстановления информационной системы



Контроль качества данных по этапам:

 №  Этап контроля качества данных Участок контроля Виды контроля качества данных Примеры проверок качества данных
 I  Ввод данных Графический интерфейс пользователя, бизнес-приложения • Форматно-логический контроль (контроль заполнения атрибутов сущностей, формата значений, соблюдение несложной логики заполнения, использование единых справочников) Код страны назначения должен заполняться посредством выбора значения (альфа-3 кода) из общероссийского классификатора стран мира
 II  Автоматизация бизнес-операций Интеграционные взаимодействия, обработка событий между системами • Форматно-логический контроль
• Контроль ссылочной целостности (наличие связей [PK-FK] между объектами одной или нескольких информационных систем)
• Контроль согласованности жизненного цикла (статусов) связанных объектов
• Контроль согласованности управленческого и бухгалтерского учёта
Кредитный договор должен иметь ссылку на клиента
 III  Пост-контроль внутри информационной системы В информационной системе • Контроль ссылочной целостности
• Контроль согласованности жизненного цикла (статусов) связанных объектов
Остаток на конец периода должен быть равен арифметической сумме начального сальдо и оборотов за период
 IV  Пост-контроль при передаче в платформу данных Стриминг или ETL в платформу данных • Форматно-логический контроль
• Контроль ссылочной целостности
Сумма по договору должна быть числом больше нуля
 V  Кросс-системный пост-контроль Оперативный слой хранилища данных, озеро данных • Контроль ссылочной целостности
• Контроль согласованности жизненного цикла (статусов) связанных объектов
Пациент, на которого ссылается параметр визита №1, должен пройти скрининг
 VI  Пост-контроль в платформе данных Слой базовых витрин хранилища данных, специализированные витрины данных • Пост-контроль по массиву данных по критериям сбора отчётности, многомерных моделей, моделирования и т.п. Записи по активностям коллекторских агентсв справедливы только для кредитных договоров с просрочкой 90+ дней

Предотвращение появления некачественных данных, выявление и устранение ошибок в данных должно быть максимальным в точке зарождения данных, и приоритет реализации последующих контролей должен быть максимально близок к месту появления данных.



Метрики качества данных

Ниже в таблице приведены примеры ключевых показателей эффективности (КПЭ):

КПЭ Методика расчёта КПЭ Аналитические разрезы КПЭ Дополнительно сопутствующие КПЭ
Доля проверок качества данных, корректно и полностью описанных в карточке Отношение количества проверок качества данных, по которым корректно и полностью заполнена карточка в соответствии с методикой ведения реестра проверок качества данных, к общему количеству зарегистрированных проверок. • Отчётный период
• Менеджер качества данных
• Бизнес-домен
• Абсолютные значения показателей
• Динамика изменений к предыдущему периоду
Доля обращений по качеству данных, закрытых в установленный срок Отношение количества обращений по качеству данных, закрытых (устранённых) в установленный срок, к общему количеству решённых обращений. • Отчётный период
• Служба по решению инцидентов по качеству данных
• Бизнес-домен
• Этап, где обнаружена проблема с данными (система-источник / ODS / ядро DWH / витрина / BI или отчёт)
• Абсолютные значения показателей
• Динамика изменений к предыдущему периоду
Доля обращений по качеству данных, по которым выявлена корневая причина Отношение количества обращений по качеству данных, по которым выявлена корневая причина, к общему количеству зарегистрированных инцидентов. • Отчётный период
• Служба по решению инцидентов по качеству данных
• Место, где возникла корневая причина проблемы качества данных (система-источник / ODS / ядро DWH / витрина / BI или отчёт)
• Абсолютные значения показателей
• Динамика изменений к предыдущему периоду
Доля нарушений характеристики данных Отношение количества нарушений конкретной характеристики данных в столбце набора данных к общему количеству записей в наборе данных. • Выборка данных / таблица, взятые для профилирования данных (Data Profiling)
• Характеристика данных (см. таблицу выше)
• Динамика изменений к предыдущему сеансу профилирования данных



Функции участников процесса решения инцидентов качества данных:

Роль Функции Компетенции Полномочия в информационных системах
Потребитель данных Формулирование требования / обращения по качеству данных Экспертиза по предметной области, бизнес-процессам Регистрация требования / инцидента по качеству данных в системе обращений
Менеджер по работе с обращениями по качеству данных (1-ая линия сопровождения) • Проведение первичного анализа инцидента качества данных
• Разрешение инцидента качества данных в периметре своих возможностей, распределение задач на участников смежных ролей
• Привлечение участников смежных ролей для анализа и устранения ошибок качества данных
• Навыки работы с данными - SQL-запросы, BI-навигация, специализированные инструменты
• Навыки работы с Каталогом данных
• Навыки работы в системе проектирования моделей данных
• Элементарное, базовое понимание смысла данных информационной системы
• Доступ к системе обращений с специальной ролью
• Доступ на чтение данных в продуктивном контуре информационных систем; доступ к логам, журналам информационных систем
• Доступ на чтение Каталога данных
• Доступ на чтение в системе проектирования моделей данных
2-ая линия сопровождения • Подтверждение или исключение технологических сбоев (падение ETL/ELT, потоков, стриминга данных и т.п.) в / из причины возникновения ошибки качества данных
• Устранение технологических сбоев в зоне своей ответственности
• Подробное понимание архитектуры, функционала информационной системы на уровне администратора
• Навыки работы с Каталогом данных
• Навыки работы в системе проектирования моделей данных
• Полный доступ к продуктивному контуру информационной системы; доступ к логам, журналам информационной системы
• Доступ на чтение Каталога данных
• Доступ на чтение в системе проектирования моделей данных
3-я линия сопровождения Внесение изменений в программный код, структуру данных согласно производственного процесса • Опыт разработки информационной системы
• Подробное понимание функционала информационной системы, смысла данных
• Полный доступ к контуру разработки информационной системы
• Доступ на чтение Каталога данных
• Доступ на чтение в системе проектирования моделей данных
Офицер данных • Организация работ по корректировке данных бизнес-пользователями информационной системы
• Принятие решения о соответствии / несоответствии данных требованиям к качеству данных
• Детальное понимание бизнес-процессов, генерирующих данные в информационной системе
• Детальное понимание бизнес-смысла данных информационной системы
• Доступ к системе обращений с специальной ролью
• Доступ на чтение данных в продуктивном контуре информационных систем; доступ к логам, журналам информационных систем
• Доступ на чтение Каталога данных
• Доступ на чтение в системе проектирования моделей данных



Энергия идеи   dvbi.ru                    Последнее изменение: 2025-11-30 19:56:06Z         Возрастная аудитория: 14-70         Комментариев:  0
Теги:  Управление Методология DWH BI
Пожалуйста, проголосуйте и ниже поставьте лайк:   rating


  Комментарии

Нет комментариев.


Следующая статья:   
Предыдущая статья:  SQL оконные функции
К списку статей