Добиться качества всех данных в организации вряд ли представляется возможным (чрезвычайно дорого), но качество критических данных обеспечить необходмо.
| Характеристика данных |
Характеристика данных EN |
Описание характеристики данных |
Пояснения |
Примеры |
| Точность и достоверность |
Accuracy |
Отсутствие семантических и синтаксических ошибок в данных. Соответствие данных реальным и статистически наиболее вероятным значениям. Насколько данные соответствуют реальному миру.
|
• Попадание проверяемых значений в доверительный интервал
• Соответствие значения поля эталонному значению или маске
• Кросс-проверка значений записей на сходимость с записями эталонной таблицы / отчёта
• Проверка значения поля на соответствие технических правилам (NOT NULL, не пробел, не 0 или больше 0, только цифры, только буквы, только цифры и буквы, соответствует расчётному контрольному числу и другие)
• Проверка значений нескольких полей записи на соблюдение правил
|
• Дата начала договора младше даты окончания договора, а дата досрочного закрытия договора старше даты начала и меньше даты окончания
• ИНН физического лица РФ - строка в 12 знаков, допускаются только цифры
• Если пол пациента мужской, то поле "Беременность" не должно быть заполнено
|
| Полнота |
Completeness |
Достаточность объёма данных - количества хранящихся записей;
глубины данных - периода данных, необходимого для целей аналитического, управленческого, бухгалтерского учёта, для применения в моделях оценки рисков, для формирования отчётности для надзорных органов;
широты данных - охвата данными всех разрезов, характеристик сущностей, которые используются для целей аналитического, управленческого, бухгалтерского учёта, для применения в моделях оценки рисков, для формирования отчётности для надзорных органов.
Насколько заполнены все необходимые поля записей, нет ли отсутствующих или неполных записей.
|
• Наличие значений в обязательных полях записей
• Плотность (заполненность) полей
• Наличие необходимого объёма данных в глубину истории
• Наличие необходимых полей (ширина) записей
• Совпадение контрольных сумм, количества записей между таблицей источника и таблицей приёмника
|
• В кредитном договоре должен быть обязательно заполнен alfa-3 код валюты договора
|
| Актуальность |
Relevance |
Обязательность фиксирования данных на определённую дату для использования в целях аналитического, управленческого, бухгалтерского учёта, для применения в моделях оценки рисков, для формирования отчётности для надзорных органов.
|
Отклонение фактического времени размещения / обновления проверяемого набора базы данных в информационной системе или файловом ресурсе от зафиксированного
в техническом регламенте (контракте) на поставку данных либо в бизнес-правилах.
|
|
| Своевременность |
Timeliness |
Доступность актуальных данных в нужное потребителям данных время в соответствии с выполняемыми ими функциями.
Насколько данные свежие и доступны тогда, когда они нужны.
|
|
• Объекты недвижимости 1-ой или 2-ой категории качества, связанные с открытыми на отчётную дату договорами обеспечения,
должны иметь оценку стоимости, выполненную не более года назад. Исключение для объектов обеспечения клиентов малого бизнеса.
|
| Согласованность |
Consistency |
Взаимная непротиворечивость данных, хранящихся во всех внутренних системах компании, во всех доступных внешних системах, в том числе в бумажных документах,
а также целостность соответствующих идентификационных ссылок в структурах баз данных.
Насколько данные согласованы (нет противоречий) между собой в рамках одной системы, между разными системами или во времени.
|
• Соблюдение структуры набора данных, записи, потока данных
• Использование корректных типов данных для полей записей, в сообщениях, в потоках данных
• Соответствие единиц измерения для значений
• Наличие корректных идентификаторов / справочных кодов в ссылочных полях (соответствие значений первичных и внешних ключей записей таблиц)
• Выявление дубликатов записей
• Проверка уникальности идентификаторов записей
|
• Столбцы для числовых кодов валют по ISO 4217 должны иметь строковый тип данных Char(3)
|
| Целостность |
Integrity |
Способность данных сохранять свою структуру и связи с другими данными при их изменении и хранении (часто пересекается с согласованностью).
|
|
|
| Доступность |
Availability |
Возможность использования данных в существующих формах представления.
|
• Разница во времени между самым поздним моментом доступности для потребителей актуальных наборов данных и параметрами технического регламента поставки данных
• Разница во времени между моментом регистрации факта в информационной системе и моментом доступности фактов потребителям данных
|
|
| Контролируемость |
Controllability |
Возможность осуществления контроля качества и происхождения (родословной) данных, в том числе отражение источников данных, истории создания, изменения, преобразования, хранения, передачи и удаления данных.
|
• Наличие описанной актуальной модели данных
• Наличие описаний проверяемых данных в Каталоге данных
|
• Каждый объект (таблица) в физической модели данных обязательно должен иметь описание (комментарий) на русском языке и краткое бизнес-наименование на русском языке, уникальное в рамках модели.
|
| Восстанавливаемость |
Recoverability |
Возможность сохранять заданный уровень функциональности и качества данных после их утраты, повреждения или изменения в результате сбоев или иных нарушений
работы информационных систем, ошибок и непредусмотренных действий персонала.
|
Наличие проверяемых наборов данных в плане (документе) обеспечения непрерывности и восстановления информационной системы
|
|
|  №  |
Этап контроля качества данных |
Участок контроля |
Виды контроля качества данных |
Примеры проверок качества данных |
|  I  |
Ввод данных
|
Графический интерфейс пользователя, бизнес-приложения
|
• Форматно-логический контроль (контроль заполнения атрибутов сущностей, формата значений, соблюдение несложной логики заполнения, использование единых справочников)
|
Код страны назначения должен заполняться посредством выбора значения (альфа-3 кода) из общероссийского классификатора стран мира
|
|  II  |
Автоматизация бизнес-операций
|
Интеграционные взаимодействия, обработка событий между системами
|
• Форматно-логический контроль
• Контроль ссылочной целостности (наличие связей [PK-FK] между объектами одной или нескольких информационных систем)
• Контроль согласованности жизненного цикла (статусов) связанных объектов
• Контроль согласованности управленческого и бухгалтерского учёта
|
Кредитный договор должен иметь ссылку на клиента
|
|  III  |
Пост-контроль внутри информационной системы
|
В информационной системе
|
• Контроль ссылочной целостности
• Контроль согласованности жизненного цикла (статусов) связанных объектов
|
Остаток на конец периода должен быть равен арифметической сумме начального сальдо и оборотов за период
|
|  IV  |
Пост-контроль при передаче в платформу данных
|
Стриминг или ETL в платформу данных
|
• Форматно-логический контроль
• Контроль ссылочной целостности
|
Сумма по договору должна быть числом больше нуля
|
|  V  |
Кросс-системный пост-контроль
|
Оперативный слой хранилища данных, озеро данных
|
• Контроль ссылочной целостности
• Контроль согласованности жизненного цикла (статусов) связанных объектов
|
Пациент, на которого ссылается параметр визита №1, должен пройти скрининг
|
|  VI  |
Пост-контроль в платформе данных
|
Слой базовых витрин хранилища данных, специализированные витрины данных
|
• Пост-контроль по массиву данных по критериям сбора отчётности, многомерных моделей, моделирования и т.п.
|
Записи по активностям коллекторских агентсв справедливы только для кредитных договоров с просрочкой 90+ дней
|
Предотвращение появления некачественных данных, выявление и устранение ошибок в данных должно быть максимальным в точке зарождения данных, и приоритет
реализации последующих контролей должен быть максимально близок к месту появления данных.
| КПЭ |
Методика расчёта КПЭ |
Аналитические разрезы КПЭ |
Дополнительно сопутствующие КПЭ |
|
Доля проверок качества данных, корректно и полностью описанных в карточке
|
Отношение количества проверок качества данных, по которым корректно и полностью заполнена карточка в соответствии с методикой ведения
реестра проверок качества данных, к общему количеству зарегистрированных проверок.
|
• Отчётный период
• Менеджер качества данных
• Бизнес-домен
|
• Абсолютные значения показателей
• Динамика изменений к предыдущему периоду
|
|
Доля обращений по качеству данных, закрытых в установленный срок
|
Отношение количества обращений по качеству данных, закрытых (устранённых) в установленный срок,
к общему количеству решённых обращений.
|
• Отчётный период
• Служба по решению инцидентов по качеству данных
• Бизнес-домен
• Этап, где обнаружена проблема с данными (система-источник / ODS / ядро DWH / витрина / BI или отчёт)
|
• Абсолютные значения показателей
• Динамика изменений к предыдущему периоду
|
|
Доля обращений по качеству данных, по которым выявлена корневая причина
|
Отношение количества обращений по качеству данных, по которым выявлена корневая причина,
к общему количеству зарегистрированных инцидентов.
|
• Отчётный период
• Служба по решению инцидентов по качеству данных
• Место, где возникла корневая причина проблемы качества данных (система-источник / ODS / ядро DWH / витрина / BI или отчёт)
|
• Абсолютные значения показателей
• Динамика изменений к предыдущему периоду
|
|
Доля нарушений характеристики данных
|
Отношение количества нарушений конкретной характеристики данных в столбце набора данных к общему количеству записей в наборе данных.
|
• Выборка данных / таблица, взятые для профилирования данных (Data Profiling)
• Характеристика данных (см. таблицу выше)
|
• Динамика изменений к предыдущему сеансу профилирования данных
|
| Роль |
Функции |
Компетенции |
Полномочия в информационных системах |
|
Потребитель данных
|
Формулирование требования / обращения по качеству данных
|
Экспертиза по предметной области, бизнес-процессам
|
Регистрация требования / инцидента по качеству данных в системе обращений
|
|
Менеджер по работе с обращениями по качеству данных (1-ая линия сопровождения)
|
• Проведение первичного анализа инцидента качества данных
• Разрешение инцидента качества данных в периметре своих возможностей, распределение задач на участников смежных ролей
• Привлечение участников смежных ролей для анализа и устранения ошибок качества данных
|
• Навыки работы с данными - SQL-запросы, BI-навигация, специализированные инструменты
• Навыки работы с Каталогом данных
• Навыки работы в системе проектирования моделей данных
• Элементарное, базовое понимание смысла данных информационной системы
|
• Доступ к системе обращений с специальной ролью
• Доступ на чтение данных в продуктивном контуре информационных систем; доступ к логам, журналам информационных систем
• Доступ на чтение Каталога данных
• Доступ на чтение в системе проектирования моделей данных
|
|
2-ая линия сопровождения
|
• Подтверждение или исключение технологических сбоев (падение ETL/ELT, потоков, стриминга данных и т.п.) в / из причины возникновения ошибки качества данных
• Устранение технологических сбоев в зоне своей ответственности
|
• Подробное понимание архитектуры, функционала информационной системы на уровне администратора
• Навыки работы с Каталогом данных
• Навыки работы в системе проектирования моделей данных
|
• Полный доступ к продуктивному контуру информационной системы; доступ к логам, журналам информационной системы
• Доступ на чтение Каталога данных
• Доступ на чтение в системе проектирования моделей данных
|
|
3-я линия сопровождения
|
Внесение изменений в программный код, структуру данных согласно производственного процесса
|
• Опыт разработки информационной системы
• Подробное понимание функционала информационной системы, смысла данных
|
• Полный доступ к контуру разработки информационной системы
• Доступ на чтение Каталога данных
• Доступ на чтение в системе проектирования моделей данных
|
|
Офицер данных
|
• Организация работ по корректировке данных бизнес-пользователями информационной системы
• Принятие решения о соответствии / несоответствии данных требованиям к качеству данных
|
• Детальное понимание бизнес-процессов, генерирующих данные в информационной системе
• Детальное понимание бизнес-смысла данных информационной системы
|
• Доступ к системе обращений с специальной ролью
• Доступ на чтение данных в продуктивном контуре информационных систем; доступ к логам, журналам информационных систем
• Доступ на чтение Каталога данных
• Доступ на чтение в системе проектирования моделей данных
|