Управління якістю даних в цифровому середовищі охорони здоров’я
Тема 3.14. Управління якістю даних в цифровому середовищі охорони здоров’я
3.14.1. Глосарій
Критерії якості даних – ознаки, за якими дані оцінюються на предмет якості.
Бізнес-інформаційна модель (БІМ) – сукупність структурованої за відповідною методологією інформації, що описує розподіл відповідальності за дані, а також правила визначення, зберігання, руху, трансформації, модифікації, обчислення, зв’язаності та взаємовпливу даних в автоматизованих системах, визначає єдину термінологію даних.
Якість даних – ступінь відповідності характеристик даних встановленим вимогам на певний звітний момент часу.
3.14.2. Вступ
Метою охорони здоров'я в Україні, серед іншого, є підвищення рівня доступності, якості та безпеки медичної допомоги, продуктивної зайнятості персоналу, що працює у сфері охорони здоров'я. Всередині системи охорони здоров’я високий рівень якості даних є життєво важливим для транзакційних та операційних процесів. Усі дані – від медичної картки пацієнта, ведення звітності до прийняття рішень щодо здоров’я нації мають відповідати вимогам високої якості даних. На якість даних може впливати спосіб введення, передачі, обробки та збереження даних. Критичні дані та їх першоджерела мають бути чітко визначеними, а також підтримуватися певними процесами та правилами.
3.14.3. Актуальність теми
Дані мають бути якісними, оскільки рівень їх якості впливає на правильне прийняття рішень, як на управлінському рівні, так і на рівні життя та здоров’я пацієнтів медичних закладів. Якщо дані мають низьку якість, це може суттєво вплинути на всі рішення, досвід клієнтів і організацію в цілому.
Під якісними маються на увазі дані, що відповідають визначеним критеріям якості, наприклад, таким як:
№ | Критерій | Визначення |
1. | Правильність | Також відомий як валідність. Точні дані вважаються правильними, якщо вони вимірюють те, для чого призначені. Точні дані зводять до мінімуму помилки (наприклад, упередженість запису чи інтерв’юера, помилку транскрипції, помилку вибірки) до рівня, який є незначним |
2. | Надійність | Дані, створені інформаційною системою, базуються на протоколах і процедурах, які не змінюються залежно від того, хто їх використовує, коли, та як часто вони використовуються. Дані є надійними, оскільки вони вимірюються та збираються послідовно |
3. | Точність | Це означає, що дані мають достатню деталізацію. Наприклад, показник вимагає кількості осіб, які пройшли консультування щодо ВІЛ і тестування на ВІЛ та отримали результати тестування, з розподілом осіб за статтю. Інформаційній системі бракує точності, якщо вона не призначена для реєстрації статі особи, яка пройшла консультування та тестування |
4. | Повнота | Повнота даних означає, що інформаційна система, з якої отримано результати, є відповідним чином інклюзивною: вона представляє повний список відповідних осіб або підрозділів, а не лише частину списку |
5. | Своєчасність | Дані своєчасні, коли вони актуальні (поточні) і коли інформація доступна вчасно. На своєчасність впливає: (1) швидкість оновлення інформаційної системи; (2) швидкість зміни фактичної програмної діяльності; і (3) коли інформація фактично використовується або потрібна |
6. | Цілісність | Дані є цілісними, якщо система, яка використовується для їх створення, захищена від навмисної упередженості чи маніпуляцій з політичних чи особистих причин |
7. | Конфіденційність | Конфіденційність означає, що дані зберігатимуться відповідно до національних та/або міжнародних стандартів щодо даних. Це означає, що особисті дані не розголошуються неналежним чином, а дані в паперовій та електронній формі обробляються з належним рівнем безпеки (наприклад, зберігаються в замкнених шафах і в захищених паролем файлах) |
Передові практики з питань управління даними, частиною якого є якість даних, містяться в збірці знань з управління даними – DAMA-DMBOK (Data Management Body of Knowledge).
3.14.4. Основні аспекти теми
Для забезпечення відповідності даних в інформаційних системах їх цільовому призначенню впродовж усього життєвого циклу даних має функціонувати ефективний процес управління даними.
Управління якістю даних (DQM) – це процес ефективної і безперервної оцінки, моніторингу, удосконалення та звітування щодо відповідності даних попередньо визначеним вимогам до якості даних. Управління якістю даних дозволяє виявляти й усувати випадки і проблеми, пов’язані з якістю даних, на момент їхнього виникнення або навіть діяти превентивно. Критичні дані інформаційних систем мають оцінюватись і контролюватись на постійній основі, враховуючи попередньо визначені вимоги до якості даних.
Правила для забезпечення якості даних можуть бути впроваджені за допомогою інструментів якості даних з метою забезпечення безперервного процесу оцінки й моніторингу. Дані, що не відповідатимуть попередньо визначеним правилам (випадки невідповідності якості даних), можуть бути виправлені автоматично (за допомогою відповідних технологій та інструментів) або в ручному режимі особою, відповідальною за дотримання вимог щодо якості даних. Випадки невідповідності якості даних, що виникають на регулярній основі, зазвичай, мають основну структурну першопричину, яку потрібно виявити і вирішити для зменшення кількості таких випадків.
Якість даних має контролюватися на всіх фазах їх життєвого циклу за допомогою визначення стандартів та вбудовування механізмів забезпечення та контролю їх дотримання в частині створення, трансформації та зберігання даних, включаючи визначення вимірних показників відповідності даних стандартам якості.
Однією з основних проблем, що часто виникає поруч з питаннями якості даних, є помилкове тлумачення даних через відсутність уніфікованої семантики (термінології).
Наприклад, уявіть, що ви директор HR-департаменту на початку річного циклу прогнозування і формування бюджету. Ви відповідаєте за загальний бюджет пошуку персоналу, для коректного визначення якого вам спочатку потрібно отримати інформацію про поточну кількість працівників в межах організації. Різні департаменти отримали запит щодо надання відповідних відомостей, щоб HR-департамент мав змогу консолідувати всю наявну інформацію в один загальний показник. У процесі збору даних було виявлено суттєві розбіжності у минулорічних показниках, що призвело до виникнення припущення щодо існування проблеми з якістю даних. Результати аналізу першопричини свідчать, що отримані дані є точними, однак термін «кількість працівників» було невірно сформульовано як «кількість персоналу» або «еквівалент повної зайнятості», що призвело до отримання інформації з різною кількістю працівників в межах департаментів.
Наведений вище приклад свідчить, що відсутність уніфікованої семантики (термінології) може призвести до помилкового тлумачення даних, хоча їх якість (точність, повнота, цілісність і своєчасність) може бути на високому рівні.
Тому для забезпечення ефективного управління даними, вкрай важливо мати уніфіковані визначення для кожного терміну, що використовується в межах сфери охорони здоров’я. Для цього зазвичай впроваджують такі інструменти як Бізнес-інформаційні моделі (БІМ).
Життєвий цикл процесів якості даних – це безперервний процес визначення проблем, пов'язаних з якістю даних і пошуку підходів для підвищення рівня якості. Рамковою структурою управління якістю даних, визначеною стандартом ISO 8000-61:2016 Data Quality management, передбачені такі основні напрями робіт:
- планування якості даних;
- контроль якості даних;
- забезпечення якості даних;
- підвищення якості даних.
Життєвий цикл процесів підвищення якості даних повинен бути ітераційним, проактивним та передбачати реалізацію класичного циклу Шухарта – Демінга: Планування → Реалізація → Контроль → Доопрацювання.
Рисунок 1. Життєвий цикл процесів підвищення якості даних
за методологією циклу Шухарта — Демінга
Інструменти якості даних – це процеси та технології для виявлення, розуміння та виправлення недоліків у даних, які підтримують ефективне управління інформацією в операційних бізнес-процесах та прийнятті рішень на рівні організації. Для підтримки на належному рівні важливих процесів управління якістю даних, слід впроваджувати різні технологічні інструменти для того, щоб отримувати, коригувати та покращувати якість даних. Інструменти та технології повинні обиратись та впроваджуватись, ураховуючи поточну архітектуру систем, інтеграційні можливості, а також функціональні та технічні вимоги. Впроваджувані інструменти для підтримки управління, контролю та моніторингу даних, повинні гарантувати, що дані, які надаються споживачам для прийняття рішень, якісні та відповідають визначеній меті.
За даними видання Gartner, щороку низька якість даних коштує організаціям у середньому 12,9 мільйона доларів. Окрім безпосереднього впливу на дохід, у довгостроковій перспективі дані низької якості ускладнюють загальну екосистему даних і призводять до прийняття неправильних рішень. Автоматизація процесів управління якістю даних допомагає зменшити витрати, прискорити час обробки даних, знизити кількість помилок через людський фактор, отримати прозоре розуміння існуючих проблем з якістю та скоротити час на пошук та виявлення причин виникнення таких проблем. У результаті це дає змогу приймати правильні рішення для досягнення бажаних цілей на основі перевірених якісних даних.
Ключовими інструментами, які застосовуються в різних процесах системи управління якістю даних, є такі:
- Інструменти профілювання даних.
- Інструменти стандартизації та очистки даних.
- Інструменти валідації даних відповідно встановлених бізнес-правил.
- Інструменти звітності (дашборди).
- Інструменти моделювання даних та засоби ETL.
- Репозиторій метаданих (ведення глосарію, бізнес-правил, власників та стюардів даних).
Цей перелік не є вичерпним, організації можуть застосовувати також інші інструменти залежно від потреб.
Інструменти профілювання даних – допомагають досліджувати зміст даних, звіряти його з метаданими та контролювати якість даних, виявляючи прогалини та/або недоліки, як у частині якості самих даних, так і в частині таких артефактів, як логічні та фізичні моделі. Алгоритм профілювання даних аналізує стовпці набору даних і обчислює статистику для різних параметрів, таких як повнота, унікальність, частота, характер і аналіз шаблонів тощо. Наприклад, профілювання даних може визначити недійсні значення даних (за допомогою аналізу властивостей стовпців), недійсні комбінації даних (за допомогою аналізу структури), неточні дані (за допомогою аналізу правил значень). Важливо, що профілювання даних також забезпечує показники неточності у наборі даних, тобто кількість порушень, частоту недійсних значень даних тощо. Такі показники можуть бути корисними як засіб для інформування зацікавленим сторонам про неточність набору даних і подальше спостереження за прогресом у наступних етапах покращення якості даних.
Інструменти стандартизації та очистки даних (верифікація) – використовуються для усунення неправильної та недійсної інформації, наявної в наборах даних, для досягнення узгодженого та зручного перегляду в усіх джерелах даних. Цей інструмент включає можливості з видалення та заміни неправильних значень, розбору довших стовпців, перетворення регістру літер і шаблонів, об’єднання стовпців тощо.
Інструменти валідації даних – визначають бізнес-вимоги до конкретних даних. В ідеалі правила перевірки даних мають бути «придатними для використання», тобто відповідати визначеній меті. Валідація даних дозволяє перевірити, чи відповідають дані визначеним критеріям і мають необхідні атрибути. Таким чином, правила якості даних допомагають виявити потенційні слабкі місця в процесах і отримати рекомендації щодо дій. Визначені правила валідації даних дозволяють вимірювати різні параметри якості даних, наприклад: точність значень (правильність, точність), узгодженість, дозволений формат значень, повнота значень тощо.
Серед інструментів валідації даних можна виділити такі:
• Зіставлення даних – інструмент, також відомий як зв’язування записів і розділення сутностей, за допомогою якого відбувається порівняння двох або більше записів і визначення їх належності до однієї сутності. Це включає зіставлення стовпців, вибір стовпців для відповідності, виконання алгоритмів відповідності, аналіз результатів відповідності та налаштування алгоритмів відповідності для отримання точних результатів.
• Дедублікація даних – це видалення декількох записів, які належать одній сутності, і збереження лише одного запису на сутність. Дедублікація охоплює аналіз повторюваних записів у групі, позначення записів, які є дублікатами, а потім їх видалення з набору даних.
• Об’єднання даних і збереження (Merge and survivorship) – це побудова правил, які об’єднують повторювані записи за допомогою умовного вибору та перезапису і допомагають запобігти втраті даних та зберегти максимум інформації від дублікатів.
• Перевірка адрес – це порівняння адрес із авторитетною базою даних і перевірка того, що адреса є придатною для відправлення.
Інструменти звітності (дашборди) – інструменти business intelligence (BI) дозволяють структурувати та візуалізувати результати моніторингу відповідності якості даних визначеним критеріям, а також відстежувати та контролювати прогрес у досягненні ініціатив з якості. За даними Gartner до трійки лідерів серед таких інструментів відносяться Microsoft power bi, Tableau, Qlik.
Інструменти моделювання даних та засоби ETL – головним завданням ETL та ELT-систем є структурування, збагачення, оптимізація та передача вихідних даних організації з кількох програмних оболонок у єдину централізовану базу зберігання для подальшої обробки. Інструменти моделювання даних та засоби реалізації процесів вилучення, перетворення та завантаження (ETL) мають прямий вплив на якість даних. Якщо використовувати їх, маючи точне уявлення про дані, вони дозволять суттєво підвищити якість. Застосування цих засобів за відсутності достатніх знань про дані, які передбачається обробляти, може призвести до зворотнього ефекту.
Репозиторій метаданих – це база даних, створена для зберігання метаданих. Метадані — це інформація про структури, які містять фактичні дані. Основним засобом управління метаданими є репозиторій метаданих. Він включає шар інтеграції, а часто ще й інтерфейс ручного оновлення метаданих. Програмні засоби, що виробляють та використовують метадані, стають одночасно джерелами та споживачами метаданих, що інтегруються в репозиторій.
Інструментальні засоби управління метаданими, що підтримують всі необхідні функції, реалізуються серед централізованого сховища (репозиторія) метаданих. Введення метаданих може здійснюватися вручну або шляхом їх передачі з різних джерел через спеціальні підключення. Репозиторії метаданих підтримують функції обміну метаданими з іншими системами.
Засоби управління метаданими та самі репозиторії слугують також джерелами метаданих, особливо при гібридній архітектурній моделі метаданих або серед великих підприємств. Засоби керування метаданими дозволяють здійснювати обмін зібраними метаданими з іншими репозиторіями метаданих, що уможливлює збирання та акумуляцію різноманітних метаданих з безлічі різнорідних джерел у централізованому репозиторії або, як альтернативний варіант, збагачення та стандартизацію метаданих у процесі обміну ними між вузлами розподіленої (мережевої) моделі.
На ринку представлений широкий вибір комплексних інструментів якості даних, що автоматизують виправлення та контроль якості за допомогою таких функцій, як профілювання, зіставлення, керування метаданими та моніторинг. Міжнародне видання Gartner сформувало рейтинг інструментів якості даних, до якого входять 15 провайдерів, 7 з яких стали лідерами (Informatica, IBM, SAP, Talend, SAS, Ataccama).
3.14.5. Кращі практики та рекомендації
Система управління якістю даних може щонайменше включати такий перелік документів та процесів, який представлено нижче:
Ключові слова / Теги
Якість даних, управління даними, критерії якості даних, інформаційні системи