Щоб поліпшити якість даних, припиніть грати в «зіпсований телефон» з даними
Ви пам’ятаєте, як ви грали в «зіпсований телефон» з іншими дітьми? Ви знаєте, гра, в якій перша людина в ланцюжку шепоче фразу другому, потім другий повторює її третьому і триває до тих пір, поки остання людина не повторить фразу першому.
Було так приємно сміятися над тим, як те, що починалося як «Сонце в небі», якимось чином перетворилося в «Приємно їсти пиріг», коли ця фраза передавалася від одного до іншого.
Потім був сміх, коли кожен учасник ланцюжка поділився своєю фразою, яку говорив пошепки, дозволяючи кожному побачити, що і де пішло не так.

«Зіпсований телефон» з даними
Цікаво, що за останні тридцять років керування даними використовувало ту ж формулу телефонної гри, копіюючи дані з однієї бази даних в іншу, з безліччю зупинок в дорозі.
Як приклад візьмемо класичний процес корпоративного сховища даних:
- Дані починаються як записи транзакцій, що зберігаються в базі даних системи транзакцій.
- Потім вони переходять з вихідної системи в проміжну базу даних.
- З стадії підготовки вони переходять в сховище даних.
- Підмножини цих даних передаються для зберігання у вітринах супутникових даних.
- Багато з них незабаром завантажують окремі файли Excel, що зберігаються на ноутбуках.
Або пізніша парадигма хмарного «озера даних»:
- Вихідні дані з пристроїв консолідуються в прикордонних базах даних.
- Ці прикордонні дані потім копіюються в «озеро даних» хмари для подальшого аналізу.
- В «озеро» також можуть бути додані додаткові дані з систем транзакцій.
- І, щоб додати історичний контекст, дані сховища також можуть бути скопійовані в «озеро».
Концептуально ці передові методи управління даними надають можливість поліпшити якість даних за рахунок застосування обраних додаткових перетворень на різних етапах. Але з такою кількістю жорстких ланок у ланцюзі ця версія телефонної гри з даними часто може ненавмисно перетворити «небо» в «пиріг». Вплив цієї проблеми якості на бізнес викликає що завгодно, тільки не дитячий сміх.
Наскільки велика проблема з даними, що повторюються?
Скільки даних копіюється? У своєму Worldwide Global DataSphere Forecast на 2019-2023 роки IDC оцінює, що на кожен терабайт нових чистих даних генерується більше шести додаткових терабайт скопійованих даних за допомогою реплікації і поширення. Це багато можливостей для «неба» стати «пирогом».
Три способи перестати грати у «зіпсований телефон»
Менше копіюйте, більше віртуалізуйте. Віртуалізація даних – це перевірений метод інтеграції даних без їх фізичного копіювання. Це істотно знизить помилки перетворення і ентропію, властиві типовим розгортання з декількома копіями, сховищами даних і «озерами даних». Крім зменшення кількості копій, віртуалізація даних безпосередньо покращує якість даних за рахунок синтаксичних і семантичних перетворень і розширень на основі метаданих, які стандартизують набори даних і заохочують повторне використання. Все на одній сторінці. І коли щось змінюється, а це неминуче, набагато простіше змінити централізовано керовані визначення метаданих, ніж кілька розподілених ETL і схем баз даних.
Загальний доступ до довідкових даних всюди. Управління довідковими даними підвищує якість даних, дозволяючи організаціям узгоджено керувати стандартними класифікаціями і ієрархіями в системах і бізнес-напрямках. Це дозволяє їм досягти необхідної узгодженості та відповідності без додаткових копій. А додавши віртуалізацію даних як метод поширення, організації можуть легко спільно та повторно використовувати довідкові дані, що зберігаються в одному віртуальному місці.
Подумайте про Data Domain, а не про технології баз даних. Сьогодні існує безліч класних, спеціалізованих технологій баз даних. Але «нове і цікаве» необов’язково означає «високу цінність для бізнесу». Замість цього подумайте про найбільш цінні області даних. Наприклад, якщо вашою конкурентною перевагою є висока якість роботи з клієнтами, зосередьтеся на підвищенні якості в області даних про клієнтів. У цьому випадку управління основними даними є ключем до успіху, дозволяючи організаціям забезпечувати цілісність даних в обраних областях даних, таких як клієнт, співробітник, продукт і т. Д.
Припиніть грати у «зіпсований телефон» з даними
Залишимо цю гру дітям. Замість цього поліпшите якість даних, виконавши три наведених вище рекомендації з допомогою TIBCO.