Как не превратить Data lake в «болото данных»? Разбираемся с экспертом | статьи на docronik
Сегодня каждая компания — это организация данных. Они собирают, хранят и стремятся использовать их больше, чем когда-либо прежде. Если рассматривать в глобальном масштабе, мы сейчас находимся в центре взрыва данных. Общий объем корпоративной информации, по прогнозам, удвоится с 1 005 до 2 025 терабайт (2020-2022 года). Неудивительно, что многие организации играют в бесконечную «игру в догонялки», не имея знаний и инструментов для эффективного управления данными, которые они собирают.
Чтобы справиться с этим потоком, многие предприятия используют Data Lake («озеро данных») вместо стандартного хранилища. Теоретически, они дают компаниям преимущество с точки зрения масштабируемости, гибкости и интеграции с такими технологиями, как IoT. Однако вместо структурированного «озера данных» многие организации в конечном итоге получают огромный объём неконтролируемой информации, чаще всего бесполезной. О том, как решить проблему актуальности данных и получать от их использования максимум, KV.by узнал у эксперта в области анализа больших данных и разработчиком инновационных ИТ-решений — Павла Питкевича.
Как предотвратить образование «болота данных» и максимально эффективно использовать поступающую информацию?
Первое, и самое важное что стоит понять — перестаньте относиться ко всем данным вашей компании так, как будто они имеют одинаковый уровень важности. Поверьте мне, это не так.
Ключевым заинтересованным сторонами в компании необходимо решить, какие данные являются наиболее важными для ее целей. Необходимо понимать, что охватить всю информацию невозможно. Их неконтролируемый сброс в «озеро» — самый быстрый способ создать “болото”. Поэтому рекомендую выделить информацию, которая имеет наибольшее влияние на рост ключевых показателей компании и обеспечивают более высокую эффективность бизнеса. А именно: улучшают качество обслуживания клиентов, информируют о разработке продуктов. После этого назначьте выбранные данные своими ключевыми показателями эффективности и успеха.
Как только вы завершите этап выделения ключевых показателей, убедитесь, что вы общаетесь с основными заинтересованными сторонами. Вот несколько вопросов, которые нужно задать:
• Что является ключевыми показателями эффективности компании?
• Какие показатели будут измеряться?
• Понятны ли формулы для их расчета?
• Какие критерии отбора необходимо создать и установить для поступающих данных?
• В каких системах хранятся данные компании?
Подумайте о создании регламента загрузки данных, в котором четко указаны все аспекты загрузки и хранения данных, чтобы каждый мог ссылаться на него и иметь возможность обосновать стратегию компании в области хранения информации.
Выбрали важные данные. Что дальше?
С этого момента необходимо убедиться, что данные, которые хранятся в компании, являются точными. Компания должна проанализировать, откуда поступают важная информация, как и где она вводится в системы. Эффективная и регулярная очистка поступающих приведет к удалению или изменению неверных, неполных, неуместных или неправильно отформатированных данных. Убедитесь, что вы задали фильтры для удаления дубликатов и объединения различных наборов информации. Дедупликация, возможно, не самая привлекательная вещь, но она одна из самых важных. Если ее выполнить хорошо, компания сэкономит кучу денег и ресурсов.
Конечно же, на это уйдёт немало времени и усилий из-за разнообразия баз данных, форматов файлов, структуры, но я советую ни в коем случае не забывать об этом шаге. Крайне важно отделить действительно ценную информацию от ненужной. Без надлежащего контроля за качеством вносимых данных «озеро» компании снова превратится в болото. Организации слишком часто совершают эту ошибку.
Управление имеют решающее значение для данных компании?
Управление часто рассматривается как контролирующее, медленное и ограничивающее. Но на самом деле это помогает распределить полномочия и контроль над активами данных, чтобы они были согласованными, а также имели возможность использоваться во всей организации.
Давайте рассмотрим на примере одного из моих клиентов. Для их бизнеса, как и для многих компаний, успех клиентов является одним из наиболее важных ключевых показателей эффективности. Все начинается с первого контакта. Без надлежащего управления у нас могут появиться несколько данных одного и того же клиента. Это мешает нам принимать взвешенные решения, основанные на избыточной информации, что потенциально снижает качество обслуживания.
Регламент загрузки, про который я рассказывал ранее, может послужить краеугольным камнем стратегии управления данными. По мере дальнейшего процесса обработки информации легко потерять из виду первоначальные цели компании. Убедитесь, что все заинтересованные стороны регулярно обращаются к ним, чтобы данные сохраняли свою актуальность и оставались в центре внимания. В равной степени важно сохранять гибкость, поэтому, если требования организации изменятся, то соответствующим образом необходимо скорректировать регламент.
И последнее, но не менее важное — это прозрачность внутри компании. Это означает четкую коммуникацию между всеми заинтересованными сторонами, позволяющую различным отделам делиться своими знаниями. При этом обеспечивается и подотчетность за поддержание качества данных.
Источник: