EN

Руководство по DataOps: познайте истинную скорость ваших данных

Колонка эксперта CloudTech (BI Practice Leader)
Главная БлогРуководство по DataOps: познайте истинную скорость ваших данных

Пандемия повлияла буквально на все: где мы работаем, как общаемся, путешествуем, совершаем покупки, что именно мы покупаем и в каких количествах. Многие компании тяжело справляются с изменениями. Привычные модели операций и стратегий внезапно перестают работать.

Кое-что, однако, не изменилось — важность использования современных, надежных данных, которые бы поддерживали ваши стратегические и оперативные решения. В свете изменений рынка, задача сегодня звучит так: реализовать стратегии обработки данных и внедрить актуальные решения для их обработки, но с меньшими затратами бюджета.

Работая с нашими клиентами над несколькими различными проектами по обработке данных, мы заметили, что они часто страдают от следующих проблем:

  • Затянутости разработки

  • Перегруженности отдела ИТ

  • Низкокачественных данных

  • Теневого ИТ (Shadow IT)

В результате этих факторов становится трудно получить доступ к актуальной информации, что еще больше затрудняет принятие своевременных и точных бизнес-решений.

Стремясь разобраться с этими проблемами, мы создали метод, который позволяет нам эффективно предоставлять решения для обработки данных в соответствии с нашим подходом к DataOps.

DataOps — не просто еще одно модное словечко. Что означает для нас DataOps? Ну, мы рассматриваем это как общий подход к анализу данных, который позволяет вам принимать точные, обоснованные решения по всей вашей организации. Он сочетает в себе три ключевых компонента: процессы, инструменты и людей.

processes.jpg

Процессы DataOps

Чтобы иметь возможность использовать данные в своей повседневной деятельности — будь то ежедневный заказ продукции, стратегия продаж на следующий квартал или кадровые вопросы вы должны доверять этим данным.

  • Автоматизация

Даже незначительные несоответствия в точках данных могут повлиять на общий результат и привести к ложным выводам. Поэтому большое внимание уделяется процессам качества данных во время разработки и автоматическому мониторингу данных и оповещению после выхода решения в оперативный режим. Если вы доверяете своему управлению данными, вы сможете автоматизировать значительную часть процессов принятия решений, оставив основную часть работы алгоритмам и освободив своих сотрудников, чтобы сосредоточиться на более стратегических задачах. Например, автоматизация данных и искусственный интеллект могут быть применены для оптимизации управления цепочками поставок, онлайн-маркетинга, обнаружения мошенничества и многого другого.

  • Безопасность данных

Новые ограничения GDPR иногда кажутся настолько пугающими, что клиенты предпочитают хранить свои данные изолировано, упуская в результате возможность использовать интеграцию этих данных с другими источниками. Чтобы иметь возможность безопасно интегрировать ваши данные с различными источниками — и воспользоваться полученными преимуществами — важно понимание доступных решений, ограничений безопасности и надлежащего набора правил процесса, которые могут быть применены во всей вашей организации. Многие клиенты даже не понимают, сколь много можно достичь с их данными, без малейшей необходимости использовать сохраненную личную информацию.

  •   Доставка

И последнее, но не менее важное: процесс реализации проектов в области данных может рассматриваться как сложная задача. Создание корпоративного хранилища данных может показаться многолетним проектом. Однако при правильном подходе к итеративной доставке и принципах гибкости, BI-команда может доставить MVP всего за несколько недель, что позволит вам воспользоваться вашими данными как можно скорее.

tools.jpg

Инструменты DataOps

Есть причина, почему термин DataOps фонетически схож с концепцией DevOps — DevOps является важной частью DataOps. Автоматизированные процессы CI/CD (Continuous Integration /Continuous Delivery) часто игнорируются поставщиками BI. Это большая ошибка, поскольку такие инструменты значительно сокращают цикл разработки в проектах данных и помогают управлять качеством доставки.

  • Автоматизация тестирования

Когда речь заходит о CI/CD, стоит упомянуть тему автоматизации тестирования. Запуск автоматических регрессионных тестов между новыми версиями отчетов (в отличие от рабочих версий) может значительно ускорить процесс тестирования. Это позволит вам проверять сотни отчетов каждый раз, когда ваш инструмент BI обновляется до более новой версии. Такого рода оптимизация эффективности также может быть достигнута путем выполнения автоматических тестов при переносе системы на новый компонент Database engine.

Согласование данных имеет решающее значение для каждого проекта данных. Сквозное тестирование — от исходной системы до точки данных, показанной на панели мониторинга, — помогает укрепить доверие к данным и гарантирует пользователям их надежность.

  • Модели машинного обучения

Те же правила применяются, когда мы используем модели машинного обучения (ML) в наших решениях для обработки данных — использование преимуществ автоматизации может помочь получить лучшие результаты.

Для специалиста по обработке данных было бы проще разработать прототипы в Jupyter Notebooks, но зрелый подход к разработке таких решений не может основываться исключительно на этом. Необходим баланс между экспериментированием и операционализацией; баланс, который итеративно создает все более автоматизированную среду. Автоматически развертываемое решение может помочь вам извлечь выгоду из частых и прозрачных экспериментов, эффективных тестов и безболезненного выхода GO-LIVE.

  • Надлежащая подготовка и контроль

Создание корпоративного решения для обработки данных не должно заканчиваться его внедрением. Современные BI-решения позволяют citizen development приблизить данные к бизнесу, однако в то же время это может привести к неконтролируемому росту неподдерживаемых решений для отчетности.

Поэтому, прежде чем предоставить пользователям возможность создавать свои собственные информационные панели, необходимо провести обучение, которое будет сосредоточено на представлении возможностей инструмента BI и рисков, связанных с неправильным использованием. Тем не менее, даже после того, как пользователи обучены, все равно лучше следить за их активностью.

Провайдеры часто предоставляют вам пакет отчетов под названием «BI on BI». Представленные отчеты охватывают такие аспекты, как мониторинг поведения пользователей, использования отчетов, трафика на источники данных и т.д. Активное и тесное сотрудничество между заинтересованными сторонами бизнеса и ИТ крайне важно для того, чтобы ваша информационная система оставалась стабильной в течение долгого времени.

  • Данные в облаке

Многие компании решают перенести свои центры обработки данных в облако. Объемы данных растут, появляется все больше и больше источников данных, и локальные ЦОДы перестают справляться. Серверы стали слишком медленными для обработки данных в реальном времени, дисковых пространств недостаточно, а заказ нового оборудования занимает месяцы. Альтернативой является использование услуг передачи данных в облаке.

Конечно, миграция в облако редко реализуется по банальному принципу «возьми и сделай. Это требует глубокого понимания имеющихся архитектур и услуг, подготовленной стратегии миграции и возможности прогнозирования ожидаемых затрат. Поскольку данные обычно содержат важную информацию о клиентах, стратегиях, финансовых результатах и т.д., их максимальная безопасность становится приоритетом. К счастью, облачные сервисы следуют лучшим стандартам безопасности, которые включают шифрование данных, безопасность на уровне строк, георепликацию, автоматическое хранение и частные сети.

Хорошо подготовленная и проведенная облачная миграция, полностью поддерживаемая средствами автоматизации тестирования и миграции данных, приведет к созданию подходящего по назначению решения для обработки данных. Такое решение будет оптимально как для использования, так и для пиков потока данных и будет иметь более низкую общую стоимость владения.

Однако не каждый инструмент имеет смысл использовать везде и всегда — это, конечно, зависит от того, какое решение вам требуется. Например, создание процесса CI / CD для одного отчета, который будет использоваться только в течение нескольких недель, было бы излишним. Поэтому мы рекомендуем адаптировать используемые технологии к масштабу и требованиям проекта.

people.jpg

Люди

Ведущие решения BI уделяют большое внимание citizen development, предоставляя комплексные инструменты для управления данными, подготовки данных и моделирования.

Однако, если многие люди в организации используют самостоятельно разработанные информационные панели и отчеты, поддержание оптимального управления и качества может быть сложной задачей. Поэтому крайне важно иметь бизнес-стейкхолдеров с аналитическим опытом, которые владеют навыками использования конкретного инструмента BI (но которые также могут рассчитывать на поддержку ИТ-отдела, если это необходимо).

Правильное внедрение решения BI обычно включает в себя обучение citizen development, но оно также должно включать набор правил, касающихся управления данными и способов сотрудничества с ними. Выбор того, где будут обрабатываться данные и кто будет отвечать за моделирование данных, будет приниматься в каждом конкретном случае, однако эти вопросы должны быть продуманы в начале процесса. Выполнение этого этапа в начале проекта поможет вам предотвратить беспорядок и нефункциональность вашего BI-инструмента.

***

Данные могут быть одним из ваших самых ценных активов, поэтому они всегда должны обрабатываться и представляться в соответствии с самыми высокими стандартами качества.

Применение подхода DataOps к вашим процессам, инструментам и компетенциям сотрудников может помочь вам достичь этих стандартов.

Кроме того, с помощью DataOps вы получите доступ к важной информации быстро и эффективно, что позволит вам использовать ваши данные именно тогда, когда они вам нужны, и до того, как они устареют.

Источник: cloudcomputing-news.net/news/2020/sep/02/a-guide-to-dataops-enabling-the-true-speed-of-your-data/

   К списку

Поделиться