Скрыть объявление

Внимание!


Наш телеграм-канал попал под массовую блокировку и, пока мы подготовили для вас резервный!


Подписывайтесь по этой ССЫЛКЕ

Скрыть объявление

На короткое время рассказываем где достать редкие курсы

Подробности ТУТ

Скрыть объявление

Мы обновили Telegram-бот!

Ссылку на новый бот и все детали ищите ТУТ и скорее подписывайтесь, чтобы не пропускать важные уведомления и новости форума

Скрыть объявление

Было ли у Вас такое, что Вы не могли найти курс? Если да, то напишите нам в Службу поддержки какой курс вам нужен и мы постараемся его найти.

Скрыть объявление

Пополняйте баланс и получайте при оплате складчин кэшбек в размере 10%

Запись

[Devhands] Lakehouse для аналитиков и инженеров данных (Алексей Белозерский)

Тема в разделе "Курсы по администрированию"

Цена:
50000 руб
Взнос:
800 руб
Организатор:
Евражкa

Список участников складчины:

1. Евражкa
open
2
Записаться
  1. Евражкa Организатор складчин

    [Devhands] Lakehouse для аналитиков и инженеров данных (Алексей Белозерский)

    [​IMG]


    Lakehouse для аналитиков и инженеров данных
    Научитесь эффективно использовать Data Lakehouse c разделенным Compute и Storage на основе Iceberg и Trino.
    • Познакомиться с архитектурой LakeHouse, последним поколением аналитических систем
      с разделенными слоями хранения (Iceberg/S3) и вычисления (Trino/k8s).
    • На практике научиться использовать кластер Trino over k8s, который будет обращаться к данным на S3 в формате Iceberg.
    • Научиться строить гибридные пайплайны обработки данных с использованием SQL, Python, Spark.
    • Освоить масштабирование до х100 раз без смены парадигм и технологий.
    Практический курс по современной архитектуре аналитических систем — Data Lakehouse. Вы научитесь работать с разделёнными слоями хранения и вычислений, используя стек Iceberg + Trino + S3 + Kubernetes.

    Программа курса:

    Живые лекции с экспертом, Алексеем Белозерским. Ведется запись, ссылка выкладывается в чат. Все встречи начинаются в 18-00 МСК, проходят в Zoom. Ссылка на Zoom-митинг «запинена» в чате.

    Занятие 1. Lakehouse, Iceberg, разделение Compute и Storage
    Краткая история развития аналитических систем. Корпоративное хранилище данных (DWH) и Озеро данных (Data Lake). Истоки и концепция. Преимущества и недостатки каждого подхода. Развитие и коммодитизация технологий масштабируемого хранения на S3 и запуска приложений на Kubernetes. Lakehouse: концепция и преимущества. Формат Iceberg: Предпосылки возникновения, ограничения S3, S3-native формат для больших данных, транзакции поверх неатомарного S3. Сохраняем данные в Iceberg + S3 и изучаем формат данных. Разделение Compute - Storage. Как работает разделенный движок. Какие проблемы могут быть и как их решать.

    Занятие 2. Структура формата Iceberg. Формат Parquet
    Как управлять большим объемом данных. Что будет если накопить 100K и больше файлов за много лет? Что если со временем схема данных меняется, а часть строк вдруг надо удалить? Под капотом у формата Iceberg: Delta, Manifest, Snapshot, метаданные. Iceberg Catalog. Для чего нужен отдельный сервер метаданных. Какие реализации каталога бывают: HMS, JDBC, REST.
    Практика. Выгрузить из S3 таблицу в формате Iceberg. Изучить данные и метаданные.

    Занятие 3. Практика
    Поднимаем Iceberg Catalog JDBC, настраиваем хранение данных в S3. Поднимаем кластер Trino. Настраиваем на работу с Iceberg Catalog. Подключаемся к Trino как к БД с помощью DBeaver. Делаем первыве датасеты. Читаем данные записанные из Trino с помощью Python с библиотекой PyIceberg. Изменяем данные с помощью PyIceberg, читаем результаты из Trino.

    Занятие 4. Метрики запросов в Trino
    Работаем с Trino + Iceberg как с БД. Пример датасета TPC-DS, пишем сложные ad- hoc запросы. Изучаем метрики тяжелых запросов с помощью Trino UI. Подключаем DBT для работы над пайплайнами. Краткий обзор фреймворка DBT. Подключение к работе с Trino. Настройка коннекта к Трино, старт проекта. DBT Models, Tests, Snapshots, Docs. DBT Selectors - для управления задачами в проекте. Подключаем Airflow для работы над пайплайнами. Знакомство
    с инструментом AIrflow. Airflow DAG + DBT - совместный репо.

    Занятие 5. Еще раз о формате Iceberg
    Что происходит в S3-Iceberg, когда мы добавляем, удаляем и меняем данные. Транзакции, ACID, MVCC, поддержка датасетов. Снапшоты Iceberg, как именно мы получаем атомарность и транзакции. Изоляция транзакций в Iceberg. Оптимистичная модель конкуренции. MVCC. Какую "уборку" требует датасет Iceberg. Виды операций по поддержке датасетов. Как получить статистику датасета в Iceberg. SQL, Trino. Python, PyIceberg.

    Занятие 6. Пайплайны и финальная Q&A-сессия
    Pipeline 1 - Airflow + DBT + PyIceberg over S3+Iceberg. Моделирование данных в SQL на DBT. Добавляем Pytnon - предикты ML. Pipeline 2 - Поддержка Iceberg Table. Собираем информацию для мониторинга. Запускаем процедуры поддержки по триггеру или порогу.Q&A. Вопросы и ответы по курсу и кейсам участников. Возможные дополнительные темы: другие реализации Lakehouse -- Duck Lake, Paimon, Apache Doris, движки DLH Compute: StarRocks, Clickhouse 25.x Iceberg Engine. Публичные примеры построения крупных Лейкхаусов в российских компаниях. Стриминг данных в Iceberg - Kafka. Spark, Spark Streaming. Формат Paimon - оптимизированный для стриминга. Time Travel в Iceberg. Какие бывают каталоги Iceberg и какой функционал они добавляют.


    Скрытый текст. Доступен только зарегистрированным пользователям.Нажмите, чтобы раскрыть...
     
  2. Похожие складчины
    Загрузка...
Наверх