Мок-собеседование на junior+ Data Engineer S1E5 | rzv_de | Aug 2024

Погружаемся в роли интервьюера и кандидата на час, плотная получасовая обратная связь уже выложена на бусти. Я не представляю компанию из интервью, вакансия выбрана кандидатом для тренировки. Послушал про опыт кандидата, копнули в теоретические вопросы по HDFS, Spark. Также проверил лайвкодинг на SQL. Делись с заинтересованными, если понравилось и хочешь ещё. Пиши, если чего-то не хватило и что-то нужно доработать. Повышаю качество монтажа, ускорил нудную для просмотра часть с практикой. Если хочешь больше контента по инжинирингу данных от сеньора из индустрии — подписывайся на авторский канал: Для записи на интервью пиши в телеграмм: 00:00 Приветствие, формат 01:20 Про последние два проекта 06:16 Глубже про опыт, хранение 08:11 Партиции в hdfs 11:30 Сильные и слабые стороны hdfs 13:19 Hadoop vs hdfs 14:10 Репликация в hdfs 16:40 Что было в кластере? 17:12 Взаимодействие SparkSQL, Hadoop, Hive 20:28 Почему Spark быстрый? А когда он медленный? 24:37 Как тюнить IO операции на Spark? 27:49 Что происходит после Spark Submit? 29:48 Как отлаживаешь Spark Application? 31:55 Практика на SQL (ускоренная) 37:20 Вопросы от кандидата 38:39 Не прощаемся, обратная связь на бусти

55 views