Как мы качаем 60 миллионов страниц в день из Веба / Александр Сибиряков (Scrapinghub)

Приглашаем на конференцию HighLoad 2023, которая пройдет 27 и 28 ноября 2023 в Москве! Программа, подробности и билеты по ссылке: -------- HighLoad Moscow 2018 Тезисы и презентация: В этом докладе я расскажу о том, как мы построили контент-систему для поисковой машины одного из наших клиентов. Их задачей было обойти 14М доменов, скачать с каждого не более 100 разных страниц в течение месяца и осуществить пере-обход в следующих месяцах. Система должна быть вежливой по отношению к веб-сайтам, не перегружать чрезмерным RPS и уважать . При этом расходы на железо и обслуживание системы должны быть минимальными, а производительность высокой: минимум 600 страниц в секунду. …. -------- Нашли ошибку в видео? Пишите нам на support@
Back to Top