Как мы качаем 60 миллионов страниц в день из Веба / Александр Сибиряков (Scrapinghub)

Приглашаем на конференцию HighLoad 2024, которая пройдет 2 и 3 декабря в Москве! Программа, подробности и билеты по ссылке: -------- HighLoad Moscow 2018 Тезисы и презентация: В этом докладе я расскажу о том, как мы построили контент-систему для поисковой машины одного из наших клиентов. Их задачей было обойти 14М доменов, скачать с каждого не более 100 разных страниц в течение месяца и осуществить пере-обход в следующих месяцах. Система должна быть вежливой по отношению к веб-сайтам, не перегружать чрезмерным RPS и уважать . При этом расходы на железо и обслуживание системы должны быть минимальными, а производительность высокой: минимум 600 страниц в секунду. …. Нашли ошибку в видео? Пишите нам на support@
Back to Top