Все характеристики всех конкурсов фрилансеров. Видео 4

#python #regularexpression PlayList 0:00 В этом видео: новый код для сбора промо-характеристик всех конкурсов и код из прошлых видео плейлиста, применяемый не к одному конкурсу. а ко всем. 1:15 Обзор скрипта: выяснить число страниц списка конкурсов, выгрузить с этих страниц промо-характеристики и их URL-адреса, записать в новый датафрейм собранным из предыдущих скриптов кодом пройтись по этим URL-адресам и выгрузить содержательные характеристики конкурсов и репутационные характеристики заказчиков. 2:30 Пакеты datetime, time и traceback. 3:25 Приостановка исполнения скрипта — для маскировки алгоритмического запроса под запрос обычного пользователя. 4:15 Вспомогательные чанки для подачи запроса к первой странице списка конкурсов и выгрузки с неё промо-характеристик конкурсов и их URL-адресов. 4:45 Условие для будущего цикла while: есть ли тег ’div’, attrs={’id’:’projects-list’ на странице? 5:20 По тегу ’div’, attrs={’id’:’projects-list’} выводится не только фрагмент HTML-кода, релевантный одному конкурсу, но и релевантные всем конкурсам под этим конкурсом. 6:40 Поэтому распаривание не методами пакета bs4, а методом split. 8:15 Цикл for для прохода по блокам, каждый из которых содержит информацию об одном конкурсе. Конструкция try except и пакет traceback для обработки блоков без информации. 12:00 Итоговый чанк: цикл while для выгрузки промо-характеристик конкурсов и их URL-адресов со всех страниц с их списками. В цикле “вечное“ условие его работы, уравновешенное командой break. 14:55 Супер-итоговый чанк (код из видео № 1-3) для выгрузки содержательных характеристик конкурсов и репутационных характеристик их заказчиков — со всех URL-адресов. 15:25 “Засыпание“ алгоритма. 16:05 Изменения относительно скрипта из видео №2: добавлена характеристика “закрыт ли заказ“ и характеристика “число комментариев“ считается по-новому. 18:10 В отличие от традиционных инструментов сбора информации веб-скрапинг позволяет дособирать информацию при необходимости. 18:55 %%time для вывода длительности работы чанка. 19:30 Привязка названия файла с результирующим датафреймом к дате его создания облегчает в дальнейшем агрегирование в один файл таких файлов после разных замеров. Предыдущее видео:
Back to Top