Парсинг сайтов с помощью Requests и BeautifulSoup - 2 часть

00:00:00 - Установка Requests и BeautifulSoup. 00:03:10 - Получение HTML сайта. Получение необходимых полей различными способами. 00:31:37 - Поиск и извлечение ссылки на следующую страницу. Описание: Этот курс предназначен для тех, кто хочет научиться автоматизированному сбору информации с различных сайтов, то есть парсингу. Для прохождения курса требуются базовые знания питона. На лекциях будут рассмотрены основные подходы к сбору данных с использованием таких библиотек, как requests, beautifulsoup4 и splash, а также фреймворков Scrapy и Selenium. В этом курсе рассматриваются основные базовые подходы к сбору данных, а также затрагивается вопрос этичного парсинга. По итогам курса студенты будут иметь базовое представление о том, как парсить различные сайты, используя Python. Этот курс будет не очень интересен тем, кто уже имеет базовое представление о том, что такое парсинг и как создавать скрипты для автоматизированного сбора данных. После прохождения курса студенты будут знать: Как найти и установить необходимые библиотеки для парсинга данных. Что такое этичный парсинг, как не нарушить права и закон при парсинге данных. Для чего нужен файл . Каким образом получать HTML сайта для извлечения необходимой информации. Как пользоваться xpath для указания точного расположения элементов на странице. Как переходить по страницам на многостраничном сайте. Как создавать проект и запускать «пауков» Scrapy. Как парсить всю информацию о каждом товаре на сайте. Как осуществлять переход на страницу каждого товара. Каким образом парсить сайты, использующие JavaScript при загрузке. Как авторизовываться на сайте, используя фреймворк Selenium. Как парсить сайты с бесконечной прокруткой, имитируя действия пользователя на странице. Телеграмм канал: Методичка - Донат Visa: 4890 4947 6562 0174 Ethereum (ERC20): 0x95c2c0a2de94840543d5f6ec69cdba9ff6f34692 Bitcoin(BTC): 3Bxr8E73NjWnQTv2Hoxm49gitNgCYZkfUR Dogecoin(DOGE): DQMvdBLNF6HptH5kRok66KQcePvYS4eQrp Cardano (ADA): DdzFFzCqrht9NC4q3LGk2GoY2LTSo6ipoPaxj8G43mcCacKwbtNeJNuVEwMHsTAvw7pLyA1zAv6AwYEFfsxzEmKzvocRSsVRAVSFQVyr
Back to Top