Parsing интернет-страниц и RSS лент с использованием Python (обзор некоторых приемов)

Ежедневно во всемирной сети появляется множество информации. Один из способов выгрузить быстро много однотипных данных – Parsing. В этом вебинаре подробнее расскажем: • Про Parsing HTML страниц с помощью Python; • Рассмотрим на практике этапы парсинга: - запрос и выгрузка html-страницы (requests) - вытягивание необходимой информации из тегов (beautifulSoup) Github: • Как просмотреть код любого элемента страницы сайта в Google Chrome? • Рассмотрим подробно технические моменты парсинга RSS каналов (на примере парсинга новостного сайта) Github: Подробные ответы на вопросы вебинара здесь: Что можно посмотреть ещё: • (датасет на 800 тысяч новостей с Ленты.Ру, есть код на сам парсер на Python, tcnm ljcneg .csv файл (2Гб), автор: Dmitry Yutkin • https://github.
Back to Top