Пример простого парсера текста внутри заголовков сайта:

import urllib.request
import re

site = urllib.request.urlopen('https://news.yandex.ru/')
html = site.read().decode('utf8')
header_tags = re.findall(r'<h[1-2][^>]*><a[^>]*>(.*?)</a></h[1-2]>', str(html))
print( str('\n'.join(header_tags)) )

Как вы можете видеть парсер реализован элементарно, без каких-либо сторонних классов. Для реализации парсера нам потребовалось импортировать два модуля: urllib.request и re "из коробки" Python 3.x.

Разъяснения

  1. В переменной site url страницы которую мы хотим спарсить;
  2. В html мы прочитали содержимое указанного ранее url и расшифровали его (т.к. имеем дело с кириллицей);
  3. В header_tags обозначили правила парсинга (среди заголовков h1 и h2 с любыми классами и id внутри которых содержится ссылка, так же с любыми классами и id получи текст);
  4. И вывели все заголовки соответствующие данному правилу на экран.
Теги: Python

Выразить благодарность

Если эта публикация оказалась для Вас полезной и вы хотите выразить свою благодарность, сделайте пожалуйста её репост в социальных сетях или на своём сайте.

Так же, Вы можете перевести любую сумму, которую посчитаете нужной на наш счёт, что сильно мотивирует к написанию новых полезных статей.

Комментарии: