Извлечение простого текста из разметки HTML (еще раз)

izvlechenie prostogo teksta iz razmetki html eshhe raz Текст и язык

Теперь, когда вы понимаете принцип действия класса парсера HTML из стандартной библиотеки Python, модуль извлечения простого текста, использовавшийся в приложении PyMailGUI (пример 14.8) в главе 14, также, вероятно, будет более понятен вам (тогда это была необходимая ссылка вперед, которую мы, наконец, можем закрыть).

Вместо того чтобы снова повторять реализацию модуля, я отсылаю вас для самостоятельного изучения приведенного там примера, а также его программного кода самотестирования и тестовых входных файлов, — как к еще одному примеру реализации синтаксического анализа разметки HTML на языке Python. Он является немного более сложной версией примеров, приводившихся здесь, которая определяет большее количество типов тегов в своих методах обратного вызова.

Из-за ограниченности места в книге мы вынуждены завершить дальнейшее изучение приемов синтаксического анализа HTML. Как обычно, знания того, что подобная возможность существует, уже достаточно, чтобы начать осваивать ее самостоятельно. За дополнительными подробностями о прикладном интерфейсе обращайтесь к руководству по библиотеке Python. А для получения дополнительной информации о поддержке HTML ищите в Интернете пакеты парсеров HTML для версии 3.X сторонних разработчиков, подобные тем, что упоминались в главе 14.

Использованная литература:

Марк Лутц — Программирование на Python, 4-е издание, II том, 2011

Каталог сайтов Всего.ру
Оцените статью
Секреты программирования
Добавить комментарий