Улучшение механизма синтаксического анализа разметки HTML

uluchshenie mehanizma sintaksicheskogo analiza razmetki html Почтовый клиент PyMailGUI Python

Как отмечалось выше, эта версия включает простейший механизм синтаксического анализа разметки HTML, применяемый с целью извлечения текста из основной (или единственной) текстовой части в формате HTML для отображения или цитирования в ответах и в пересылаемых письмах. Также выше отмечалось, что этот механизм нельзя считать законченным или достаточно надежным — чтобы довести его до уровня, пригодного для нормальной эксплуатации, этот механизм необходимо усовершенствовать и протестировать на большом количестве электронных писем в формате HTML. Возможно, было бы лучше поискать более полные и надежные альтернативы для Python 3.X с открытыми исходными текстами, подобные сторонней утилите с тем же названием html2text.py, которая была описана в примечании выше. Еще один гибкий механизм анализа разметки HTML предоставляет система BeautifulSoup с открытыми исходными текстами, но она опирается на инструменты из модуля SGMLParser, доступного только в Python 2.X (исключен из Python 3.X).

Использованная литература:

Марк Лутц — Программирование на Python, 4-е издание, II том, 2011

Каталог сайтов Всего.ру
Оцените статью
Секреты программирования
Добавить комментарий