Анализ текста в формате XML и HTML

analiz teksta v formate xml i html Текст и язык

Про грам мы син так си че ско го ана ли за (пар серы): грам ма ти ки Нестандартные механизмы синтаксического анализа (парсеры), собственные и сгенерированные

Встраи ва ние

Выполнение программного кода Python с помощью встроенных функций eval и exec

Для простых задач часто достаточно встроенного строкового объекта Python. Строки в языке Python поддерживают операции обращения по индексу, конкатенации, извлечения среза и могут обрабатываться с помощью строковых методов и встроенных функций. Однако основное внимание в этой главе будет уделяться инструментам более высокого уровня и приемам анализа текстовой информации. Мы кратко рассмотрим все перечисленные способы по очереди. Приступим.

Некоторые читатели могли прийти в эту главу, рассчитывая получить информацию о поддержке Юникода, однако эта тема не будет рассматриваться здесь. Сведения о поддержке Юникода в Python вы найдете в обсуждении строковых инструментов в главе 2, в обсуждении кодировок и различий между текстовыми и двоичными файлами в главе 4 и в главе 9, в обсуждении поддержки текста в библиотеке tkinter. Кроме того, поддержка Юникода упоминается в различных темах, посвященных Интернету и базам данных (например, кодировки в электронных письмах).

Поскольку поддержка Юникода является одной из основных особенностей языка, все перечисленные главы также отсылают к обсуждению этой темы в четвертом издании книги «Изучаем Python» (http://oreilly.com/catalog/9780596158071/). Большинство инструментов, обсуждаемых в этой главе, включая строковые методы и регулярные выражения, автоматически поддерживают Юникод просто потому, что тип строки str в Python 3.X представляет строки Юникода, включая набор символов ASCII и его расширения.

Использованная литература:

Марк Лутц — Программирование на Python, 4-е издание, II том, 2011

Каталог сайтов Всего.ру
Оцените статью
Секреты программирования
Добавить комментарий