Горошко А.Г. ЛИНГВИСТИЧЕСКАЯ МЕТАРАЗМЕТКА ЭЛЕКТРОННОГО ТЕКСТА В НАУЧНОМ ИССЛЕДОВАНИИ

Стандартизация в области метатекстовой разметки и создание наборов лингвистических метаданных крайне важны в контексте информатизации языковых, текстологических и литературоведческих исследований.

В настоящее время на основе международного опыта выработались де-факто стандарты, базирующиеся на описаниях текстов в рамках различных проектов и инициатив. Одним из перспективных глобальных проектов представления метаданных является TEI (Text Encoding Initiative), разработанный в Центре электронных текстов Вирджинии в 1989 году [1]. TEI рассматривается как инструмент, используемый в процессе оцифровки, который идентифицирует электронный ресурс посредством метаданных, размещаемых внутри самого электронного ресурса. Он предлагает независимую от языка структуру создания конкретных языков разметки, а также простой консенсусный способ организации и структурирования текстовых и других ресурсов, которые можно обогащать и персонализировать в соответствии со специальными задачами. Данный проект располагает богатой библиотекой готовых специализированных компонентов и интегрированным комплексом стандартных стилевых таблиц для создания схем и документации на разных языках и в разных форматах [2].

Для эффективного решения различных лингвистических задач с использованием современного компьютерного инструментария недостаточно лишь наличия массива текстов. Требуется также, чтобы тексты явным образом содержали в себе разного рода дополнительную лингвистическую и экстралингвистическую информацию. Так, в корпусной лингвистике [3] возникла идея размеченного корпуса. Разметка (tagging, annotation) заключается в приписывании текстам и их компонентам специальных меток (tags): внешних, экстралингвистических (сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика; сведения об авторе могут включать не только его имя, но также возраст, пол, годы жизни и многое другое), структурных (глава, абзац, предложение, словоформа) и собственно лингвистических, описывающих лексические, грамматические и прочие характеристики элементов текста. Это кодирование информации имеет название метаразметка. Набор этих метаданных во многом определяет возможности, предоставляемые корпусами исследователям. При выборе этих данных необходимо руководствоваться целями исследования и потребностями лингвистов, а также возможностями по внесению в текст тех или иных дополнительных признаков.

Корпусы, как правило, предназначены для многократного использования многими пользователями, соответственно, и их разметка, и их программное обеспечение должны быть определенным образом унифицированы. Что касается разметки, то как лингвистическая, так и экстралингвистическая разметка должны базироваться на некоторых достаточно широко распространенных и принятых принципах описания текстов и языковых единиц. Параметры разметки и их значения должны быть достаточно «естественными», т.е. должны соответствовать общепринятым научным классификациям. Что касается программного обеспечения, то оно должно поддерживать обработку типовых запросов и решение типовых задач. Большое значение имеет унификация форматов (как их наполнения, так и структуры). Стандартизация в отношении корпусов, совместимость типов данных важны и с точки зрения сравнимости разных корпусов. Вопросы оценки корпусов, их пригодности к различным заданиям также требуют своих «стандартов оценки».

Первоначальная разметка TEI включала:

базовые структурные и функциональные компоненты;
дипломатическую транскрипцию, изображения, аннотации;
ссылки, соответствия, выравнивание;
объекты, содержащие особые данные: дата, время, место, лицо, событие и т.д. (‘распознавание элементов предметной области’);
метатекстовую аннотацию (исправления, удаления и т.п.);
все уровни лингвистического анализа;
контекстные метаданные всех видов.

В ноябре 2007 года был выпущен TEI P5, в котором имелось множество новых характеристик, что, с одной стороны, обеспечило большую гибкость, а с другой – создало определенные трудности для разработки программных средств обработки, анализа и публикации текстов, размеченных в этом стандарте, особенно если речь идет о средствах «широкого профиля», предназначенных для использования вне рамок отдельно взятого проекта. В частности, в глубокой филологической разметке учитываются разночтения и варианты интерпретации фрагментов текста на разных уровнях иерархии языковых структур, поэтому ее трудно совместить с использованием инструментов автоматической лингвистической разметки (токенизации, морфологической категоризации и т.п.).

Схемы TEI являются модульными, они созданы таким образом, чтобы была возможность настроить их для конкретных исследований или производственных сред. Для этого доступно множество различных приложений, одним из которых является приложение для настроек TEI Lite [4]. TEI Lite является специфической настройкой набора тегов TEI, в который входят элементы, необходимые почти каждому пользователю. TEI Lite содержит большую часть набора основных тегов TEI, которые должны обеспечивать:

адекватную обработку достаточно разнообразных текстов с уровнем детальности, заданным существующей практикой (как демонстрируется, например, материалами Oxford Text Archieve (Оксфордского Архива)) [5];
создание новых документов и выполнение кодирования существующих.

На официальном сайте Консорциума [6] содержится список более сотни проектов, разработанных на основе руководящих принципов TEI. Любой пользователь имеет также возможность добавить свой проект с использованием TEI. В настоящее время практически все проекты по созданию языковых корпусов в той или иной мере соответствуют рекомендациям TEI.

Широко применяется разметка TEI для публикации и анализа литературных памятников. Множество проектов использует TEI для различных литературоведческих и лингвистических целей, в частности, для представления корпусов письменной и разговорной речи на различных языках, электронных публикаций бумажных изданий, писем и рукописей, а также средневековых грамот. Например, TEI лежит в основе корпуса средневекового французского языка (BFM), который насчитывает 75 текстов общим объемом более 3 500 000 текстоформ. Источниками BFM являются в основном авторитетные критические издания, однако в последнее время развиваются собственные издания, опирающиеся на лингвистически выверенные транскрипции оригинальных рукописей. [7]. Все тексты BFM размечены в формате XML на основе рекомендаций TEI в соответствии со спецификацией, разработанной для нужд проекта с учетом перспективы лингвистического анализа.

Однако TEI позволяет ставить и другие задачи на основе таких жанров средневековой письменности, которые еще не привлекались в подобных проектах. Так, существует обширная литература вопросно-ответного жанра (диалога), требующая текстологического изучения с помощью компьютерных технологий. Одна их таких задач была реализована в рамках исследования популярного на Руси апокрифа «Беседа трех святителей» [8]. Текстологическое изучение вопросно-ответных произведений имеет свою специфику, которая определяется в первую очередь высокой степенью вариативности этих текстов. Разные списки одного вопросно-ответного памятника могут различаться как количеством вопросно-ответных пар, так и их последовательностью. Для сравнения списков друг с другом необходимо применять компьютерные технологии и организовать работу сетевого научного сообщества, так как списки находятся в самых разных рукописных хранилищах. Такие задачи требуют использования общепринятого, универсального формата для представления текстов, который был бы удобен для многократного текстологического анализа с помощью различных методик. В связи с этим для исследования был выбран формат TEI.

TEI широко используется библиотеками, музеями, издательствами, академическими институтами и отдельными учеными с целью предоставления размеченных текстов для онлайн-исследований, обучающих целей. В дополнение непосредственно к руководствам по лингвистической разметке консорциум предоставляет множество вспомогательных ресурсов, включая ресурсы и обучающие мероприятия для обучения TEI, информацию о проектах с использованием TEI, публикации об Инициативе по кодированию текстов и программное обеспечение, разработанное для проекта или адаптированное для нужд TEI.

Список литературы

1. TEI: Text Encoding Initiative [Электронный ресурс]. – Режим доступа: http://www.tei-c.org/index.xml – Дата доступа: 27.03.2013.

2. Краткое введение в TEI [Электронный ресурс]. – Режим доступа: http://tei.oucs.ox.ac.uk/Talks/2008-08-kazan/tei-intro-ru.xml – Дата доступа: 25.03.2013.

3. Корпусная лингвистика. Теория [Электронный ресурс]. – Режим доступа: http://corpora.iling.spb.ru/theory.htm – Дата доступа: 28.03.2013

4. Введение в TEI Lite [Электронный ресурс]. – Режим доступа: http://xtalk.opensource.ru/SGML/tei_ed-koi-36_4.html#__TOC – Дата доступа: 28.03.2013.

5. Oxford Text Archieve [Электронный ресурс]. – Режим доступа: http://en.wikipedia.org/wiki/Oxford_Text_Archive – Дата доступа: 27.03.2013.

6. TEI: Text Encoding Initiative [Электронный ресурс]. – Режим доступа: http://www.tei-c.org/index.xml – Дата доступа: 27.03.2013.

7. Лаврентьев, А.М. Проблемы лингвистической разметки и анализа электронных критических изданий текстов письменного наследия в стандарте XML-TEI [Электронный ресурс]. – Режим доступа: http://halshs.archives-ouvertes.fr/docs/00/75/93/76/PDF/Lavrentiev_elmanuscript12.pdf – Дата доступа: 27.03.2013.

8. абалык, М. Г. Использование формата TEI для публикации и анализа списков произведений вопросно-ответного жанра [Электронный ресурс]. – Режим доступа: http://textualheritage.org/index2.php?option=com
_docman&task=doc_view&gid=256&Itemid=99999999 – Дата доступа: 27.03.2013.

Горошко А.Г. ЛИНГВИСТИЧЕСКАЯ МЕТАРАЗМЕТКА ЭЛЕКТРОННОГО ТЕКСТА В НАУЧНОМ ИССЛЕДОВАНИИ

Добавить комментарий Отменить ответ

Рубрики

Архив