Гусева А.В. ЛИНГВОДИДАКТИЧЕСКИЙ ПОТЕНЦИАЛ OPEN CORPORA

УДК 371.313

УО «Брестский государственный университет имени А.С. Пушкина», г. Брест
Научный руководитель – М.П. Концевой, старший преподаватель, кафедры прикладной математики и информатики БрГУ имени А.С. Пушкина

Open Corpora [1]  – проект создания аннотированного лингвистического корпуса русскоязычных текстов, который характеризуется двумя важнейшими особенностями.

Во-первых, Open Corpora является свободным и открытым для всех групп пользователей (под лицензией CC-BY-SA), как для исследователей языка (применяющих корпусный инструментарий), так и для разработчиков систем и сервисов автоматической обработки текста (изучающих, редактирующих и использующих корпусные базы в целях создания нового инструментария для лингвистического исследования).

Во-вторых, разметка Open Corpora (морфологическая, синтаксическая, семантическая) осуществляется самими пользователями на основе технологии краудсорсинга (сетевой организации волонтерской работы сообщества над какой-либо задачей ради достижения общих благ). Необходимость краудсорсинга объясняется тем, что вычитка и аннотирование вносимых в корпусные базы текстов, в силу большого объема таких баз, сопряжена с большими затратами времени и труда. Реализовать ее силами небольшой инициативной группы Open Corpora [2] невозможно.

Для пользователей, пожелавших принять участие в реализации проекта Open Corpora открыты возможности участия в различных видах разметки:

  • морфологической (tagging, part-of-speech tagging), сопоставляющей каждому слову в тексте его словарную форму с указанием грамматических характеристик слова;
  • разметке сущностей (выделению и тегированию в текстах онимов и названий различного типа).

Осуществление разметки предполагает владение русским языком и наличие базового языкового образования. Имеются пошаговые иллюстрированные примерами инструкции по осуществлению разметки.

Разметка текстов в рамках проекта Open Corpora силами сетевого сообщества может быть использована в образовательных целях в контексте языковой и лингвистической подготовки учащихся и, как показывает опыт такого использования, обладает значительным и разноплановым лингводидактическим потенциалом. А именно:

  • реализует практическое взаимодействие учащихся с корпусными технологиями как одним из наиболее эффективных и современных инструментов лингвистического исследования;
  • предполагает повторение и закрепление грамматики русского языка при непосредственном проведении учащимися разметки предлагаемых текстов;
  • осуществляется на основе современных информационных и коммуникационных технологий, осваиваемых учащимися в конкретной практической деятельности. В частности, практическое знакомство и использование программного обеспечения организации коллективной удаленной работы над снятием морфологической неоднозначности (морфологический словарь, полуавтоматический токенизатор);
  • открывает перед учащимися существенное различие между машинным и человеческим подходами к решению трудно формализуемых и алгоритмизируемых задач в области естественного языка;
  • предполагает на выходе получение не просто учебного, но законченного общественно-востребованного продукта, что открывает возможности социально значимой продуктивной деятельности в самом процессе образования и в наибольшей степени соответствует активизации способностей учащихся к социальной самореализации;
  • обеспечивает новую внешнюю систему оценки учебных достижений на основе внешнего независимого образовательного контроля со стороны сообщества и разработчиков проекта, что, в свою очередь, облегчает как признание результатов полученного образования, так и ответственность обучаемого;
  • открывает для учащихся путь к социализации в высокотехнологичном сетевом сообществе, что призвано стать решающим фактором его «социальной включенности» (social inclusion);
  • формирует социальную ответственность за общекомандные и групповые результаты своей индивидуальной деятельности, так как осуществляется посредством вхождения в команду («БрГУ имени А.С. Пушкина»);
  • реализует определенный воспитательный потенциал, в полной мере соответствующий современной социокультурной ситуации, утверждающий на личном примере самоценность образования и дающий надежду на преодоление тенденции консьюмеризации образования.

Как показывает опыт практической реализации краудсорсинговой разметки Open Corpora в образовательном процессе вуза, эта технология может стать технологической основой средового подхода [3] к управлению процессом развития и формирования личности: деятельностного, коммуникативного, системного, личностного.

Список использованных источников

  1. «Открытый корпус» (OpenCorpora) [Электронный ресурс]. – Режим доступа: http://opencorpora.org – Дата доступа: 14.03.2018.
  2. Участники ) [Электронный ресурс]. – Режим доступа: http://opencorpora.org/?page=team – Дата доступа: 14.03.2018.
  3. Дубовицкая С.В. Воспитывающая среда как фактор становления и развития личности / С.В. Дубовицкая, И.Л. Беккер // Известия ПГПУ им. В.Г. Белинского. – 2011. – № 24. – С. 631–638.
Запись опубликована в рубрике Проблемы методики преподавания естественнонаучных дисциплин. Добавьте в закладки постоянную ссылку.