УДК 371.313
УО «Брестский государственный университет имени А.С. Пушкина», г. Брест
Научный руководитель – М.П. Концевой, старший преподаватель, кафедры прикладной математики и информатики БрГУ имени А.С. Пушкина
Open Corpora [1] – проект создания аннотированного лингвистического корпуса русскоязычных текстов, который характеризуется двумя важнейшими особенностями.
Во-первых, Open Corpora является свободным и открытым для всех групп пользователей (под лицензией CC-BY-SA), как для исследователей языка (применяющих корпусный инструментарий), так и для разработчиков систем и сервисов автоматической обработки текста (изучающих, редактирующих и использующих корпусные базы в целях создания нового инструментария для лингвистического исследования).
Во-вторых, разметка Open Corpora (морфологическая, синтаксическая, семантическая) осуществляется самими пользователями на основе технологии краудсорсинга (сетевой организации волонтерской работы сообщества над какой-либо задачей ради достижения общих благ). Необходимость краудсорсинга объясняется тем, что вычитка и аннотирование вносимых в корпусные базы текстов, в силу большого объема таких баз, сопряжена с большими затратами времени и труда. Реализовать ее силами небольшой инициативной группы Open Corpora [2] невозможно.
Для пользователей, пожелавших принять участие в реализации проекта Open Corpora открыты возможности участия в различных видах разметки:
- морфологической (tagging, part-of-speech tagging), сопоставляющей каждому слову в тексте его словарную форму с указанием грамматических характеристик слова;
- разметке сущностей (выделению и тегированию в текстах онимов и названий различного типа).
Осуществление разметки предполагает владение русским языком и наличие базового языкового образования. Имеются пошаговые иллюстрированные примерами инструкции по осуществлению разметки.
Разметка текстов в рамках проекта Open Corpora силами сетевого сообщества может быть использована в образовательных целях в контексте языковой и лингвистической подготовки учащихся и, как показывает опыт такого использования, обладает значительным и разноплановым лингводидактическим потенциалом. А именно:
- реализует практическое взаимодействие учащихся с корпусными технологиями как одним из наиболее эффективных и современных инструментов лингвистического исследования;
- предполагает повторение и закрепление грамматики русского языка при непосредственном проведении учащимися разметки предлагаемых текстов;
- осуществляется на основе современных информационных и коммуникационных технологий, осваиваемых учащимися в конкретной практической деятельности. В частности, практическое знакомство и использование программного обеспечения организации коллективной удаленной работы над снятием морфологической неоднозначности (морфологический словарь, полуавтоматический токенизатор);
- открывает перед учащимися существенное различие между машинным и человеческим подходами к решению трудно формализуемых и алгоритмизируемых задач в области естественного языка;
- предполагает на выходе получение не просто учебного, но законченного общественно-востребованного продукта, что открывает возможности социально значимой продуктивной деятельности в самом процессе образования и в наибольшей степени соответствует активизации способностей учащихся к социальной самореализации;
- обеспечивает новую внешнюю систему оценки учебных достижений на основе внешнего независимого образовательного контроля со стороны сообщества и разработчиков проекта, что, в свою очередь, облегчает как признание результатов полученного образования, так и ответственность обучаемого;
- открывает для учащихся путь к социализации в высокотехнологичном сетевом сообществе, что призвано стать решающим фактором его «социальной включенности» (social inclusion);
- формирует социальную ответственность за общекомандные и групповые результаты своей индивидуальной деятельности, так как осуществляется посредством вхождения в команду («БрГУ имени А.С. Пушкина»);
- реализует определенный воспитательный потенциал, в полной мере соответствующий современной социокультурной ситуации, утверждающий на личном примере самоценность образования и дающий надежду на преодоление тенденции консьюмеризации образования.
Как показывает опыт практической реализации краудсорсинговой разметки Open Corpora в образовательном процессе вуза, эта технология может стать технологической основой средового подхода [3] к управлению процессом развития и формирования личности: деятельностного, коммуникативного, системного, личностного.
Список использованных источников
- «Открытый корпус» (OpenCorpora) [Электронный ресурс]. – Режим доступа: http://opencorpora.org – Дата доступа: 14.03.2018.
- Участники ) [Электронный ресурс]. – Режим доступа: http://opencorpora.org/?page=team – Дата доступа: 14.03.2018.
- Дубовицкая С.В. Воспитывающая среда как фактор становления и развития личности / С.В. Дубовицкая, И.Л. Беккер // Известия ПГПУ им. В.Г. Белинского. – 2011. – № 24. – С. 631–638.