Опубликовано в:
Яскевич, А.А. Корпусная лингвистика // Энциклопедия для школьников и студентов : в 12 т. Т. 1: Информационное общество. ХХI век / под общ. ред В. И. Стражева. – Минск : Белорусская энциклопедия, 2009. – С. 167-169.
Корпусная лингвистика – область лингвистики, связанная с созданием и совершенствованием корпусов текстов, а также с их применением в качестве инструмента лингвистического исследования.
Корпус в лингвистике – это совокупность текстов, собранная в единое целое по определённым, соответствующим конкретной исследовательской задаче, критериям и отражающая ту или иную сферу использования языка. В современной лингвистике под корпусом обычно подразумевают корпус текстов в электронной форме. Ведь именно применение компьютерных технологий превратило корпус из одного из методов работы с языковым материалом в удобный и эффективный исследовательский инструмент, а корпусную лингвистику – в самостоятельную дисциплину.
Корпус обладает свойством репрезентативности (или представительности): он должен соответствовать той области функционирования языка, которую будет отражать. Это значит, что корпус должен быть хотя бы минимально достаточным по объёму входящих в него отдельных текстов, чтобы можно было судить обо всей сфере. Другими словами, мы должны внести (добавить, описать и разметить) столько текстов, сколько сможем. Поскольку полностью все тексты мы можем внести в корпус только если предмет нашего корпусного исследования сам по себе жёстко ограничен – если, к примеру, это язык одного писателя (вносим все его произведения), или мёртвый язык (вносим все тексты, известные на этом языке) и т.п. В противном случае, к примеру, если мы создаём корпус, предназначенный отражать какой-либо живой язык, репрезентативность выражается в пропорциональности. В этом случае отдельный тип текста (к примеру, газетная статья) должен иметь такую же долю в корпусе, какую он имеет в коммуникации на данном языке.
Тексты, собранные в корпусе, размечаются в соответствии с выбранным стандартом аннотирования. Аннотирование, или разметка, – это описание каждой единицы текста с помощью специальной системы отметок. Основная цель аннотирования – снятие омонимии (грамматической, лексической и т.д.), т.е. добавление дополнительной информации о том, в каком значении употреблена та или иная форма. Например, в зависимости от контекста словоформе мою приписывается либо значение глагольной формы (мою – 1 л. ед.ч. н.вр.), либо формы притяжательного прилагательного (мою – ж.р. ед.ч. В.п.).
Небольшая часть разметки корпуса производится вручную, т.е. специалист описывает каждое слово в определённом фрагменте текста. Где возможно, процесс аннотирования автоматизируется с помощью специальных программ – морфологических и синтаксических анализаторов. Однако результаты машинной разметки, к сожалению, не всегда успешны и иногда нуждаются в правке.
После разметки каждая единица текста корпуса вносится в базу данных, а к готовой базе подключается корпусный менеджер. Корпусный менеджер – это программа, предоставляющая удобный доступ к базе данных корпуса. Он выдаёт в виде списка все контексты, в которых встретилось слово или группа слов, интересующих пользователя корпуса. Это очень похоже на обычную поисковую систему из числа тех, которыми мы пользуемся для поиска в Интернете, только он может искать не только по простому вхождению слова или его словоформы, но и по заданным лингвистическим параметрам. Так, в Национальном корпусе русского языка ( http://ruscorpora.ru/ ) мы можем, например, запросить выдачу всех контекстов:
• где есть вхождение словоформы идёшь (2 л. ед. ч. н. вр. от идти);
• где есть любая из форм глагола идти;
• где есть глагол движения в форме 2 л. ед. ч. н. вр.;
• где просто присутствует форма 2 л. ед.ч. н. вр. любого глагола, независимо от его лексического значения
• …и т.д.
С помощью корпуса мы можем получить такие сведения, во-первых, которым мы можем доверять, во-вторых, которые иным путём получить просто невозможно. К примеру, мы можем узнать, что наиболее частым определением цвета глаз в русском языке является серый, на втором месте – голубой, на третьем – чёрный. Также можем убедиться, что комп ‘компьютер’ – не просто случайное сокращение, а вполне употребительное разговорное слово: 92 вхождения.
Каждый фрагмент текста (контекст) в выдаче корпусного менеджера, как правило, снабжается названием источника и гиперссылкой на весь текст, откуда он был взят. Корпусный менеджер может сообщать разного рода статистическую информацию по корпусу: например, строить частотный словарь употребления той или иной единицы текста. Все эти данные используются лингвистом при описании языка в целом либо при исследовании отдельного явления. До появления электронных корпусов все эти операции (сбор текстов, обработка, подсчёты и др.) учёные выполняли вручную. Теперь же, благодаря достижениям К.Л. исследователь может избавиться от части рутинной работы и больше внимания уделить тем задачам, которые требуют творческого подхода.