Одиннадцатая международная конференция по языковым ресурсам и их анализу / Eleventh International Conference on Language Resources and Evaluation

Общее описание

LREC – это конференция, которая проводится ELRA (European Language Resources Association) раз в два года. Конференция посвящена вопросам, связанным с созданием ресурсов и инструментов для работы с естественным языком (а также оценкой того, насколько хороши ресурсы и эффективны инструменты). Интересно, что организаторы тематику конференции относят к «Language Resources (LR)», что понятно, но также и к «Evaluation for Human Language Technologies (HLT)» (‘оценка технологий для обработки языка’) – что интересно, язык они именуют human language, а не natural language, в чем можно увидеть акцент не столько на технической стороне вопроса, сколько на гуманитарно-антропологическом взгляде на работу с языком в электронном виде.

Конференция довольно значительная по количеству участников, достаточно сказать, что структурно в ней 65 тем (topics), а всего докладов 728 (при этом, некоторые доклады могут быть в нескольких темах).

Любопытно, что даже такая «гуманитарная» (в отношении целей) и «теоретическая» конференция отражает события, которые происходят в мире. Так, например, целых три доклада внезапно оказались посвящены анализу уйгурских текстов: A Neural Network Based Model for Loanword Identification in Uyghur, Error Analysis of Uyghur Name Tagging: Language-specific Techniques and Remaining Challenges, Discriminating between Similar Languages on Imbalanced Conversational Texts (работа по вычленению казахского и уйгурского в разговорной речи).

Тематика

Поскольку это не вполне обычная конференция по NLP, то и уделить внимание хотелось бы блоку докладов по самой «непрактичной» теме – Endangered Languages. Интересно узнать, что происходит в этом мире, когда индустрия well-resourced languages старается довести precision до 100 %.

Итак, всего в этот топик попало 13 докладов.

Тенденции

О каких тенденциях можно судить на основе анализа этого списка?

Technological boosting. Краудсорсинг имеет свои плюсы (впрочем, и минусов хватает), но всегда проблема, с чего начать и как эффективно пополнять ресурс для языка, на котором как раз очень мало ресурсов в цифровом виде. Так, например, венгерские лингвисты [№6] для языковых пар коми-пермяцкий, коми-зырянский, луговой мари, горный мари, северный саамский, удмуртский//английский, финский, венгерский, русский взяли имеющиеся корпуса, Википедию и Викисловарь и на основе этих данных сделали «прото-словари» (proto-dictionaries), которые затем дали вычитать носителям языка, превратив это в полноценный лексикографический ресурс. Той же темой заняты исследователи из Киото (Япония) [№1], однако их доклад был посвящен проблеме оптимизации составления словарей для low-resourced языков на базе существующих словарей для языков с большим количеством языковых ресурсов и на базе двуязычных словарей небольшого объема. Работа велась для языковых пар этнических языков Индонезии: индонезийский, малайский, яванский, сунданский и язык минангкабау.

Трое авторов, по одному из Университета Пенсильвании (США), Горной школы Сент-Этьена (Франция) и Университета Нью-Брунсвика (Канада), решили помочь языку микмак (алгонкинская семья) [№7], на котором говорят на востоке Канады. Для него характерен полисинтетизм, свободный порядок слов и богатая морфология. Из местных аборигенных языков в провинции Нью-Брунсвик микмак является самым распространенным, хотя в абсолютных цифрах это лишь 8 тысяч человек, которые назвали его родным в канадской переписи 2011 года. Причины малочисленности его носителей, как сообщается в статье, уходят корнями не только в далёкие времена, но связаны и с весьма недавним прошлым. Оказывается, в Канаде существовала практика по изъятию детей из аборигенных семей, которых отправляли в школы-интернаты, чтобы лишить их этнической идентичности. Причем, как отмечают авторы, последняя такая школа была закрыта только в 1996 г., а в 2008 г. тогдашний премьер Канады принес извинения тем, кого это коснулось. Исследователи решили как-то положительно повлиять на ситуацию вокруг микмак, в частности составить небольшой корпус и сгенерировать языковую модель. Корпус был автоматически собран через Интернет с помощью запросов, содержащих специфические микмакские слова. После чего авторы попробовали создать языковую модель. Они перебрали несколько вариантов, но нейросетевые модели оказались хуже n-грамных – как предполагают исследователи, по причине недостатка данных для тренировки модели. Авторы планируют и далее заниматься этой проблемой, в том числе среди ближайших перспектив видят создание морфологического анализатора для языка микмак.

В качестве подпункта можно отдельно выделить автоаннотацию. Исследователи задумались над тем, чтобы помочь полевым лингвистам с переходом от материала к аннотированным данным. Так, французско-немецкий коллектив [№2] занимался созданием корпуса звучащей речи языка мбоши (семья банту, Конго). Они взяли датасет, который аналогичен материалу, собираемому в рамках полевого исследования. Корпус состоял из переводов французских фраз на мбоши (т.е. выравнен на уровне предложений, всего более 5000 высказываний), ресурс был дополнен словарем мбоши. Задача представляла собой определение слова (word discovery) «на основе байесовского непараметрического подхода, где (псевдо-)морфы генерируются посредством биграмной модели на неконечном списке, с помощью процесса Дирихле». Результат доступен для скачивания [.

Двое исследователей из Технологического института Рочестера (США) посвятили своё исследование [№9] близкой теме – автоматическому распознаванию речи. Материалом послужил язык сенека (ирокезская семья), на котором говорят в резервациях в штате Нью-Йорк. Количество говорящих – несколько сотен. В отличие от ситуации с языком микмак, никакой возможности получить «сидинговый» датасет с помощью краулинга нет. Исследователи взяли Kaldi (как они честно пишут, всё по инструкции «Kaldi for Dummies»), список из двух тысяч слов и попытались с минимальными затратами времени и небольшими ресурсами сделать инструмент, обученный на их данных (3 спикера) для одного языка. Вполне ожидаемым оказался высокий параметр OOV («нет в словаре») – 31—38% в зависимости от модели и WER 65—69%. В результате, несмотря на неидеальный выход, система помогает облегчить работу специалиста-лингвиста, который работает с «сырым» материалом: после предобработки системой человеку проще отредактировать полученную разметку, чем создавать её с нуля. А чем больше данных будет собираться таким образом, тем лучше на основе итогового корпуса можно будет обучать модель в дальнейшем. Авторы планируют продолжать работу в этом направлении, в том числе хотят заняться созданием морфологического анализатора, а также попробовать использовать готовые акустические модели, разработанные для языков, родственных сенека.

Создание морфологических анализаторов. Это один из базовых инструментов, необходимых для дальнейшей работы с языковыми данными. Тренд не новый, но в 2018 году он захватывает языки с малым количеством носителей и со сложной для англоговорящего разработчика морфологией. Так, специалисты из Арктического университета Норвегии и канадского Университета Альберты создали морфологическую модель глагола (к сожалению, только глагола) на конечных автоматах для языка северный хайда [№10]. Этот язык мало того что под угрозой исчезновения, так он еще и идиом, наряду с южным вариантом, макроязыка-изолята хайда (ареал – Британская Колумбия и Аляска). Кроме прочего, северный хайда обладает весьма развитой системой словоизменения. Его глагольная морфология использует целый ряд суффиксов, которые видоизменяют основу и влияют на порядок элементов в определенных конструкциях. задача выглядит непростой, но разработчики сообщают о 100 % accuracy на их датасете – как для разбора, так и для генерации форм.

Going multimodal. Безусловно, в качестве первейших целей для обеспечения underresourced языка языковыми инструментами можно назвать языковую модель/морфологический анализатор, с помощью которых можно уже создавать производные ресурсы и инструменты. Но есть тип проектов, который так или иначе требует большого объема ручного труда, поэтому его создание в принципе возможно, даже если у нас нет NLP-базы для языка. Речь о мультимодальных корпусах: технология их создания несложна, а результат может быть полезен исследователям из разных областей. Нужны только специалисты, которые могут квалифицированно разметить данные.

Andreas Liesenfeld из Наньянского технологического университета (Сингапур) сообщает о создании видеокорпуса кантонского языка Малайзии [№4]. Это 20 часов записей спонтанной речи, в которой участвуют 2-4 носителя. Форматом хранения данных является minCHAT, аннотирование производилось на уровне предложений и их сегментов, датасет не содержит никакой дополнительной морфолого-синтаксической разметки, а также аннотирования выражений лица, жестов и событий. Транскрипция велась традиционными китайскими знаками, включая дополнительный набор гонконгских символов, но некоторых специфических для данного идиома знаков всё равно не хватало, для них использовалась романизированная запись. Как отмечает автор, данный проект является первым языковым ресурсом, который имеет отношение к кантонской речи в Малайзии. Чтобы получить доступ к материалам, необходимо обратиться к автору, указанный в публикации сайт проекта на данный момент недоступен, состояние дел по дальнейшему развитию проекта неизвестно.

Научный коллектив из Института творческих технологий Университета Южной Калифорнии (США) представил на конференции мультимодальный корпус языка чокто [№3] (или чоктавский, мускогская семья). По данным авторов, у языка около 10 тысяч носителей, язык находится под угрозой исчезновения, при том, что само племя чокто является четвертым по величине аборигенным сообществом США (220 тыс членов). В корпусе представлены варианты Оклахомы и Миссисипи. У языка бедная письменная история, цифровых корпусов чокто нет. В рамках данного проекта были собраны материалы из учебных текстов, книг и научных публикаций, аудиозаписи и видео, большая часть контента на чокто в корпусе имеет английский перевод. Статья содержит краткое описание новейшей истории народа чокто и его языка, а также характеристику звукового состава и орфографической системы чокто. В качестве базы данных был выбран Microsoft Access. Всего в корпусе 18 078 токенов оклахомского чокто и 32046 миссисипского, около 600 аудиофайлов и 30 видео (взяты с YouTube) общей длительностью 400 минут. Наборы данных корпуса в Интернете не представлены. В качестве дальнейших целей авторы называют пополнение корпуса по мере появления новых публикаций, однако из статьи трудно сделать вывод насчёт того, насколько активно проект будет развиваться в дальнейшем. Интересно, что работы по корпусу были частично спонсированы Армией США.

Deployment full-language corpora. Under-resourced языки должны не просто получать ресурсы/инструменты для исследования и практических приложений, а полноценные общеязыковые корпуса. Доклад Paul Meurer [№12] попал в топик Endangered Language, хотя абхазский, пусть и язык непростой судьбы, но явно не находится под угрозой со 190 тысячами говорящих, по данным «Ethnologue».

Дело в том, что в понимании некоторых людей происходит некоторое объединение понятий endangered и underresourced, хотя в мире, конечно, это разные вещи. В этом отношении абхазский, безусловно, (был) underresourced, но никак не endangered.

Итак, проект был начат в 2015 году и реализован при партнерстве с Институтом эмпирической лингвистики Университета Гёте (Франкфурт), Центром гражданской интеграции и межэтнических отношений (Тбилиси) и организации «Деловые женщины Абхазии» и финансовой поддержке Агентства по международному развитию США (USAID). Вспоминая вышеупомянутый уйгурский, трудно не заметить в этом проекте влияния политики, ведь в кавказском регионе существует множество языков, которые и не могут похвастаться большим количеством носителей, и при этом, естественно, under-resourced, но никакого особенного внимания к себе почему-то не привлекают. В техническом плане корпус работает на движке Corpuscle, созданном в Университете Бергена под руководством автора доклада. Что интересно, движок написан на Common Lisp, что, прямо скажем, не каждый день встретишь. На том же движке работает несколько корпусных проектов Университета Бергена. Несмотря на звучное название «Национальный корпус абхазского языка», ресурс развёрнут не как самостоятельный проект, а существует на поддомене Университета Бергена ].

Группа французских специалистов со всей Франции и не только [№5] представила доклад посвященный созданию морфологически размеченных корпусов французских региональных языков – эльзасского, окситанского и пикардийского, что было сделано в рамках проекта RESTAURE. Цель RESTAURE – «разработка ресурсов и инструментов для данных under-resourced региональных языков Франции». Трудно уйти от политики в лингвистике – как отмечают сами авторы, «эти региональные языки не имеют никакого официального статуса во Франции и поэтому страдали от отсутствия институциональной поддержки до последнего времени [выделение моё – А.Я.]» Результаты доступны в виде окситанского и пикардийского корпусов. Статья описывает наборы тэгов (расширения Universal POS), процесс аннотации и сбора корпуса. Что касается эльзасского, то говорится, что тексты были взяты из алеманнской Википедии (только те статьи, что были отмечены как написанные в Эльзасе) и из хроники совета одного из французских эльзасских департаментов, однако ссылка на сам корпус в статье не представлена.

Crowdsourcing. Исследователи осознали, что в тяжелых условиях, в которых существует язык под угрозой, стоит доверить спасение утопающих самим утопающим. Разработчики из Сорбонны [№11] представили на конференции краудсорсинговую платформу для аннотирования эльзасского корпуса, который, как видно, из последней статьи в предыдущем пункте пока весьма далек от совершенства. На платформе представлены данные корпуса (в основном, Википедия, 20% – проза; всего 333 предложения, 6878 токенов). Всего участники создали около 19 тысяч аннотаций. В целом, авторы отмечают, что обученный на этом корпусе парсер эльзасского не так хорошо справляется, как аналогичные инструменты для других языков, обученные на корпусах такого же объема. Исследователи делают предположение, что причина в диалектной вариативности и орфографической неконсистентности. Отмечается accuracy для тэггера в 83,7%. Интересные наблюдения сделаны насчет проблем привлечения пользователей на краудсорсинговую платформу: так, только 37% процентов были на платформе более 1 раза, при этом качество аннотаций оценивается в 93%. Исследователи рассуждают о необходимости добавления элементов геймификации в интерфейс. Сам исходный код платформы опубликован, ссылок же на эльзасские ресурсы и тэггер в статье нет, вероятно, всё еще в разработке.

Кодификация и corpus-driven исследование идиомов, не имеющих последовательной письменной традиции. Исследователи из Университета Страсбурга (Франция) работали с эльзасскими датасетами [№8]. В Эльзасе, по их данным, около полумиллиона носителей германских диалектов, которые существуют в виде языка повседневного общения и не имеют стандартизированной письменной формы. Целью исследования было более глубокое понимание того, как произношение отражается на письме, насколько оно последовательно для каждого из имеющихся датасетов, и, в целом, что собой представляет фонетическая система каждого варианта. В итоге получили «набор основных фонем, необходимый для описания эльзасской фонологии».

Atlas sonore des langues régionales de France

Популяризация информации о языках под угрозой. «Звуковой атлас региональных языков Франции», созданный французскими специалистами [№13], представляет собой сайт-карту, на которой к географической локации привязана звуковая дорожка. Текст, который произносится в соответствии с региональными особенностями более 140 идиомов, это басня Эзопа «Северный ветер и солнце» (около 1 минуты звучащей речи). Проект реализован на PHP (бэкэнд) и jQuery по canvas на фронтенде (решение получилось довольно тяжелым, реализовано технически неоптимально). Это интересный способ представить лингвистическую информацию и для тех, кто изучает диалектологию/социолингвистику Франции, и для более широкой аудитории, что важно для страны с долгой историей поддержки одного лишь языка столицы.

Текст, который произносится в соответствии с региональными особенностями более 140 идиомов, это басня Эзопа «Северный ветер и солнце» (около 1 минуты звучащей речи). Проект реализован на PHP (бэкэнд) и jQuery по canvas на фронтенде (решение получилось довольно тяжелым, реализовано технически неоптимально). Это интересный способ представить лингвистическую информацию и для тех, кто изучает диалектологию/социолингвистику Франции, и для более широкой аудитории, что важно для страны с долгой историей поддержки одного лишь языка столицы.

State—of—the—art

Что можно назвать самыми технологически продвинутыми решениями в сфере создания лингвистических ресурсов и инструментов для языков, находящихся под угрозой исчезновения? Прежде всего, это создание языковых моделей. Впрочем, из-за высокой вариативности в данных, небольшого объема самих датасетов особого результата новые подходы не дают (как было в случае с языками мбоши и микмак). Исследователи указывают в качестве планов использование инструментария deep learning и свёрточных нейронных сетей, однако, кажется, всё же чуда ждать не стоит, а проект, связанный с underresourced language, нужно развивать на первом этапе экстенсивно, просто расширяя корпус, размечая и верифицируя данные.

Интересной представляется идея создания ASR-инструментов для помощи полевым лингвистам, но в данной области слишком велик порог входа в state-of-the-art, а задача ещё более сложная, чем для «богатого» языка.

В остальном описанные выше проекты не представляют собой технологически сложных решений. С другой стороны, возникает вопрос, почему так мало представлено проектов на базе «ручного труда». В мире сотни, если не тысячи, языков под угрозой, но, к примеру, о проектах мультимодальных корпусов сообщается только для двух языков. Также можно заметить что в географии докладов не представлены, к примеру, Южная Америка, Австралия, Новая Зеландия и пр. (при том, что конференция в этом году проходила в Японии). Собственно весь европейский регион свёлся к докладам по языкам Франции. Если конференция сама по себе репрезентативна, то состояние дел в сфере endangered languages отнюдь не впечатляющее, ясно, что гораздо большее может быть сделано, в том числе, с помощью новых технологий.

Выводы

Что же может быть сделано с помощью современных компьютерных технологий для языка, которому не повезло стать мировым или даже государственным?

В первую очередь, необходимо собрать данные в электронном виде и на основе первичного корпуса попробовать придать «технологическое ускорение» (technological boosting) дальнейшей работе. Прежде всего, это может быть помощь в аннотировании и связывании (linking) собираемых данных. Когда какой-то массив уже собран, то в условиях ограниченных ресурсов можно попробовать привлечь носителей к разметке (crowdsourcing).

Если минимальный корпус готов и, желательно, аннотирован, стоит приступить созданию морфологического анализатора/обучению языковой модели. Если технической компетенции для этого нет, но есть квалифицированные специалисты, то можно создать мультимодальный корпус (going multimodal). Если для текстов на идиоме характерна высокая вариативность, то провести кодификацию и corpus-driven исследование языкового варианта.

Когда эти этапы пройдены, создан необходимый инструментарий для АОТ на данном языке, то целью становится полноценный языковой корпус (deployment full-language corpora).

На любом этапе необходимо помнить о популяризации в обществе знаний о языке, его специфике, социолингвистической ситуации, культурном ландшафте и истории, поскольку часто помощь со стороны государственной власти проектам по исследованию языков, находящихся под угрозой, сбору данных по ним и ревитализации обусловлена текущей политической конъюнктурой. Более надёжно надеяться на поддержку общественности, которая осведомлена о проблеме.

В целом, сложилось впечатление, что проектам, связанным с языками под угрозой, не хватает координации/коллаборации, это заметно и по разнящейся технологической базе, и по самой сути проектов, и по результатам. Впрочем, впечатление может быть недостаточно объективным, ведь изучался всего лишь тематический блок большой конференции, а на специализированном мероприятии по endangered language всё может выглядеть по-другому.

Ну и грустно, конечно, что какие-то языки никому не нужны десятилетиями, а потом – раз, меняется политическая повестка дня, язык и его сообщество власти перестают считать опасным и вдруг начинают давать деньги на его поддержку и создание инструментария для работы с ним. Или наоброт – начинается финансирование инфраструктуры, для того чтобы государство могло более оперативно получать информацию о языковом сообществе, которое оказалось вдруг очень подозрительным.

Аляксей Яскевіч

Рэдактар і тэхнічны адміністратар Philology.BY. Спецыялізуецца на лічбавых метадах у гуманітарных навуках (digital humanities). Цікавіцца лексікаграфіяй, сацыялінгвістыкай і марфалогіяй. Акрамя мовазнаўства, займаецца аналізам і візуалізацыяй дадзеных (Dataviz.BY) ды стварэннем вэб-праектаў.

Обзор LREC 2018: Endangered Languages