MANDE LANGUAGES
 

Корпус текстов манден

 

Современное языкознание всё в большей мере опирается на корпусные методы исследования, и появляющиеся в последние годы описания африканских языков всё чаще основываются на анализе текстов. Однако обычно речь идёт о малых корпусах – текстах объёмом в несколько тысяч, реже – несколько десятков тысяч словоупотреблений, записанных лингвистом в ходе его полевой работы и глоссированных в текстовом редакторе или в программе Toolbox или Fieldworks.

Идея о необходимости и возможности создания «среднего» корпуса (объёмом в миллионы словоупотреблений) для языков манден была высказана в 2008 году:

Выдрин В. Ф. Электронные корпуса африканских языков: завтра или послезавтра? // А. Ю. Желтов (ред.). Петербургская африканистика. Памяти Андрея Алексеевича Жукова. СПб.: Санкт-Петербургский государственный университет, 2008б, C. 29–39.

Vydrin V. Glossed electronic corpora of Mande languages: A perspective that we cannot avoid // Mande languages and linguistics. 2nd International Conference, St. Petersburg (Russia), September 15–17, 2008. Abstracts and Papers. V.Vydrin (ed.). St. Petersburg, 2008, P. 15–22.

Тогда же были сделаны первые попытки найти практические решения некоторых технических проблем, которые должны были встать перед разработчиками такого корпуса:

Выдрин В. Ф. На пути к электронному корпусу языка бамана: обозначение тонов // Труды международной конференции «Корпусная лингвистика – 2008». СПб.: Санкт-Петербургский государственный университет, 2008а. С. 122–134.

В конце 2009 года в Петербурге была создана рабочая группа по созданию электронного корпуса текстов бамана, а в 2010 году её проект был поддержан грантом Российского Фонда Фундаментальных Исследований № 10-06-00219-а. Результаты работы этой группы (по ситуации на начало 2011 года) и предлагаемые ею пути преодоления возникающих трудностей изложены в следующих работах:

Выдрин В.Ф. Электронный глоссированный корпус текстов языка бамана: первый этап // Mandeica Petropolitana II / Ред. В. Ф. Выдрин. СПб.: Наука, 2011. С. 343-380. (ACTA LINGUISTICA PETROPOLITANA. Труды Института лингвистических исследований РАН / Отв. редактор Н. Н. Казанский. Т. VII. Ч. 2).

Davydov A. Towards the Manding corpus: Texts selection principles and metatext markup // Eds. Guy De Pauw, H.J.  Groenewald, and Gilles-Maurice de Schryver. Proceedings of the Second Workshop on African Language Technology (AfLaT 2010). Valletta, Malta: European Language Resources Association (ELRA), 2010, pp. 59-62.

Давыдов А. В. Электронный корпус языка бамана: комплектование и принципы метатекстовой разметки // Mandeica Petropolitana II / Ред. В. Ф. Выдрин. СПб.: Наука, 2011. С. 381-393. (ACTA LINGUISTICA PETROPOLITANA. Труды Института лингвистических исследований РАН / Отв. редактор Н. Н. Казанский. Т. VII. Ч. 2).

К концу 2011 года рабочей группой, в сотрудничестве с коллегами из разных стран, были созданы следующие инструменты:

1. Инструкция по обработке текстов, вводимых в Корпус, включающая следующие разделы:

– Подход к вопросу о нормализации орфографии.

– Нумеризация текста.

– Предварительная подготовка текста.

– Введение данных метаразметки.

– Ввод текста в парсер.

– Снятие омонимии.

– Пополнение словаря.

– Именование файлов и папок. Хранение файлов.

2. Программа по внесению метатекстовой информации.

3. Программа автоматического морфологического анализа и глоссирования текста бамана.

4. Программа ручного снятия омонимии в автоматически размеченном тексте (в том же пакете).

5. Программа автоматической проверки орфографии бамана.

6. Лексическая база данных, разработанная на основе бамана-французского словаря Шарля Байоля.

7. Список стандартных глосс для аффиксов и служебных лексем бамана.

8. Библиография публикаций на языке бамана.

К декабрю 2011 года общий объём текстов бамана, обработанных программой автоматического анализа (парсером), достиг 1 млн. словоупотреблений.

Объём корпуса с ручным снятием омонимии достиг 20 тыс. словоупотреблений. Файлы в формате HTML доступны здесь.