Распространение языков в КНР на уровне провинций: оценивание при неполных данных

 pdf (130K)

Данная работа посвящена решению практической задачи восстановления данных по распространению языков на региональном уровне на примере Китайской Народной Республики. Необходимость получения таких данных связана с задачей вычисления индексов лингвистического разнообразия, которые, в свою очередь, активно используются при эмпирическом анализе и прогнозе факторов социально-экономического развития, а также могут служить индикаторами потенциальных конфликтов на рассматриваемых территориях. В качестве исходной информации мы используем сведения из базы данных «Этнолог» (Ethnologue), дополняя их общедоступными данными переписей населения. Рассматриваемые нами данные содержат по каждому языку (а) оценку количества жителей страны, считающих этот язык родным, и (б) индикаторы наличия таких жителей в каждой из провинций КНР. Наша задача — для всех пар «язык–провинция» оценить количество жителей провинции, считающих этот язык родным. Она сводится к решению недоопределенной системы алгебраических уравнений. Специфика данных Ethnologue заключается в том, что, в силу большой трудоемкости и стоимости сбора таких данных, а также неполноты сведений по соответствующему разделу в переписях населения, имеющаяся информация по отдельным языкам в различных провинциях представлена за различные периоды времени. Одновременное использование таких данных приводит к тому, что возникающая система уравнений имеет неточно определенную правую часть, поэтому мы строим приближенное решение, характеризуемое минимальной невязкой. Учитывая неоднородность исходных данных (некоторые из языков оказываются на порядки менее распространенными), мы переходим к использованию взвешенной невязки, определяя в каждом уравнении весовые коэффициенты как величины, обратно пропорциональные правой части. Такой способ формирования невязки позволяет восстановить искомые переменные. Более 92% переменных оказываются устойчивыми к изменениям правой части при вероятностном моделировании ошибок записей в исходных данных.

Ключевые слова: использование языков в регионах, индексы неоднородности, восстановление неполных данных
Цитата: Давыдов Д.В., Шаповал А.Б., Ямилов А.И. Распространение языков в КНР на уровне провинций: оценивание при неполных данных // Компьютерные исследования и моделирование, 2016, т. 8, № 4, с. 707-716
Citation in English: Davydov D.V., Shapoval A.B., Yamilov A.I. Languages in China provinces: quantitative estimation with incomplete data // Computer Research and Modeling, 2016, vol. 8, no. 4, pp. 707-716

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал входит в Перечень российских рецензируемых научных журналов, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней доктора и кандидата наук ВАК, группы специальностей: 01.01.00, 01.02.00, 03.01.00, 03.02.00.
 

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science