ОБЩИЕ СВЕДЕНИЯ


ИРНAP05134272, Номер госрегистрации0118РК01262

НаименованиеРазработка свободно распространяемых программных инструментов с открытым исходным кодом для автоматической обработки текстов на казахском языке

Приоритетное направлениеИнформационные, телекоммуникационные и космические технологии, научные исследования в области естественных наук/Информационные, телекоммуникационные и космические технологии

Вид исследованияПрикладное

ЗаявительЧастное учреждение "National Laboratory Astana"

Научный руководительЕсенбаев Жандос Аманбаевич

Балл ГНТЭ31.33

Общая одобренная сумма45000000


Ожидаемые результаты

Планируется разработка следующих инструментов обработки текстов на казахском языке: 1) модуль первичной нормализации текста; 2) графематический анализатор; 3) модуль определения языка; 4) морфологический анализатор; 5) морфологический таггер; 6) синтаксический анализатор; 7) модуль проверки и коррекции правописания; 8) модуль извлечения именных сущностей; 9) модуль вторичной нормализации текста.


Скачать отчет за 2018 год (Русская версия)

Реферат (Абстракт) - 2018 год

Объект исследования, разработки или проектирования

Объектами исследования данного проекта являются текстовые документы на казахском языке, а также современные методы и алгоритмы их обработки и анализа.

Цель работы

Целью проекта является создание свободно распространяемых программных инструментов с открытым исходным кодом для автоматической обработки текстов на казахском языке.

Методы исследования

В данной работе используются методы машинного обучения, искусственных нейронных сетей и статистической обработки текстовых данных. Методология обработки и анализа данных соответствует общепринятой практике проведения исследований, использующих подходы машинного обучения.

Полученные результаты и новизна

- Были разработаны методы и алгоритмы первичной нормализации текстов, включая этапы восстановления гомоглифов, транслитерации и стандартной нормализации. - Были разработаны три модели, основанные на искусственных нейронных сетях, для решения задачи графематического анализа текстов. - Были разработаны Байесовские классификаторы для задачи определения языка по документам и словам. - Была разработана собственная версия морфологического анализатора на основе Apertium HFST, в котором были оптимизированы морфотактические и лексические компоненты последнего. - Был разработан морфологический таггер на основе скрытых марковских моделей, - Был создан веб-сайт проекта, в котором публикуется информация по проекту. Веб-сайт также содержит демонстрационные страницы разработанных модулей и расположен по ссылке http://opendev.kz/kaznlp/.

Основные конструктивные и технико экономические показатели

- Начальная нормализация сокращает размер словаря на 27% и уровень OOV – на 4.9%. - В задаче токенизации была достигнута точность на уровне 99.61%, а в задаче сегментации предложений - 95.95%. - Точность определения языка по документам для русского языка - 98.6%, а для казахского – 99.97%; пословного классификатора для казахского языка - 96.70%, а для русского - 94.08%; по предложениям - 99,73%. - Точность морфологического таггеар - 91,9%.

Степень внедрения

Все разработанные в рамках данного проекта программные модули развернуты в интернет и предостоставляются в виде демонстрационных веб-сервисов.

Область применения

Разработанные модули могут быть применены в любой области, где стоят вопросы автоматической обработки текстов на казахском языке, например, для обработки документов и неструктурированных веб-данных.

Скачать отчет за 2019 год (Русская версия)

Реферат (Абстракт) - 2019 год

Объект исследования, разработки или проектирования

Объектами исследования данного проекта являются текстовые документы на казахском языке, а также современные методы и алгоритмы их обработки и анализа.

Цель работы

Целью проекта является создание свободно распространяемых программных инструментов с открытым исходным кодом для автоматической обработки текстов на казахском языке.

Методы исследования

В данной работе используются методы машинного обучения, искусственных нейронных сетей и статистической обработки текстовых данных, такие как наивные байесовские классификаторы, скрытые марковские модели, рекуррентные нейронные сети и конечные преобразователи. Методология обработки и анализа данных соответствует общепринятой практике проведения исследований, использующих подходы машинного обучения.

Полученные результаты и новизна

Был разработан морфологический анализатор на основе нейронных сетей, который обладает точностью в 87.8%, при этом не требуя никаких дополнительных ресурсов (словарей или наборов правил), кроме обучающей выборки. Разработанный анализатор был адаптирован для работы с контекстом, в результате чего был получен морфологический таггер на базе искусственных нейронных сетей с рекордной точностью для казахского языка – 96.8%.Был разработан синтаксический анализатор на базе статистического подхода, который показал качество парсинга на уровне 61.08% по метрике UAS. Был разработан инструмент коррекции правописания, а именно орфографии, на основе статистического подхода. Качество распознавания и исправления ошибки составило 83%, что превосходит существующие аналоги для Microsoft Office и OpenOffice. Был разработан инструмент извлечения именных сущностей на базе статистического подхода, а именно, CRF. Качество модели в по метике F1 составила 0.95, что является на сегодняшний день одним из лучших показателей для данной задачи. Был разработан инструмент вторичной нормализации текстов на базе статистического подхода. Нами был выбран подход, используемый для статистического машинного перевода, основанный на фразах, который переводит реальные пользовательские комментарии, т.е. шумные данные, в грамматически правильный текст на казахском языке. Качество перевода по метрике BLEU составила 21,67.

Основные конструктивные и технико экономические показатели

Точность морфологического анализатора составила 87.8%. Точность морфологического таггера – 96.8%. Точность синтаксического анализатора - 61.08% по метрике UAS. Точность модуля коррекции правописания - 83%, что превосходит существующие аналоги для Microsoft Office и OpenOffice. Точность модуля извлечения именных сущностей по метике F1 составила 0.95, что является на сегодняшний день одним из лучших показателей для данной задачи. Точность модуля вторичной нормализации текстов по метрике BLEU составила 21,67.

Степень внедрения

Все разработанные модули размещены онлайн на демонстрационном сайте http://opendev.kz/kaznlp/, а исходный код модулей доступен по ссылке https://github.com/nlacslab/kaznlp.

Область применения

Разработанные модули могут быть применены в любой области, где востребована автоматическая обработка текстов на казахском языке, например, для поиска и извлечения информации из текста, классификации документов и неструктурированных веб-данных.

Скачать отчет за 2020 год (Русская версия) Скачать отчет за 2020 год (Английская версия)

Реферат (Абстракт) - 2020 год

Объект исследования, разработки или проектирования

Объектами исследования данного проекта являются текстовые документы на казахском языке, а также современные методы и алгоритмы их обработки и анализа.

Цель работы

Целью проекта является создание свободно распространяемых программных инструментов с открытым исходным кодом для автоматической обработки текстов на казахском языке.

Методы исследования

В данной работе используются методы машинного обучения, искусственных нейронных сетей и статистической обработки текстовых данных.

Полученные результаты и новизна

В данной работе исследования по обработке текстов проводились по четырем направлениям – синтаксический анализатор, коррекция правописания, извлечения именных сущностей и вторичная номализация текстов на казахском языке. Был разработан синтаксический анализатор на базе искусственных нейронных сетей, который показал качество парсинга на уровне 88.62% по метрике UAS. Был разработан инструмент коррекции грамматики. Были реализованы два подхода: базовый, основанный на фонетических правилах, и усовершенствованный, основанный на обучении ансамбле деревьев решений. Была достигнута точность в диапазоне 75% – 99% (базовый) и 87% – 100% (усовершенствованный). Был разработан инструмент извлечения именных сущностей на базе искусственных нейронных сетей LSTM и CRF. Качество модели в по метике F1 составила 0.88%, что на сегодняшний день сравнимо с лучшими показателями для данной задачи. Был разработан инструмент вторичной нормализации текстов на базе искусственных нейронных сетей, который переводит реальные комментарии пользователей интернет в грамматически правильный текст на казахском языке. Качество перевода по метрике BLEU составило 29.74.

Основные конструктивные и технико экономические показатели

Был разработан синтаксический анализатор на базе искусственных нейронных сетей, который показал качество парсинга на уровне 88.62% по метрике UAS. Был разработан инструмент коррекции грамматики. Были реализованы два подхода: базовый, основанный на фонетических правилах, и усовершенствованный, основанный на обучении ансамбле деревьев решений. Была достигнута точность в диапазоне 75% – 99% (базовый) и 87% – 100% (усовершенствованный). Был разработан инструмент извлечения именных сущностей на базе искусственных нейронных сетей LSTM и CRF. Качество модели в по метике F1 составила 0.88%, что на сегодняшний день сравнимо с лучшими показателями для данной задачи. Был разработан инструмент вторичной нормализации текстов на базе искусственных нейронных сетей, который переводит реальные комментарии пользователей интернет в грамматически правильный текст на казахском языке. Качество перевода по метрике BLEU составило 29.74.

Степень внедрения

Все разработанные в рамках данного проекта программные модули доступны в интернете и предоставляются в виде кодов и демонстрационных веб-сервисов.

Область применения

Разработанные модули могут быть применены в любой области, где востребована автоматическая обработка текстов на казахском языке, например, для поиска и извлечения информации из текста, классификации документов и неструктурированных веб-данных.