ОБЩИЕ СВЕДЕНИЯ


ИРНAP05131415, Номер госрегистрации0118РК00545

НаименованиеРазработка и исследование системы нейронного машинного перевода казахского языка

Приоритетное направлениеИнформационные, телекоммуникационные и космические технологии, научные исследования в области естественных наук/Информационные, телекоммуникационные и космические технологии

Вид исследованияПрикладное

ЗаявительДочернее Государственное предприятие на праве хозяйственного ведения "Научно-исследовательский институт математики и механики" Республиканского Государственного предприятие на праве хозяйственного ведения "Казахский Национальный университет им. Аль-Фараби"

Научный руководительТукеев Уалшер Ануарбекович

Балл ГНТЭ29.67

Общая одобренная сумма45000000


Ожидаемые результаты

Технология (модели, алгоритмы и программы) нейронного машинного перевода, адаптированная под особенности казахского языка. Система нейронного машинного перевода казахского языка будет разрабатываться как свободная/открытая (free/open-source) система.


Скачать отчет за 2018 год (Русская версия)

Реферат (Абстракт) - 2018 год

Объект исследования, разработки или проектирования

Казахский, английский и русский языки.

Цель работы

Разработка системы нейронного машинного перевода казахского языка.

Методы исследования

Модели, методы и программные средства нейронных сетей, нейронного машинного перевода.

Полученные результаты и новизна

Разработана технология гибридного автоматно-нейронного машинного перевода казахского языка на базе полной системы окончаний казахского языка, отличительной особенностью которой является: введение фазы автоматической генерации параллельных синтетических корпусов на этапах преобразования исходного языка в морфологическое представление,; разработан нейросетевой препроцессор (NMT – препроцессор) морфологической сегментации в системе нейронного машинного перевода казахско-английской пары языков, особенностью которого является преобразование текста английского языка в морфологическое представление английского языка; разработан постпроцессор морфологической десегментации в системе нейронного машинного перевода казахско-английской пары языков, особенностью которого является преобразование пространства морфологического представления казахского языка в пространство текста казахского языка.

Основные конструктивные и технико экономические показатели

Основной конструктивной характеристикой предлагаемой системы является последовательная архитектура нейронного машинного перевода казахского языка с промежуточным уровнем морфологического представления (NMT–препроцессор; NMT–процессор; NMT–постпроцессор).

Степень внедрения

Не внедрено.

Эффективность

Научная значимость результатов проекта заключается в создании технологии гибридного автоматно-нейронного машинного перевода казахско-английской пары языков на базе полной системы окончаний казахского языка.

Область применения

Полученные результаты научно-технической деятельности по нейронному машинному переводу казахского языка могут быть применены в различных отраслях при переводе документации и текстовых материалов с казахского на английский(русский) языки и обратно.

Скачать отчет за 2019 год (Русская версия)

Реферат (Абстракт) - 2019 год

Объект исследования, разработки или проектирования

Объект исследования – казахский, английский и русский языки. Предмет исследования – нейронный машинный перевод казахского языка.

Цель работы

Цель проекта – разработка системы нейронного машинного перевода казахского языка.

Методы исследования

Методы исследования – модели, методы и программные средства нейронных сетей, нейронного машинного перевода.

Полученные результаты и новизна

Разработаны синтетические параллельные корпусы казахского языка (каз-анг и анг-каз) для обучения системы нейронного машинного перевода казахского языка; сгенерировано 547 008 синтетических предложений методом автоматической генерации предложений по имеющимся шаблонам; сгенерировано 144 000 пар синтетических параллельных предложений методом обратного перевода (back translation) с использованием системы машинного перевода; разработана технология (метод) решения задачи неизвестных слов при нейронном машинном переводе казахского языка, отличающийся предложенным алгоритм поиска неизвестных слов по словарю обученной модели нейронного машинного перевода для казахско-английской пары языков; разработана технология нейронного машинного перевода казахско-английской пары языков с морфологической сегментацией на основе LSTM модели нейронной сети, особенностью которой является морфологическая сегментация, основанная на полной системе окончаний казахского языка, разработана технология нейронного машинного перевода казахско-английской пары языков с морфологической сегментацией на основе трансформерной модели нейронной сети, особенностью которой является морфологическая сегментация, основанная на полной системе окончаний казахского языка.

Основные конструктивные и технико экономические показатели

Разработана технология нейронного машинного перевода казахско-английской пары языков с морфологической сегментацией на основе LSTM модели нейронной сети, особенностью которой является морфологическая сегментация, основанная на полной системе окончаний казахского языка, разработана технология нейронного машинного перевода казахско-английской пары языков с морфологической сегментацией на основе трансформерной модели нейронной сети, особенностью которой является морфологическая сегментация, основанная на полной системе окончаний казахского языка. Разработанные технологии машинного перевода казахско-английской пары языков позволяют повысить качество машинного перевода по метрике BLEU на 3-4 позиции по сравнению с базовой версией.

Степень внедрения

Проект находится в стадии разработки и исследований

Эффективность

Эффективность результатов проекта будет заключаться в повышении качества машинного перевода казахско-английской пары языков

Область применения

Полученные результаты научно-технической деятельности по нейронному машинному переводу казахского языка могут быть применены в различных отраслях при переводе документаций и текстовых материалов с казахского на английский язык и обратно.

Скачать отчет за 2020 год (Русская версия) Скачать отчет за 2020 год (Английская версия)

Реферат (Абстракт) - 2020 год

Объект исследования, разработки или проектирования

казахский, английский и русский языки

Цель работы

разработка и исследование системы нейронного машинного перевода казахского языка

Методы исследования

модели, методы и программные средства нейронных сетей, нейронного машинного перевода

Полученные результаты и новизна

разработаны базовые версии нейронного машинного перевода (НМП) казахско-английской и казахско-русской пары языков; разработаны препроцессоры морфологической сегментации НМП казахско-английской и казахско-русской пар языков, новизной которых в использовании разработанной авторами CSE (Complete Set of Endings)-модели морфологии казахского языка, обеспечивающий сокращение объема словаря нейронной системы машинного перевода более, чем в два раза; разработаны новые синтетические параллельные корпусы казахско-английской и казахско-русской пар языков для обучения нейронного машинного перевода; разработана технология (метод) решения задачи неизвестных слов при нейронном машинном переводе казахского языка, новизна которой заключается в алгоритме поиска неизвестных слов в словаре обученной модели НМП и использовании словаря синонимов казахского языка; разработана технология нейронного машинного перевода казахско-английской и казахско-русской пар языков с морфологической сегментацией на основе LSTM модели нейронной сети, новизной которой является предложенная авторами морфологическая сегментация, основанная на CSE - модели морфологии казахского языка.

Основные конструктивные и технико экономические показатели

заключается в создании технологий нейронного машинного перевода казахско-английской и казахско-русской пары языков на базе современных архитектур нейронных сетей с морфологической сегментации на основе полной системы окончаний казахского языка

Степень внедрения

По разработанным моделям и алгоритмам нейронного машинного перевода казахского языка созданы опытные образцы нейронного машинного перевода казахского языка для казахско-английской и казахско-русской пар языков, на которых проводились эксперименты с различными параметрами нейронного машинного перевода

Эффективность

Эффективность разработанные моделей и алгоритмов нейронного машинного перевода казахского языка заключается в учете лингвистических особенностей казахского языка, позволяющих получить более эффективные значения параметров системы нейронного машинного перевода, в частности, по объему памяти словарей системы.

Область применения

Область применения: полученные результаты научно-технической деятельности по нейронному машинному переводу казахского языка могут быть применены в различных отраслях при переводе документации и текстовых материалов с казахского на английский(русский) языки и обратно.