ОБЩИЕ СВЕДЕНИЯ


ИРНAP05132950, Номер госрегистрации0118РК00127

НаименованиеРазработка информационно-аналитической поисковой системы данных на казахском языке

Приоритетное направлениеИнформационные, телекоммуникационные и космические технологии, научные исследования в области естественных наук/Информационные, телекоммуникационные и космические технологии

Вид исследованияПрикладное

ЗаявительРеспубликанское государственное предприятие на праве хозяйственного ведения "Институт информационных и вычислительных технологий"

Научный руководительRakhimova Diana Ramazanovna

Балл ГНТЭ31.67

Общая одобренная сумма30000000


Ожидаемые результаты

Технология информационного поиска казахского языка с эффективным показателем, которая включает:  формальную модель, структуры и алгоритмы (поиска, сбора, классификации данных) информационно-поисковой системы;  размеченный корпус казахского языка;  модели и алгоритмы семантики казахского языка при информационном поиске. Применимость разработанной технологией будет показана опытным образцом поисковой системы для казахского языка.


Реферат (Абстракт) - 2018 год

Объект исследования, разработки или проектирования

казахский язык

Цель работы

Целью проекта является разработка эффективных алгоритмов и моделей обработки текстовых данных, на основе современных технологий в области обработки естественного языка с использованием последних достижений компьютерной лингвистики для получения новой информации и знаний из больших массивов данных и текстов на казахском языке.

Методы исследования

Методы исследования – формальные грамматики, статистические методы, семантические модели.

Полученные результаты и новизна

Разработаны базы знаний информационно-поискового модуля системы, Разработан электронный словарь фразеологизмов для казахского языка до 830 записей, который позволяет улучшить качество информационно-аналитической поисковой системы. Разработана база знании синонимии построенная на основе алгоритма Максимум энтропии и в практической реализации был применен метод семантического куба. Была пополнена БД синонимии до 9000 записей синонимов для казахского языка. Разработаны методы и модели работы модуля аналитической обработки текстовых ресурсов и документов на основе дистрибутивной семантике. Впервые разработана полная система классификации данных на базе системы окончаний казахского языка, предназначенные для определения основы слова в казахском языке, по которым осуществляется запрос в поиске.

Основные конструктивные и технико экономические показатели

Расходование средств финансирования производится согласно утвержденной смете.

Степень внедрения

Степень внедрения: на стадии разработки. Результаты исследований прошли апробацию на конференциях и докладах.

Эффективность

Будет разработана технология (модели, алгоритмы и программы) информационного поиска казахского языка с эффективным показателем. Применимость разработанной технологией будет показана опытным образцом поисковой системы для казахского языка.

Область применения

Область применения: полученные результаты научно-технической деятельности могут быть применены в различных отраслях при анализе и поиске документаций и текстовых материалов на казахском языке.

Скачать отчет за 2019 год (Русская версия)

Реферат (Абстракт) - 2019 год

Объект исследования, разработки или проектирования

информационно-поисковые системы , казахский язык

Цель работы

Целью проекта является разработка эффективных алгоритмов и моделей обработки текстовых данных, на основе современных технологий в области обработки естественного языка с использованием последних достижений компьютерной лингвистики для получения новой информации и знаний из больших массивов данных и текстов на казахском языке.

Методы исследования

Методы исследования – формальные грамматики, статистические методы, семантические модели.

Полученные результаты и новизна

В результате выполнения работ получены следующие результаты: - Разработана модель и система размеченного корпуса казахского языка; -Разработан алгоритм автоматического пополнения текстов на казахском языке; -Разработан алгоритм сбора текстовых данных, поступающих в режиме реального времени; -Разработан алгоритм индексирования документов с помощью признаков; -Реализована программная часть алгоритмов и получены обработанные, классифицированные данные на казахском языке объемом более 2,7 млрд. слов. -Разработан модифицированный подход по извлечению ключевых слов и словосочетаний, который будет использоваться для решения задачи реферирования текстов на казахском языке; -Разработан алгоритм семантического анализа текста на основе машинного обучения; -Разработаны архитектура и модули прототипа информационно-аналитической поисковой системы.

Основные конструктивные и технико экономические показатели

Расходование средств финансирования производится согласно утвержденной смете.

Степень внедрения

Степень внедрения: на стадии разработки. Результаты исследований прошли апробацию на международных конференциях и научных семинарах.

Эффективность

Будет разработана технология (модели, алгоритмы и программы) информационного поиска казахского языка с эффективным показателем. Применимость разработанной технологией будет показана опытным образцом поисковой системы для казахского языка.

Область применения

Область применения: полученные результаты научно-технической деятельности могут быть применены в различных отраслях при анализе и поиске документаций и текстовых материалов на казахском языке.

Реферат (Абстракт) - 2020 год

Объект исследования, разработки или проектирования

информационно-поисковые системы , казахский язык

Цель работы

Целью проекта является разработка эффективных алгоритмов и моделей обработки текстовых данных, на основе современных технологий в области обработки естественного языка с использованием последних достижений компьютерной лингвистики для получения новой информации и знаний из больших массивов данных и текстов на казахском языке.

Методы исследования

Методы исследования – формальные грамматики, статистические методы, семантические модели.

Полученные результаты и новизна

В результате выполнения работ получены следующие результаты: Для анализа и сегментации данных была разработана полная система классификация аффиксов и суффиксов казахского языка. Построены детерминированные конечные автоматы для сразличных частей речи. Разработан lexicon-free stemming алгоритм с использованием разработанной системой классификации окончаний казахского языка. Для сбора и обработки больших данных разработана модель и система размеченного корпуса, отличительными особенностями является разработанные модули (токенезация, лемматизация, морфологический анализ) обработки данных с учетом свойств казахского языка. Произведена программная реализация алгоритмов и получены обработанные, классифицированные данные на казахском языке. Для разработки инструментов семантического анализа естественно-языковых текстов был разработан модуль информационно-аналитической обработки путем создания прикладного программного решения различного назначения с применением методов искусственного интеллекта для обработки и анализа больших данных. В качестве практической реализации была разработана информационная система для сбора и анализа информации слабоструктурированных текстовых данных на казахском языке.

Основные конструктивные и технико экономические показатели

Расходование средств финансирования производится согласно утвержденной смете.

Эффективность

Разработаны технология (модели, алгоритмы и программы) информационного поиска казахского языка с эффективным показателем. Применимость разработанной технологией будет показана опытным образцом поисковой системы для казахского языка.

Область применения

Область применения: полученные результаты научно-технической деятельности могут быть применены в различных отраслях при анализе и поиске документаций и текстовых материалов на казахском языке.

Реферат (Абстракт) - 2020 год

Объект исследования, разработки или проектирования

информационно-поисковые системы , казахский язык

Цель работы

Целью проекта является разработка эффективных алгоритмов и моделей обработки текстовых данных, на основе современных технологий в области обработки естественного языка с использованием последних достижений компьютерной лингвистики для получения новой информации и знаний из больших массивов данных и текстов на казахском языке.

Методы исследования

Методы исследования – формальные грамматики, статистические методы, семантические модели.

Полученные результаты и новизна

В результате выполнения работ получены следующие результаты: Для анализа и сегментации данных была разработана полная система классификация аффиксов и суффиксов казахского языка. Построены детерминированные конечные автоматы для сразличных частей речи. Разработан lexicon-free stemming алгоритм с использованием разработанной системой классификации окончаний казахского языка. Для сбора и обработки больших данных разработана модель и система размеченного корпуса, отличительными особенностями является разработанные модули (токенезация, лемматизация, морфологический анализ) обработки данных с учетом свойств казахского языка. Произведена программная реализация алгоритмов и получены обработанные, классифицированные данные на казахском языке. Для разработки инструментов семантического анализа естественно-языковых текстов был разработан модуль информационно-аналитической обработки путем создания прикладного программного решения различного назначения с применением методов искусственного интеллекта для обработки и анализа больших данных. В качестве практической реализации была разработана информационная система для сбора и анализа информации слабоструктурированных текстовых данных на казахском языке.

Основные конструктивные и технико экономические показатели

Расходование средств финансирования производится согласно утвержденной смете.

Степень внедрения

Разработан прототип системы. Данная система прошла апробацию и получили экспертное заключение от ТОО Alem Research. Результаты исследований прошли апробацию на международных конференциях и научных семинарах.

Эффективность

Разработаны технология (модели, алгоритмы и программы) информационного поиска казахского языка с эффективным показателем. Применимость разработанной технологией будет показана опытным образцом поисковой системы для казахского языка.

Область применения

Область применения: полученные результаты научно-технической деятельности могут быть применены в различных отраслях при анализе и поиске документаций и текстовых материалов на казахском языке.