ОБЩИЕ СВЕДЕНИЯ


ИРНAP05131073, Номер госрегистрации0118РК00133

НаименованиеМетоды и модели поиска и анализа криминально значимой информации в неструктурированных и слабоструктурированных текстовых массивах

Приоритетное направлениеИнформационные, телекоммуникационные и космические технологии, научные исследования в области естественных наук/Информационные, телекоммуникационные и космические технологии

Вид исследованияПрикладное

ЗаявительРеспубликанское государственное предприятие на праве хозяйственного ведения "Институт информационных и вычислительных технологий"

Научный руководительМамырбаев Оркен Жумажанович

Балл ГНТЭ21.67

Общая одобренная сумма45000000


Ожидаемые результаты

Будет выполнен аналитический обзор по тематике исследований. Будут разработаны рекомендаций по созданию информационной технологии. Будут разработаны корпуса современного веб-контента трех языков. Будет выполнено аннотирование созданных корпусов (морфологическое, с элементами стилистического, темпорального и семантического). Будет подготовлена публикация с участием украинских ученых в научном издании индексируемом в базах данных Web of Science или Scopus. Будут разработаны логико-лингвистические модели извлечения фактов из текстов казахского, русского и английского языков.


Скачать отчет за 2018 год (Русская версия)

Реферат (Абстракт) - 2018 год

Объект исследования, разработки или проектирования

Объектами исследования являются технологии поиска и идентификации криминально значимой информации в текстовых корпусах казахского, русского и английского языков; методы экстракции фактов из неструктурированных и слабоструктурированных текстовых массивов.

Цель работы

Цель работы: разработка информационно-лингвистической технологии автоматического определения, выделения, поиска и анализа криминально значимой составляющей в неструктурированных и слабоструктурированных тестовых массивах различных языков.

Методы исследования

Методы исследования. Концептуальные и теоретические основы исследования базируются на: комплексном использовании методов алгебры логики, алгебры конечных предикатов и предикатных операций; а так же методов искусственного интеллекта; статистико-вероятностных методов и методов корпусной лингвистики.

Полученные результаты и новизна

Полученные результаты и новизна: разработан размеченный корпус криминально окрашенных текстов казахского и русского языков; разработана технология автоматической экстракции синонимичных пар коллокаций из текстов корпусов; усовершенствована логико-лингвистическая модель экстракции фактов из неструктурированных текстов.

Основные конструктивные и технико экономические показатели

новая технология, направленная на решение общей фундаментальной проблемы формирования методологических основ для создания логико-лингвистических моделей выявления когнитивных и семантических идентификаторов смысла в текстах естественного языка.

Степень внедрения

на стадии разработки

Эффективность

Эффективность Экономический эффект реализации проекта заключается в возможности автоматического получения государственными органами информации, не имеющей четко выраженной криминальной окрашенности, но имеющей элементы криминальной значимости, которая содержится в различных текстовых массивах (социальных сетях, веб-медиа, справочниках, каталоги, форумах и т.д.). Такая автоматизация повысит эффективность работы всех правоохранительных и специальных государственных организаций.

Область применения

Область применения: государственные службы министерства внутренних дел, прокуратуры и безопасности; социальные службы, библиотеки, учебные заведения и другие государственные учреждения.

Скачать отчет за 2019 год (Русская версия)

Реферат (Абстракт) - 2019 год

Объект исследования, разработки или проектирования

Объектами исследования являются технологии поиска и идентификации криминально значимой информации в текстовых корпусах казахского, русского и английского языков; методы экстракции фактов из неструктурированных и слабоструктурированных текстовых массивов.

Цель работы

Цель работы: разработка информационно-лингвистической технологии автоматического определения, выделения, поиска и анализа криминально значимой составляющей в неструктурированных и слабоструктурированных тестовых массивах различных языков.

Методы исследования

Методы исследования. Концептуальные и теоретические основы исследования базируются на: комплексном использовании методов алгебры логики, алгебры конечных предикатов и предикатных операций; а так же методов искусственного интеллекта; статистико-вероятностных методов и методов корпусной лингвистики.

Полученные результаты и новизна

Полученные результаты и новизна: разработан размеченный корпус криминально окрашенных текстов казахского и русского языков; разработана технология автоматической экстракции синонимичных пар коллокаций из текстов корпусов; усовершенствована логико-лингвистическая модель экстракции фактов из неструктурированных текстов.

Основные конструктивные и технико экономические показатели

Новая технология, направленная на решение общей фундаментальной проблемы формирования методологических основ для создания логико-лингвистических моделей выявления когнитивных и семантических идентификаторов смысла в текстах естественного языка.

Степень внедрения

На стадии разработки

Эффективность

Эффективность Экономический эффект реализации проекта заключается в возможности автоматического получения государственными органами информации, не имеющей четко выраженной криминальной окрашенности, но имеющей элементы криминальной значимости, которая содержится в различных текстовых массивах (социальных сетях, веб-медиа, справочниках, каталоги, форумах и т.д.). Такая автоматизация повысит эффективность работы всех правоохранительных и специальных государственных организаций.

Область применения

Область применения: государственные службы министерства внутренних дел, прокуратуры и безопасности; социальные службы, библиотеки, учебные заведения и другие государственные учреждения.

Скачать отчет за 2020 год (Русская версия) Скачать отчет за 2020 год (Английская версия)

Реферат (Абстракт) - 2020 год

Объект исследования, разработки или проектирования

Методы и модели поиска и анализа криминально значимой информации в текстовых массивах казахского, русского и английского языков; методы Open Information Extraction, идентификация фактов в текстах

Цель работы

Основной целью данного проекта является разработка информационно-лингвистической технологии автоматического определения, выделения, поиска и анализа криминально значимой составляющей в неструктурированных и слабоструктурированных тестовых массивах мультиязычных систем.

Методы исследования

Математические модели, алгоритмы и методы автоматического выявления фактической противоправной информации в текстовых массивах

Полученные результаты и новизна

Новая технология идентификации криминально-значащей информации в тексте, математические модели, алгоритмы и методы автоматического выявления фактической противоправной информации в текстовых массивах

Основные конструктивные и технико экономические показатели

Новая технология идентификации криминально-значащей информации в тексте, математические модели, алгоритмы и методы автоматического выявления фактической противоправной информации в текстовых массивах. Повышение качества семантического анализа текстов на казахском, русском и английском языках: семантическое аннотирование криминально окрашенной информации

Степень внедрения

Результаты проекта были внедрены в ТОО «Национальный инновационный центр»

Эффективность

Повышение качества семантического анализа текстов на казахском, русском и английском языках: семантическое аннотирование криминально окрашенной информации.

Область применения

Государственные службы министерства внутренних дел, прокуратуры и безопасности; социальные службы, библиотеки, учебные заведения и другие государственные учреждения