Разработка графовой нейросети обработки текстовых данных
- Авторы: Захарова О.И.1, Кулешов С.В.2
-
Учреждения:
- Поволжский государственный университет телекоммуникаций и информатики
- Санкт-Петербургский федеральный исследовательский центр Российской академии наук
- Выпуск: № 4 (2024)
- Страницы: 67-78
- Раздел: Анализ текстовой и графической информации
- URL: https://ogarev-online.ru/2071-8594/article/view/278266
- DOI: https://doi.org/10.14357/20718594240406
- EDN: https://elibrary.ru/JFRHRU
- ID: 278266
Цитировать
Полный текст
Аннотация
В статье рассматривается графовое моделирование текстовых данных с использованием нейронных сетей. Целью работы является разработка графовой нейронной сети для классификации и кластеризации текстов по смысловому содержанию. Представлены тексты в виде графов, где вершины - концепты, а ребра - связи между ними. Использованы публичные текстовые корпуса на русском и английском языках. Предложен новый подход к анализу текстовых данных на основе их представления в виде ориентированных взвешенных графов и обработки графовыми нейронными сетями. Обработка графов осуществлялась нейросетью с тремя слоями графовых сверток. Полученные результаты показывают точность более 90% при классификации тематических групп и кластеризации текстов, превосходя методы RNN, CNN и doc2vec.
Об авторах
Оксана Игоревна Захарова
Поволжский государственный университет телекоммуникаций и информатики
Автор, ответственный за переписку.
Email: o.zaharova@psuti.ru
Кандидат технических наук, доцент, заместитель заведующего научно-исследовательской лаборатории искусственного интеллекта, доцент кафедры «Информационные системы и технологии»
Россия, СамараСергей Викторович Кулешов
Санкт-Петербургский федеральный исследовательский центр Российской академии наук
Email: kuleshov@iias.spb.su
Доктор технических наук, главный научный сотрудник, заместитель директора по научной работе
Россия, Санкт-ПетербургСписок литературы
- Feng Z., Guo D. et al. CodeBERT: A Pre-Trained Model for Programming and Natural Languages // In Proc. of the Conference on Empirical Methods in Natural Language Processing. 2020. Р. 1536-1547.
- Kanade A. Maniatis P. et al. Learning and evaluating contextual embedding of source code // In Proc. of the 37th International Conference on Machine Learning. 2020. Р. 5110-5121.
- Hierarchical quasi-neural network data aggregation to build a university research and innovation management system. Ed. by V. Murgul, V. Pukhkal // International Scientific Conference Energy Management of Municipal Facilities and Sustainable Energy Technologies. EMMFT 2019. Advances in Intelligent Systems and Computing. V. 1259. Springer, Cham.
- Бубнов И. Что такое модульное программирование и кому оно нужно // Geek-Brains. URL: https://geekbrains.ru/posts/module_programming/.
- Видмант О.С. Прогнозирование волатильности финансовых временных рядов ансамблями деревьев // Мир новой экономики. 2018. № 12. Вып. 3. С. 8289.
- Гафаров Ф. М., Галимянов А. Ф. Искусственные нейронные сети и приложения: учеб. пособие. Казань: Изд-во Казан. ун-та, 2018. 121 с.
- Горбатков С. А., Фархиева С. А. Гибридный метод структурного синтеза и регуляризации нейросетевой динамической модели банкротств корпораций // Вестник евразийской науки. 2020. № 3. С. 90-99.
- Горбатков С. А., Фархиева С. А., Горбаткова Е. Ю. Метод агрегирования переменных нейросетевой модели в обратных задачах восстановления зависимости в условиях высокой размерности пространства признаков и зашумленности данных // Вестник евразийской науки. 2018. № 1. 12 с.
- Камаева А. А. Современное состояние искусственных нейронных сетей // Инновации. Наука. Образование. 2020. № 16. С. 377-387.
- Кириченко А. А. Нейропакеты - современный интеллектуальный инструмент исследователя: учеб. пособие. М., 2013. 297 с.
- Коварцев А. Н., Жидченко В. В., Попова-Коварцева Д. А. Методы и технологии визуального программирования: учеб. пособие. Самара: Офорт, 2017. 197 с.
- Коварцев А. Н., Жидченко В. В., Попова-Коварцева Д. А., Аболмасов П. В. Принципы построения технологии графосимволического программирования // Открытые семантические технологии проектирования интеллектуальных систем. 2013. № 3. С. 195-204.
- Колышкин А. В., Гиленко Е. В., Довженко С. Е., Жилкин С. А., Чов С. Е. Прогнозирование финансовой несостоятельности предприятий // Вестник Санкт-Петербургского университета. Экономика. 2014. № 2. С. 122-142.
- Крамаров С. О., Арапова Е. А. Методика оценки финансово-экономического состояния отрасли региона на основе алгоритма нечетко-множественного агрегирования финансово-экономических показателей // Вестник СурГУ. 2022. № 3 (37). С. 23-34.
- Морозова Т. Ю., Бурлаченко Т. Б. Решение задачи прогнозирования в системах с большой степенью неопределенности // Известия ТРТУ. 2006. № 9-2 (64). С. 169.
- Ямашкин С. А. Ямашкин А. А., Занозин В. В. Формирование репозитория глубоких нейронных сетей в системе цифровой инфраструктуры пространственных данных // Потенциал интеллектуально одаренной молодежи - развитию науки и образования: материалы IX Междунар. науч. форума молодых ученых, инноваторов, студентов и школьников. Под общ. ред. Т. В. Золиной. Астрахань, 2020. С. 370-375.
- Зулкарнеев Р.Х., Юсупова Н.И, Сметанина О.Н., Гаянова М.М., Вульфин А.М. Методы и модели извлечения знаний из медицинских документов // Информатика и автоматизация. 2022. Том 21. № 6. doi: 10.15622/ia.21.6.4.
- Программные системы и инструменты. Тематический сборник. Под ред. Р.Л. Смелянского. Москва: Издательский отдел факультета ВМК МГУ имени М.В. Ломоносова (лицензия ИД № 05899 от 24.09. 2001 г.); МАКС Пресс, 2023. № 23. 140 с. ISBN 978-5-89407-638-6 (ВМК МГУ имени М.В. Ломоносова). ISBN 978-5-317-07118-9 (МАКС Пресс) https://doi.org/10.29003/m3791.978-5-317-07118-9.
- Кулешов С.В., Зайцева А.А., Левашкин С.П. Технологии и принципы сбора и обработки неструктурированных распределенных данных с учетом современных особенностей предоставления медиа – контента // Информатизация и связь. 2020. № 5. С. 22-28.
- Кулешов С.В., Зайцева А.А., Левашкин С.П. Обработка неструктурированной информации, получаемой из интернета, с использованием ассоциативно – онтологического подхода // В сборнике: Проблемы техники и технологий телекоммуникаций ПТиТТ-2020. XXII Международная научно – техническая конференция. IV Научный форум Телекоммуникации: теория и технологии ТТТ-2020. Самара, 2020. С. 7-11.
- Александров В.В., Кулешов С.В., Цветков О.В., Левашкин С.П. Концепция развития инфокоммуникации в Интернет среде // «Информационно-измерительные и управляющие системы». 2009. № 4. Т. 7. С. 5-10.
- Александров В.В., Кулешов С.В., Цветков О.В., Левашкин С.П. Инфологическая система формирования семантических понятий инвариантных по отношению к естественно-языковому окружению в Интернет среде // Программируемые инфокоммуникационные технологии. Сборник статей. Под ред. В.В. Александрова, В.А. Сарычева. М.:Радиотехника, 2009. С. 5-10.
- Зулкарнеев Р.Х., Юсупова Н.И, Сметанина О.Н., Гаянова М.М., Вульфин А.М. Методы и модели извлечения знаний из медицинских документов // Информатика и автоматизация. 2022. Том 21. № 6. doi: 10.15622/ia.21.6.4 повтор № 17???
- Кулешов С. В., Зайцева А. А., Аксенов А. Ю. Формирование ядра документов в системах интернет-мониторинга в условиях ресурсных ограничений // Известия высших учебных заведений. Приборостроение. 2022. Т.65. № 11. С. 826—832. doi: 10.17586/0021-3454-2022-65-11-826-832.
Дополнительные файлы
