Разработка графовой нейросети обработки текстовых данных

Обложка

Цитировать

Полный текст

Аннотация

В статье рассматривается графовое моделирование текстовых данных с использованием нейронных сетей. Целью работы является разработка графовой нейронной сети для классификации и кластеризации текстов по смысловому содержанию. Представлены тексты в виде графов, где вершины - концепты, а ребра - связи между ними. Использованы публичные текстовые корпуса на русском и английском языках. Предложен новый подход к анализу текстовых данных на основе их представления в виде ориентированных взвешенных графов и обработки графовыми нейронными сетями. Обработка графов осуществлялась нейросетью с тремя слоями графовых сверток. Полученные результаты показывают точность более 90% при классификации тематических групп и кластеризации текстов, превосходя методы RNN, CNN и doc2vec.

Об авторах

Оксана Игоревна Захарова

Поволжский государственный университет телекоммуникаций и информатики

Автор, ответственный за переписку.
Email: o.zaharova@psuti.ru

Кандидат технических наук, доцент, заместитель заведующего научно-исследовательской лаборатории искусственного интеллекта, доцент кафедры «Информационные системы и технологии»

Россия, Самара

Сергей Викторович Кулешов

Санкт-Петербургский федеральный исследовательский центр Российской академии наук

Email: kuleshov@iias.spb.su

Доктор технических наук, главный научный сотрудник, заместитель директора по научной работе

Россия, Санкт-Петербург

Список литературы

  1. Feng Z., Guo D. et al. CodeBERT: A Pre-Trained Model for Programming and Natural Languages // In Proc. of the Conference on Empirical Methods in Natural Language Processing. 2020. Р. 1536-1547.
  2. Kanade A. Maniatis P. et al. Learning and evaluating contextual embedding of source code // In Proc. of the 37th International Conference on Machine Learning. 2020. Р. 5110-5121.
  3. Hierarchical quasi-neural network data aggregation to build a university research and innovation management system. Ed. by V. Murgul, V. Pukhkal // International Scientific Conference Energy Management of Municipal Facilities and Sustainable Energy Technologies. EMMFT 2019. Advances in Intelligent Systems and Computing. V. 1259. Springer, Cham.
  4. Бубнов И. Что такое модульное программирование и кому оно нужно // Geek-Brains. URL: https://geekbrains.ru/posts/module_programming/.
  5. Видмант О.С. Прогнозирование волатильности финансовых временных рядов ансамблями деревьев // Мир новой экономики. 2018. № 12. Вып. 3. С. 8289.
  6. Гафаров Ф. М., Галимянов А. Ф. Искусственные нейронные сети и приложения: учеб. пособие. Казань: Изд-во Казан. ун-та, 2018. 121 с.
  7. Горбатков С. А., Фархиева С. А. Гибридный метод структурного синтеза и регуляризации нейросетевой динамической модели банкротств корпораций // Вестник евразийской науки. 2020. № 3. С. 90-99.
  8. Горбатков С. А., Фархиева С. А., Горбаткова Е. Ю. Метод агрегирования переменных нейросетевой модели в обратных задачах восстановления зависимости в условиях высокой размерности пространства признаков и зашумленности данных // Вестник евразийской науки. 2018. № 1. 12 с.
  9. Камаева А. А. Современное состояние искусственных нейронных сетей // Инновации. Наука. Образование. 2020. № 16. С. 377-387.
  10. Кириченко А. А. Нейропакеты - современный интеллектуальный инструмент исследователя: учеб. пособие. М., 2013. 297 с.
  11. Коварцев А. Н., Жидченко В. В., Попова-Коварцева Д. А. Методы и технологии визуального программирования: учеб. пособие. Самара: Офорт, 2017. 197 с.
  12. Коварцев А. Н., Жидченко В. В., Попова-Коварцева Д. А., Аболмасов П. В. Принципы построения технологии графосимволического программирования // Открытые семантические технологии проектирования интеллектуальных систем. 2013. № 3. С. 195-204.
  13. Колышкин А. В., Гиленко Е. В., Довженко С. Е., Жилкин С. А., Чов С. Е. Прогнозирование финансовой несостоятельности предприятий // Вестник Санкт-Петербургского университета. Экономика. 2014. № 2. С. 122-142.
  14. Крамаров С. О., Арапова Е. А. Методика оценки финансово-экономического состояния отрасли региона на основе алгоритма нечетко-множественного агрегирования финансово-экономических показателей // Вестник СурГУ. 2022. № 3 (37). С. 23-34.
  15. Морозова Т. Ю., Бурлаченко Т. Б. Решение задачи прогнозирования в системах с большой степенью неопределенности // Известия ТРТУ. 2006. № 9-2 (64). С. 169.
  16. Ямашкин С. А. Ямашкин А. А., Занозин В. В. Формирование репозитория глубоких нейронных сетей в системе цифровой инфраструктуры пространственных данных // Потенциал интеллектуально одаренной молодежи - развитию науки и образования: материалы IX Междунар. науч. форума молодых ученых, инноваторов, студентов и школьников. Под общ. ред. Т. В. Золиной. Астрахань, 2020. С. 370-375.
  17. Зулкарнеев Р.Х., Юсупова Н.И, Сметанина О.Н., Гаянова М.М., Вульфин А.М. Методы и модели извлечения знаний из медицинских документов // Информатика и автоматизация. 2022. Том 21. № 6. doi: 10.15622/ia.21.6.4.
  18. Программные системы и инструменты. Тематический сборник. Под ред. Р.Л. Смелянского. Москва: Издательский отдел факультета ВМК МГУ имени М.В. Ломоносова (лицензия ИД № 05899 от 24.09. 2001 г.); МАКС Пресс, 2023. № 23. 140 с. ISBN 978-5-89407-638-6 (ВМК МГУ имени М.В. Ломоносова). ISBN 978-5-317-07118-9 (МАКС Пресс) https://doi.org/10.29003/m3791.978-5-317-07118-9.
  19. Кулешов С.В., Зайцева А.А., Левашкин С.П. Технологии и принципы сбора и обработки неструктурированных распределенных данных с учетом современных особенностей предоставления медиа – контента // Информатизация и связь. 2020. № 5. С. 22-28.
  20. Кулешов С.В., Зайцева А.А., Левашкин С.П. Обработка неструктурированной информации, получаемой из интернета, с использованием ассоциативно – онтологического подхода // В сборнике: Проблемы техники и технологий телекоммуникаций ПТиТТ-2020. XXII Международная научно – техническая конференция. IV Научный форум Телекоммуникации: теория и технологии ТТТ-2020. Самара, 2020. С. 7-11.
  21. Александров В.В., Кулешов С.В., Цветков О.В., Левашкин С.П. Концепция развития инфокоммуникации в Интернет среде // «Информационно-измерительные и управляющие системы». 2009. № 4. Т. 7. С. 5-10.
  22. Александров В.В., Кулешов С.В., Цветков О.В., Левашкин С.П. Инфологическая система формирования семантических понятий инвариантных по отношению к естественно-языковому окружению в Интернет среде // Программируемые инфокоммуникационные технологии. Сборник статей. Под ред. В.В. Александрова, В.А. Сарычева. М.:Радиотехника, 2009. С. 5-10.
  23. Зулкарнеев Р.Х., Юсупова Н.И, Сметанина О.Н., Гаянова М.М., Вульфин А.М. Методы и модели извлечения знаний из медицинских документов // Информатика и автоматизация. 2022. Том 21. № 6. doi: 10.15622/ia.21.6.4 повтор № 17???
  24. Кулешов С. В., Зайцева А. А., Аксенов А. Ю. Формирование ядра документов в системах интернет-мониторинга в условиях ресурсных ограничений // Известия высших учебных заведений. Приборостроение. 2022. Т.65. № 11. С. 826—832. doi: 10.17586/0021-3454-2022-65-11-826-832.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».