Анализ методов предобработки программного кода для повышения эффективности применения больших языковых моделей в задачах обнаружения уязвимостей

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

С ростом масштабов и сложности программного обеспечения возрастает потребность в интеллектуальных способах выявления уязвимостей. Одним из таких способов является применение больших языковых моделей, обученных на программном коде, способных анализировать и классифицировать уязвимые участки на ранних этапах разработки. Эффективность моделей зависит от способа представления кода и подготовки входных данных. Методы предобработки могут существенно влиять на точность и устойчивость модели. Цель исследования: провести анализ влияния различных методов предобработки программного кода на точность и устойчивость больших языковых моделей (CodeBERT, GraphCodeBERT, UniXcoder) в задачах выявления уязвимостей. Анализ проводится на основе изменений исходного кода, полученных из коммитов, связанных с уязвимостями базы данных CVE. Методология исследования представляет собой экспериментальный анализ эффективности и устойчивости моделей CodeBERT, GraphCodeBERT и UniXcoder при решении задачи классификации уязвимостей. Эффективность оценивается на основе метрик Accuracy и F1 score. Результаты исследования: получены оценки эффективности различных методов предобработки программного кода при использовании больших языковых моделей в задачах классификации уязвимостей.

Об авторах

Валерий Валерьевич Чаругин

МИРЭА – Российский технологический университет

Автор, ответственный за переписку.
Email: charugin_v@mirea.ru
ORCID iD: 0009-0003-4950-7726
SPIN-код: 4080-4997

преподаватель, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта

Россия, г. Москва

Валентин Валерьевич Чаругин

МИРЭА – Российский технологический университет

Email: charugin@mirea.ru
ORCID iD: 0009-0001-1450-0714
SPIN-код: 7264-9403

преподаватель, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта

Россия, г. Москва

Алексей Вячеславович Ставцев

МИРЭА – Российский технологический университет

Email: stavcev@mirea.ru
SPIN-код: 4948-2180

кандидат физико-математических наук, доцент, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта

Россия, г. Москва

Александр Николаевич Чесалин

МИРЭА – Российский технологический университет

Email: chesalin_an@mail.ru
ORCID iD: 0000-0002-1154-6151
SPIN-код: 4334-5520

кандидат технических наук, доцент, заведующий, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта

Россия, г. Москва

Список литературы

  1. Чаругин В.В., Чесалин А.Н. Анализ и формирование наборов данных сетевого трафика для обнаружения компьютерных атак // International Journal of Open Information Technologies. 2023. Vol. 11. No. 6.
  2. Бусько Н.А., Федорченко Е.В., Котенко И.В. Автоматическое оценивание эксплойтов на основе методов глубокого обучения // Онтология проектирования. 2024.
  3. Li Y., Li X., Wu H. et al. Everything you wanted to know about LLM-based vulnerability detection but were afraid to ask. 2025. doi: 10.48550/arXiv.2504.13474.
  4. Liu C., Chen X., Li X. et al Making vulnerability prediction more practical: prediction, categorization, and localization // Information and Software Technology. 2024. Vol. 171.
  5. Дроздов В.А., Яковлев О.В. Применение больших языковых моделей для анализа уязвимостей // Научный аспект № 6-2024 – Информ. технологии. 2024.
  6. Чаругин В.В., Чаругин В.В., Чесалин А.Н., Ушкова Н.Н. Конструктор блоков обработки естественного языка и применение его в задаче структурирования логов в информационной безопасности // International Journal of Open Information Technologies. 2024. Vol. 12. No. 9.
  7. Ridoy S.Z., Shaon M.S.H., Cuzzocrea A. et al. EnStack: An ensemble stacking framework of large language models for enhanced vulnerability detection in source code. 2024. doi: 10.48550/arXiv.2411.1656.
  8. Sultan M.F., Karim T., Shaon M.S.H. et al. A combined feature embedding tools for multi-class software defect and identification. 2024. doi: 10.48550/arXiv.2411.17621.
  9. Feng Z., Guo D., Tang D. et al CodeBERT: A pre-trained model for programming and natural languages. 2020. doi: 10.48550/arXiv.2002.08155.
  10. Guo D., Ren S., Lu S. et al. GraphCodeBERT: Pre-training code representations with data flow. 2020. doi: 10.48550/arXiv.2009.08366.
  11. Guo D., Lu S., Duan N. et al. UniXcoder: Unified cross-modal pre-training for code representation. 2022. doi: 10.48550/arXiv.2203.03850.
  12. Karthik K., Moharir M., Jeevan S. et al. Temporal analysis and Common Weakness Enumeration (CWE) code prediction for software vulnerabilities using machine learning // 8th International Conference on Computational System and Information Technology for Sustainable Solutions. 2024.
  13. Li Z., Zou D., Xu S. et al. VulDeePecker: A deep learning-based system for vulnerability detection. 2018. doi: 10.48550/arXiv.1801.01681.
  14. Zheng T., Liu H., Xu H. et al. Few-VulD: A few-shot learning framework for software vulnerability detection // Computers & Security. 2024. Vol. 144.
  15. Bhandari G.P., Naseer A., Moonen L. CVEfixes: Automated collection of vulnerabilities and their fixes from open-source software. 2021. doi: 10.48550/arXiv.2107.08760.
  16. Pereira D.G., Afonso A., Medeiros F.M. Overview of friedman’s test and post-hoc analysis // Communication in Statistics – Simulation and Computation. 2015. Vol. 44.
  17. Pohlert T. PMCMR: Calculate pairwise multiple comparisons of mean rank sums. 2016. doi: 10.32614/CRAN.package.PMCMR.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Гистограмма распределения актуальных категорий уязвимостей для языка Python

Скачать (204KB)
3. Рис. 2. Схема предобработки и анализа данных для классификации CWE

Скачать (298KB)
4. Рис. 3. Диаграмма точности методов для модели UniXcoder

Скачать (411KB)
5. Рис. 4. Диаграмма точности комбинации методов для модели UniXcoder

Скачать (553KB)


Ссылка на описание лицензии: https://www.urvak.ru/contacts/

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».