Analysis of software code preprocessing methods to improve the effectiveness of using large language models in vulnerability detection tasks

Valery V. Charugin; Чаругин Валерий Валерьевич; Valentin V. Charugin; Чаругин Валентин Валерьевич; Alexey V. Stavtsev; Ставцев Алексей Вячеславович; Alexander N. Chesalin; Чесалин Александр Николаевич

doi:10.33693/2313-223X-2025-12-3-67-79

Анализ методов предобработки программного кода для повышения эффективности применения больших языковых моделей в задачах обнаружения уязвимостей

Авторы: Чаругин В.В.¹, Чаругин В.В.¹, Ставцев А.В.¹, Чесалин А.Н.¹
Учреждения:
1. МИРЭА – Российский технологический университет
Выпуск: Том 12, № 3 (2025)
Страницы: 67-79
Раздел: СИСТЕМНЫЙ АНАЛИЗ, УПРАВЛЕНИЕ И ОБРАБОТКА ИНФОРМАЦИИ, СТАТИСТИКА
URL: https://ogarev-online.ru/2313-223X/article/view/350186
DOI: https://doi.org/10.33693/2313-223X-2025-12-3-67-79
EDN: https://elibrary.ru/BCEAHN
ID: 350186

Цитировать

Полный текст

Открытый доступ
Доступ закрыт

Доступ предоставлен
Доступ закрыт

Только для подписчиков

Аннотация
Полный текст
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

С ростом масштабов и сложности программного обеспечения возрастает потребность в интеллектуальных способах выявления уязвимостей. Одним из таких способов является применение больших языковых моделей, обученных на программном коде, способных анализировать и классифицировать уязвимые участки на ранних этапах разработки. Эффективность моделей зависит от способа представления кода и подготовки входных данных. Методы предобработки могут существенно влиять на точность и устойчивость модели. Цель исследования: провести анализ влияния различных методов предобработки программного кода на точность и устойчивость больших языковых моделей (CodeBERT, GraphCodeBERT, UniXcoder) в задачах выявления уязвимостей. Анализ проводится на основе изменений исходного кода, полученных из коммитов, связанных с уязвимостями базы данных CVE. Методология исследования представляет собой экспериментальный анализ эффективности и устойчивости моделей CodeBERT, GraphCodeBERT и UniXcoder при решении задачи классификации уязвимостей. Эффективность оценивается на основе метрик Accuracy и F₁ score. Результаты исследования: получены оценки эффективности различных методов предобработки программного кода при использовании больших языковых моделей в задачах классификации уязвимостей.

Ключевые слова

большие языковые модели, предобработка кода, анализ уязвимостей, безопасность программного обеспечения, категории уязвимостей, статистический анализ

Полный текст

Открыть статью на сайте журнала

Об авторах

Валерий Валерьевич Чаругин

МИРЭА – Российский технологический университет

Автор, ответственный за переписку.
Email: charugin_v@mirea.ru
ORCID iD: 0009-0003-4950-7726
SPIN-код: 4080-4997

преподаватель, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта

Россия, г. Москва

Валентин Валерьевич Чаругин

МИРЭА – Российский технологический университет

Email: charugin@mirea.ru
ORCID iD: 0009-0001-1450-0714
SPIN-код: 7264-9403

преподаватель, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта

Россия, г. Москва

Алексей Вячеславович Ставцев

МИРЭА – Российский технологический университет

Email: stavcev@mirea.ru
SPIN-код: 4948-2180

кандидат физико-математических наук, доцент, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта

Россия, г. Москва

Александр Николаевич Чесалин

МИРЭА – Российский технологический университет

Email: chesalin_an@mail.ru
ORCID iD: 0000-0002-1154-6151
SPIN-код: 4334-5520

кандидат технических наук, доцент, заведующий, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта

Россия, г. Москва

Список литературы

Чаругин В.В., Чесалин А.Н. Анализ и формирование наборов данных сетевого трафика для обнаружения компьютерных атак // International Journal of Open Information Technologies. 2023. Vol. 11. No. 6.
Бусько Н.А., Федорченко Е.В., Котенко И.В. Автоматическое оценивание эксплойтов на основе методов глубокого обучения // Онтология проектирования. 2024.
Li Y., Li X., Wu H. et al. Everything you wanted to know about LLM-based vulnerability detection but were afraid to ask. 2025. doi: 10.48550/arXiv.2504.13474.
Liu C., Chen X., Li X. et al Making vulnerability prediction more practical: prediction, categorization, and localization // Information and Software Technology. 2024. Vol. 171.
Дроздов В.А., Яковлев О.В. Применение больших языковых моделей для анализа уязвимостей // Научный аспект № 6-2024 – Информ. технологии. 2024.
Чаругин В.В., Чаругин В.В., Чесалин А.Н., Ушкова Н.Н. Конструктор блоков обработки естественного языка и применение его в задаче структурирования логов в информационной безопасности // International Journal of Open Information Technologies. 2024. Vol. 12. No. 9.
Ridoy S.Z., Shaon M.S.H., Cuzzocrea A. et al. EnStack: An ensemble stacking framework of large language models for enhanced vulnerability detection in source code. 2024. doi: 10.48550/arXiv.2411.1656.
Sultan M.F., Karim T., Shaon M.S.H. et al. A combined feature embedding tools for multi-class software defect and identification. 2024. doi: 10.48550/arXiv.2411.17621.
Feng Z., Guo D., Tang D. et al CodeBERT: A pre-trained model for programming and natural languages. 2020. doi: 10.48550/arXiv.2002.08155.
Guo D., Ren S., Lu S. et al. GraphCodeBERT: Pre-training code representations with data flow. 2020. doi: 10.48550/arXiv.2009.08366.
Guo D., Lu S., Duan N. et al. UniXcoder: Unified cross-modal pre-training for code representation. 2022. doi: 10.48550/arXiv.2203.03850.
Karthik K., Moharir M., Jeevan S. et al. Temporal analysis and Common Weakness Enumeration (CWE) code prediction for software vulnerabilities using machine learning // 8th International Conference on Computational System and Information Technology for Sustainable Solutions. 2024.
Li Z., Zou D., Xu S. et al. VulDeePecker: A deep learning-based system for vulnerability detection. 2018. doi: 10.48550/arXiv.1801.01681.
Zheng T., Liu H., Xu H. et al. Few-VulD: A few-shot learning framework for software vulnerability detection // Computers & Security. 2024. Vol. 144.
Bhandari G.P., Naseer A., Moonen L. CVEfixes: Automated collection of vulnerabilities and their fixes from open-source software. 2021. doi: 10.48550/arXiv.2107.08760.
Pereira D.G., Afonso A., Medeiros F.M. Overview of friedman’s test and post-hoc analysis // Communication in Statistics – Simulation and Computation. 2015. Vol. 44.
Pohlert T. PMCMR: Calculate pairwise multiple comparisons of mean rank sums. 2016. doi: 10.32614/CRAN.package.PMCMR.