Исследование ограничений: Понимание недостатков SVD в сжатии языковых моделей

Обложка

Цитировать

Полный текст

Аннотация

Введение: Современная вычислительная лингвистика в значительной степени опирается на крупные языковые модели, которые демонстрируют высокую производительность в различных задачах формирования рассуждений на естественном языке (NLI). Однако эти модели требуют значительных вычислительных ресурсов как для обучения, так и для развертывания. Для решения этой проблемы был разработан ряд методов сжатия и ускорения, включая квантование, обрезку и факторизацию. Каждый из этих подходов работает по-разному, может применяться на разных уровнях архитектуры модели и подходит для различных сценариев развертывания.



Цель данного исследования — анализ и оценка метода сжатия на основе факторизации, который уменьшает вычислительные затраты крупных языковых моделей, сохраняя при этом их точность в задачах NLI, особенно для приложений с ограниченными ресурсами или чувствительных к задержкам.



Метод: Для оценки влияния сжатия на основе факторизации мы провели серию экспериментов. Сначала мы выбрали широко используемую предварительно обученную модель (Bert-base и Llama 2) в качестве базовой линии. Затем мы применили низкоранговую факторизацию к ее слоям трансформера, используя различные алгоритмы сингулярного разложения при разных степенях сжатия. После этого мы использовали задачи зондирования для анализа изменений во внутренних представлениях и лингвистических знаниях сжатых моделей. Мы сравнили изменения во внутренних представлениях модели с ее способностью решать задачи формирования рассуждений на естественном языке (NLI) и скоростью сжатия, достигнутой с помощью факторизации.



Результаты: Наивная равномерная факторизация часто приводила к значительному снижению точности даже при небольших степенях сжатия, что отражало заметное ухудшение способности модели понимать текстовые импликации. Задачи зондирования показали, что равномерно сжатые модели теряли важную синтаксическую и семантическую информацию, что соответствовало наблюдаемому снижению производительности. Однако целевые подходы к сжатию, такие как выборочное сжатие наиболее избыточных частей модели или использование взвешенных алгоритмов, смягчали эти негативные эффекты.



Вывод: Результаты показывают, что факторизация при правильном использовании может значительно снизить вычислительные требования, сохраняя при этом ключевые лингвистические возможности крупных языковых моделей. Наши исследования могут послужить основой для разработки будущих методов сжатия, которые адаптируют стратегии факторизации к внутренней структуре моделей и их задачам. Эти идеи могут помочь в развертывании LLM в сценариях с ограниченными вычислительными ресурсами.

Об авторах

Сергей Александрович Плетенев

AIRI; Сколтех

Email: pletenev@airi.net
ORCID iD: 0000-0003-2325-4268
Москва, Россия; Москва, Россия

Список литературы

  1. Belinkov, Y. (2021). Probing classifiers: Promises, shortcomings, and advances.Computational Linguistics, 48(1), 207-219. DOI:https://doi.org/10.1162/COLI_a_00422
  2. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I., Amodei, D. (2020). Language Models are few-shot learners. Advances in Neural Information Processing Systems.https://arxiv.org/abs/2005.14165v4.
  3. Chen, T., Frankle, J., Chang, S., Liu, S., Zhang, Y., Wang, Z., & Carbin, M. (2020). The lottery ticket hypothesis for pre-trained BERT networks. Advances in Neural Information Processing Systems.https://arxiv.org/abs/2007.12223v2.
  4. Cheng, Y., Wang, D., Zhou, P., & Zhang, T. (2018). Model compression and acceleration for deep neural networks: The principles, progress, and challenges. IEEE Signal Processing Magazine, 35(1), 126-136. DOI:https://doi.org/10.1109/MSP.2017.2765695
  5. Dettmers, T., Lewis, M., Shleifer, S., & Zettlemoyer, L. (2021). 8-bit Optimizers via block-wise quantization. ICLR 2022 - 10th International Conference on Learning Representations, 8, 105-125. Curran Associates, Inc.https://arxiv.org/abs/2110.02861v2.
  6. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference, 1, 4171-4186. Association for Computational Linguistics.https://arxiv.org/abs/1810.04805v2.
  7. Ganesh, P., Chen, Y., Lou, X., Khan, M. A., Yang, Y., Sajjad, H., Nakov, P., Chen, D., & Winslett, M. (2021).Compressing large-scale transformer-based models: A case study on BERT. Transactions of the Association for Computational Linguistics, 9, 1061-1080. DOI:https://doi.org/10.1162/TACL_A_00413
  8. Guo, Y., Yao, A., & Chen, Y. (2016). Dynamic network surgery for efficient DNNs. Advances in Neural Information Processing Systems (pp. 1387-1395). Morgan Kaufmann Publishers Inc.https://arxiv.org/abs/1608.04493v2.
  9. Han, S., Pool, J., Tran, J., & Dally, W. J. (2015). Learning both weights and connections for efficient neural networks. Advances in Neural Information Processing Systems (pp. 1135-1143).https://arxiv.org/abs/1506.02626v3.
  10. Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D., & Steinhardt, J. (2020). Measuring massive multitask language understanding. ICLR 2021 - 9th International Conference on Learning Representations (pp. 1343-1355). OpenReview.net.https://arxiv.org/abs/2009.03300v3.
  11. Hewitt, J., & Liang, P. (2019). Designing and Interpreting probes with control tasks. EMNLP-IJCNLP 2019 - 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing, Proceedings of the Conference (pp. 2733-2743). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/d19-1275
  12. Hsu, Y. C., Hua, T., Chang, S. E., Lou, Q., Shen, Y., & Jin, H. (2022). Language model compression with weighted low-rank factorization. ICLR 2022 - 10th International Conference on Learning Representations.https://arxiv.org/abs/2207.00112v1.
  13. Ji, Y., Xiang, Y., Li, J., Chen, W., Liu, Z., Chen, K., & Zhang, M. (2024). Feature-based low-rank compression of large language models via bayesian optimization (pp. 844-857). OpenReview.net.https://arxiv.org/abs/2405.10616v1.
  14. Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020). Scaling laws for neural language models.https://arxiv.org/abs/2001.08361v1.
  15. Kim, Y. D., Park, E., Yoo, S., Choi, T., Yang, L., & Shin, D. (2015).Compression of deep convolutional neural networks for fast and low power mobile applications. 4th International Conference on Learning Representations, ICLR 2016 - Conference Track Proceedings. OpenReview.net.https://arxiv.org/abs/1511.06530v2.
  16. Kurtic, E., Campos, D., Nguyen, T., Frantar, E., Kurtz, M., Fineran, B., Goin, M., & Alistarh, D. (2022). The Optimal BERT surgeon: Scalable and accurate second-order pruning for Large Language Models. Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processin (pp. 4163-4181). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/2022.emnlp-main.279
  17. Lan, Z., Chen, M., Goodman, S., Gimpel, K., Sharma, P., & Soricut, R. (2019). ALBERT: A lite BERT for self-supervised learning of language representations. 8th International Conference on Learning Representations. Curran Associates, Inc.https://arxiv.org/abs/1909.11942v6.
  18. Lane, N. D., Bhattacharya, S., Georgiev, P., Forlivesi, C., Jiao, L., Qendro, L., & Kawsar, F. (2016). DeepX: A software accelerator for low-power deep learning inference on mobile devices. 2016 15th ACM/IEEE International Conference on Information Processing in Sensor Networks, IPSN 2016 - Proceedings. IEEE Press. DOI:https://doi.org/10.1109/IPSN.2016.7460664
  19. Li, K., Patel, O., Viégas, F., Pfister, H., & Wattenberg, M. (2023). Inference-Time intervention: Eliciting truthful answers from a Language Model. Advances in Neural Information Processing Systems, 36.https://arxiv.org/abs/2306.03341v6.
  20. Lin, S., Hilton, J., & Evans, O. (2022). TruthfulQA: Measuring how models mimic human falsehoods. Proceedings of the Annual Meeting of the Association for Computational Linguistics, 1, 3214-3252. DOI:https://doi.org/10.18653/V1/2022.ACL-LONG.229
  21. Michel, P., Levy, O., & Neubig, G. (2019). Are sixteen heads really better than one? Advances in Neural Information Processing Systems, 32.https://arxiv.org/abs/1905.10650v3.
  22. Narayanan, D., Phanishayee, A., Shi, K., Chen, X., & Zaharia, M. (2020). Memory-efficient pipeline-parallel DNN training. Proceedings of Machine Learning Research, 139, 7937-7947.
  23. Sharma, P., Ash, J. T., & Misra, D. (2023). The truth is in there: Improving reasoning in Language Models with layer-selective rank reduction. 12th International Conference on Learning Representations. OpenReview.nethttps://arxiv.org/abs/2312.13558v1.
  24. Socher, R., Perelygin, A., Wu, J., Chuang, J., Manning, C. D., Ng, A. Y., & Potts, C. (2013). Recursive deep models for semantic compositionality over a sentiment treebank (pp. 1631-1642). ACM.https://aclanthology.org/D13-1170.
  25. Tai, C., Xiao, T., Zhang, Y., Wang, X., & Weinan, E. (2015). Convolutional neural networks with low-rank regularization. 4th International Conference on Learning Representations, ICLR 2016 - Conference Track Proceedings. arXiv:1511.06067. DOI:https://doi.org/10.48550/arXiv.1511.06067
  26. Tang, R., Lu, Y., Liu, L., Mou, L., Vechtomova, O., & Lin, J. (2019). Distilling task-specific knowledge from BERT into simple neural networks.https://arxiv.org/abs/1903.12136v1.
  27. Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Rozière, B., Goyal, N., Hambro, E., Azhar, F., Rodriguez, A., Joulin, A., Grave, E., & Lample, G. (2023). LLaMA: Open and Efficient Foundation Language Models. arXiv:2302.13971. DOI:https://doi.org/10.48550/arXiv.2302.13971
  28. Touvron, H., Martin, L., Stone, K.R., Albert, P., Almahairi, A., Babaei, Y., Bashlykov, N., Batra, S., Bhargava, P., Bhosale, S., Bikel, D.M., Blecher, L., Ferrer, C.C., Chen, M., Cucurull, G., Esiobu, D., Fernandes, J., Fu, J., Fu, W., Fuller, B., Gao, C., Goswami, V., Goyal, N., Hartshorn, A.S., Hosseini, S., Hou, R., Inan, H., Kardas, M., Kerkez, V., Khabsa, M., Kloumann, I.M., Korenev, A.V., Koura, P.S., Lachaux, M., Lavril, T., Lee, J., Liskovich, D., Lu, Y., Mao, Y., Martinet, X., Mihaylov, T., Mishra, P., Molybog, I., Nie, Y., Poulton, A., Reizenstein, J., Rungta, R., Saladi, K., Schelten, A., Silva, R., Smith, E.M., Subramanian, R., Tan, X., Tang, B., Taylor, R., Williams, A., Kuan, J.X., Xu, P., Yan, Z., Zarov, I., Zhang, Y., Fan, A., Kambadur, M.H., Narang, S., Rodriguez, A., Stojnic, R., Edunov, S., & Scialom, T. (2023). Llama 2: Open foundation and fine-tuned chat models.https://arxiv.org/abs/2307.09288v2.
  29. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems. arXiv:1706.03762. DOI:https://doi.org/10.48550/arXiv.1706.03762
  30. Wang, N., Choi, J., Brand, D., Chen, C. Y., & Gopalakrishnan, K. (2018). Training deep neural networks with 8-bit floating point numbers. Advances in Neural Information Processing Systems. arXiv:1812.08011. DOI:https://doi.org/10.48550/arXiv.1812.08011
  31. Wang, Z., Wohlwend, J., & Lei, T. (2019a). Structured pruning of Large Language Models. EMNLP 2020 - 2020 Conference on Empirical Methods in Natural Language Processing, Proceedings of the Conference, 6151-6162. Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/2020.emnlp-main.496
  32. Wang, Z., Wohlwend, J., & Lei, T. (2019b). Structured pruning of Large Language Models. EMNLP 2020 - 2020 Conference on Empirical Methods in Natural Language Processing, Proceedings of the Conference, 6151-6162. Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/2020.emnlp-main.496
  33. Warstadt, A., Singh, A., & Bowman, S. R. (2019). Neural network acceptability judgments. Transactions of the Association for Computational Linguistics, 7, 625-641. DOI:https://doi.org/10.1162/TACL_A_00290
  34. Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., Chi, E. H., Hashimoto, T., Vinyals, O., Liang, P., Dean, J., & Fedus, W. (2022). Emergent abilities of Large Language Models.https://arxiv.org/abs/2206.07682v2.
  35. Xu, C., Yao, J., Lin, Z., Ou, W., Cao, Y., Wang, Z., & Zha, H. (2018). Alternating multi-bit quantization for recurrent neural networks. 6th International Conference on Learning Representations, ICLR 2018 - Conference Track Proceedings. OpenReview.net.https://arxiv.org/abs/1802.00150v1.
  36. Yin, L., Jaiswal, A., Liu, S., Kundu, S., & Wang, Z. (2023). Pruning small pre-trained weights irreversibly and monotonically impairs difficult downstream tasks in LLMs.https://arxiv.org/abs/2310.02277v2.
  37. Yu, H., & Wu, J. (2023).Compressing transformers: Features are low-rank, but weights are not! AAAI Conference on Artificial Intelligence, 37, 11007-11015. DOI:https://doi.org/10.1609/AAAI.V37I9.26304
  38. Yuan, Z., Shang, Y., Song, Y., Wu, Q., Yan, Y., & Sun, G. (2023). ASVD: Activation-aware singular value decomposition for compressing Large Language Models.https://arxiv.org/abs/2312.05821v4.
  39. Zafrir, O., Larey, A., Boudoukh, G., Shen, H., & Wasserblat, M. (2021). Prune once for all: Sparse pre-trained Language Models. arXiv:2111.05754. DOI:https://doi.org/10.48550/arXiv.2111.05754
  40. Zhang, T., Lin, Z., Yang, G., & De Sa, C. (2019). QPyTorch: A low-precision arithmetic simulation framework. Proceedings - 5th Workshop on Energy Efficient Machine Learning and Cognitive Computing (pp. 10-13). Curran Associates Inc. DOI:https://doi.org/10.1109/EMC2-NIPS53020.2019.00010

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».