Hope Speech Detection Using Social Media Discourse (Posi-Vox-2024): A Transfer Learning Approach

Muhammad Ahmad; Ахмад Мухаммад; Sardar Usman; Усман Сардар; Humaira Farid; Фарид Хумайра; Iqra Ameer; Амир Икра; Muhammad Muzzamil; Музамил Мухаммад; Hmaza Ameer; Амир Хмаза; Grigori Sidorov; Сидоров Григорий; Ildar Batyrshin; Батыршин Ильдар

doi:10.17323/jle.2024.22443

Обнаружение поддерживающих высказываний (Hope Speech) с использованием дискурса социальных сетей (Posi-Vox-2024): Подход на основе трансферного обучения

Авторы: Ахмад М.¹, Усман С.², Фарид Х.³, Амир И.⁴, Музамил М.⁵, Амир Х.⁵, Сидоров Г.¹, Батыршин И.¹
Учреждения:
1. Национальный политехнический институт (CIC-IPN)
2. Институт искусств и культуры
3. Независимый исследователь
4. Университет штата Пенсильвания в Абингтоне
5. Исламский университет Бахавалпура
Выпуск: Том 10, № 4 (2024)
Страницы: 31-43
Раздел: Оригинальное исследование
URL: https://ogarev-online.ru/2411-7390/article/view/356607
DOI: https://doi.org/10.17323/jle.2024.22443
ID: 356607

Цитировать

Полный текст

Аннотация
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Введение: Понятие надежды определяется как оптимистичное ожидание или предвкушение положительных результатов. В эпоху активного использования социальных сетей исследования в основном сосредоточены на монолингвальных подходах, при этом языки урду и арабский остаются недостаточно изученными.

Цель: Данное исследование посвящено совместному многоязычному обнаружению поддерживающих высказываний на урду, английском и арабском языках с использованием парадигмы трансферного обучения. Мы создали новый многоязычный набор данных под названием Posi-Vox-2024 и применили совместную многоязычную технику для разработки универсального классификатора, подходящего для многоязычных данных. Мы протестировали тонко настроенную модель BERT, которая продемонстрировала высокую эффективность в распознавании семантической и контекстной информации.

Метод: Структура включает (1) предварительную обработку, (2) представление данных с использованием BERT, (3) тонкую настройку и (4) классификацию поддерживающих высказываний в бинарные («надежда» и «не надежда») и многоклассовые (реалистичные, нереалистичные и обобщенные надежды) категории.

Результаты: Предложенная нами модель (BERT) показала наивысшую производительность на нашем наборе данных, достигнув точности 0,78 в двоичной классификации и 0,66 в многоклассовой классификации. Это улучшило результаты на 0,04 и 0,08 соответственно по сравнению с базовыми показателями (логистическая регрессия: 0,75 для двоичной и 0,61 для многоклассовой классификации).

Заключение: Наши результаты могут быть использованы для улучшения автоматизированных систем обнаружения и продвижения поддерживающего контента на английском, арабском и урду на платформах социальных сетей, способствуя формированию позитивного онлайн-дискурса. Это исследование устанавливает новые стандарты для обнаружения многоязычных поддерживающих высказываний, расширяя существующие знания и открывая возможности для будущих исследований на недостаточно изученных языках.

Ключевые слова

поддерживающие высказывания, BERT, машинное обучение, анализ Twitter, социальные сети, трансферное обучение, NLP

Список литературы

Alawadh, H. M., Alabrah, A., Meraj, T., & Rauf, H. T. (2023). English language learning via YouTube: An NLP-based analysis of users' comments. Computers, 12(2), 24. DOI:https://doi.org/10.3390/computers12020024
Anand, M., Sahay, K. B., Ahmed, M. A., Sultan, D., Chandan, R. R., & Singh, B. (2023). Deep learning and natural language processing in computation for offensive language detection in online social networks by feature selection and ensemble classification techniques. Theoretical Computer Science, 943, 203-218. DOI:https://doi.org/10.1016/j.tcs.2022.06.020
Anjum, & Katarya, R. (2024). Hate speech, toxicity detection in online social media: a recent survey of state of the art and opportunities. International Journal of Information Security, 23(1), 577-608. DOI:https://doi.org/10.1007/s10207-023-00755-2
Arif, M., Shahiki Tash, M., Jamshidi, A., Ullah, F., Ameer, I., Kalita, J.,.. & Balouchzahi, F. (2024). Analyzing hope speech from psycholinguistic and emotional perspectives. Scientific Reports, 14(1), 23548. DOI:https://doi.org/10.1038/s41598-024-74630-y
Austin, D., Sanzgiri, A., Sankaran, K., Woodard, R., Lissack, A., & Seljan, S. (2020). Classifying sensitive content in online advertisements with deep learning. International Journal of Data Science and Analytics, 10(3), 265-276. DOI:https://doi.org/10.1007/s41060-020-00212-6
Balouchzahi, F., Sidorov, G., & Gelbukh, A. (2023). Polyhope: Two-level hope speech detection from tweets. Expert Systems with Applications, 225, 120078. DOI:https://doi.org/10.1016/j.eswa.2023.120078
Chakravarthi, B. R. (2022). Hope speech detection in YouTube comments. Social Network Analysis and Mining, 12(1), 75. DOI:https://doi.org/10.1007/s13278-022-00901-z
Chakravarthi, B. R. (2022). Multilingual hope speech detection in English and Dravidian languages. International Journal of Data Science and Analytics, 14(4), 389-406. DOI:https://doi.org/10.1007/s41060-022-00341-0
Chinnappa, D. (2021). Dhivya-hope-detection@ LT-EDI-EACL2021: Multilingual hope speech detection for code-mixed and transliterated texts. In Proceedings of the First Workshop on Language Technology for Equality, Diversity and Inclusion (pp. 73-78). Association for Computational Linguistics.https://aclanthology.org/2021.ltedi-1.11.
Davidson, T., Bhattacharya, D., & Weber, I. (2019). Racial bias in hate speech and abusive language detection datasets. arXiv preprint arXiv:1905.12516.
Gowen, K., Deschaine, M., Gruttadara, D., & Markey, D. (2012). Young adults with mental health conditions and social networking websites: seeking tools to build community. Psychiatric Rehabilitation Journal, 35(3), 245. DOI:https://doi.org/10.2975/35.3.2012.245.250
Ghanghor, N., Ponnusamy, R., Kumaresan, P. K., Priyadharshini, R., Thavareesan, S., & Chakravarthi, B. R. (2021). IIITK@ LT-EDI-EACL2021: Hope speech detection for equality, diversity, and inclusion in Tamil, Malayalam and English. In Proceedings of the First Workshop on Language Technology for Equality, Diversity and Inclusion (pp. 197-203). Association for Computational Linguistics.
Irfan, A., Azeem, D., Narejo, S., & Kumar, N. (2024). Multi-Modal Hate Speech Recognition Through Machine Learning. In 2024 IEEE 1st Karachi Section Humanitarian Technology Conference (KHI-HTC) (pp. 1-6). IEEE. DOI:https://doi.org/10.1109/KHI-HTC60760.2024.10482031
Kogilavani, S. V., Malliga, S., Jaiabinaya, K. R., Malini, M., & Kokila, M. M. (2023). Characterization and mechanical properties of offensive language taxonomy and detection techniques. Materials Today: Proceedings, 81, 630-633. DOI:https://doi.org/10.1016/j.matpr.2021.04.102
Kumar, A. Saumya, S., & Roy, P. (2022). SOA_NLP@ LT-EDI-ACL2022: An ensemble model for hope speech detection from YouTube comments. In Proceedings of the second workshop on language technology for equality, diversity and inclusion (pp. 223-228). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/2022.ltedi-1.31
Lee, Y., Yoon, S., & Jung, K. (2018).Comparative studies of detecting abusive language on twitter. arXiv preprint arXiv:1808.10245.
Louati, A., Louati, H., Albanyan, A., Lahyani, R., Kariri, E., & Alabduljabbar, A. (2024). Harnessing machine learning to unveil emotional responses to hateful content on social media. Computers, 13(5), 114. DOI:https://doi.org/10.3390/computers13050114
Malik, M. S. I., Nazarova, A., Jamjoom, M. M., & Ignatov, D. I. (2023). Multilingual hope speech detection: A Robust framework using transfer learning of fine-tuning RoBERTa model. Journal of King Saud University-Computer and Information Sciences, 35(8), 101736. DOI:https://doi.org/10.1016/j.jksuci.2023.101736
Mnassri, Kh., Farahbakhsh, R., Chalehchaleh, R., Rajapaksha, P., Jafari, A.R., Li, G., & Crespi, N. (2024). A survey on multi-lingual offensive language detection. PeerJ.Computer Science, 10, e1934-e1934. DOI:https://doi.org/10.7717/peerj-cs.1934
Nagar, S., Barbhuiya, F. A., & Dey, K. (2023). Towards more robust hate speech detection: Using social context and user data.
Social Network Analysis and Mining, 13(1), 47. DOI:https://doi.org/10.1007/s13278-023-01051-6
Nath, T., Singh, V. K., & Gupta, V. (2023). BongHope: An annotated corpus for Bengali hope speech detection. Research Square. DOI:https://doi.org/10.21203/rs.3.rs-2819284/v1
Palakodety, S., KhudaBukhsh, A. R., & Carbonell, J. G. (2020). Hope speech detection: A computational analysis of the voice of peace. In ECAI 2020 (pp. 1881-1889). IOS Press.
RamakrishnaIyer LekshmiAmmal, H., Ravikiran, M., Nisha, G., Balamuralidhar, N., Madhusoodanan, A., Kumar Madasamy, A., & Chakravarthi, B. R. (2023). Overlapping word removal is all you need: Revisiting data imbalance in hope speech detection. Journal of Experimental & Theoretical Artificial Intelligence, 36(8), 1837-1859. DOI:https://doi.org/10.1080/0952813X.2023.2166130
Roy, P., Bhawal, S., Kumar, A., & Chakravarthi, B. R. (2022, May). IIITSurat@ LT-EDI-ACL2022: Hope speech detection using machine learning. In Proceedings of the Second Workshop on Language Technology for Equality, Diversity and Inclusion (pp. 120-126). Association for Computational Linguistics.https://aclanthology.org/2022.ltedi-1.13.
Schmidt, A., & Wiegand, M. (2017). A survey on hate speech detection using natural language processing. In Proceedings of the Fifth International Workshop on Natural Language Processing for Social Media (pp. 1-10). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/W17-1101
Snyder, C. R., Rand, K. L., & Sigmon, D. R. (2002). Hope Theory: A Member of the Positive Psychology Family. In C. R. Snyder, & S. J. Lopez (Eds.), Handbook of Positive Psychology (pp. 257-276). Oxford University Press.
Subramanian, M., Sathiskumar, V. E., Deepalakshmi, G., Cho, J., & Manikandan, G. (2023). A survey on hate speech detection and sentiment analysis using machine learning and deep learning models. Alexandria Engineering Journal, 80, 110-121. DOI:https://doi.org/10.1016/j.aej.2023.08.038
Wang, Z., & Jurgens, D. (2018). It's going to be okay: Measuring access to support in online communities. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (pp. 33-45). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/D18-1004
Yates, A., Cohan, A., & Goharian, N. (2017). Depression and self-harm risk assessment in online forums. arXiv preprint arXiv:1709.01848.
Yenala, H., Jhanwar, A., Chinnakotla, M. K., & Goyal, J. (2018). Deep learning for detecting inappropriate content in text. International Journal of Data Science and Analytics, 6, 273-286. DOI:https://doi.org/10.1007/s41060-017-0088-4
Zampieri, M., Malmasi, S., Nakov, P., Rosenthal, S., Farra, N., & Kumar, R. (2019). Predicting the type and target of offensive posts in social media. arXiv preprint arXiv:1902.09666.

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Том 11, № 1 (2025)

Обнаружение поддерживающих высказываний (Hope Speech) с использованием дискурса социальных сетей (Posi-Vox-2024): Подход на основе трансферного обучения

Полный текст

Аннотация

Ключевые слова

Об авторах

Мухаммад Ахмад

Сардар Усман

Хумайра Фарид

Икра Амир

Мухаммад Музамил

Хмаза Амир

Григорий Сидоров

Ильдар Батыршин

Список литературы

Дополнительные файлы