Обнаружение поддерживающих высказываний (Hope Speech) с использованием дискурса социальных сетей (Posi-Vox-2024): Подход на основе трансферного обучения
- Авторы: Ахмад М.1, Усман С.2, Фарид Х.3, Амир И.4, Музамил М.5, Амир Х.5, Сидоров Г.1, Батыршин И.1
-
Учреждения:
- Национальный политехнический институт (CIC-IPN)
- Институт искусств и культуры
- Независимый исследователь
- Университет штата Пенсильвания в Абингтоне
- Исламский университет Бахавалпура
- Выпуск: Том 10, № 4 (2024)
- Страницы: 31-43
- Раздел: Оригинальное исследование
- URL: https://ogarev-online.ru/2411-7390/article/view/356607
- DOI: https://doi.org/10.17323/jle.2024.22443
- ID: 356607
Цитировать
Аннотация
Цель: Данное исследование посвящено совместному многоязычному обнаружению поддерживающих высказываний на урду, английском и арабском языках с использованием парадигмы трансферного обучения. Мы создали новый многоязычный набор данных под названием Posi-Vox-2024 и применили совместную многоязычную технику для разработки универсального классификатора, подходящего для многоязычных данных. Мы протестировали тонко настроенную модель BERT, которая продемонстрировала высокую эффективность в распознавании семантической и контекстной информации.
Метод: Структура включает (1) предварительную обработку, (2) представление данных с использованием BERT, (3) тонкую настройку и (4) классификацию поддерживающих высказываний в бинарные («надежда» и «не надежда») и многоклассовые (реалистичные, нереалистичные и обобщенные надежды) категории.
Результаты: Предложенная нами модель (BERT) показала наивысшую производительность на нашем наборе данных, достигнув точности 0,78 в двоичной классификации и 0,66 в многоклассовой классификации. Это улучшило результаты на 0,04 и 0,08 соответственно по сравнению с базовыми показателями (логистическая регрессия: 0,75 для двоичной и 0,61 для многоклассовой классификации).
Заключение: Наши результаты могут быть использованы для улучшения автоматизированных систем обнаружения и продвижения поддерживающего контента на английском, арабском и урду на платформах социальных сетей, способствуя формированию позитивного онлайн-дискурса. Это исследование устанавливает новые стандарты для обнаружения многоязычных поддерживающих высказываний, расширяя существующие знания и открывая возможности для будущих исследований на недостаточно изученных языках.
Ключевые слова
Об авторах
Мухаммад Ахмад
Национальный политехнический институт (CIC-IPN)
Email: mahmad.riaz102@gmail.com
ORCID iD: 0009-0003-8799-8212
Мехико, Мексика
Сардар Усман
Институт искусств и культуры
Email: sardar.usman@guas.edu.pk
Лахор, Пакистан
Хумайра Фарид
Независимый исследователь
Email: sa@sfa.ty
Калифорния, США
Икра Амир
Университет штата Пенсильвания в Абингтоне
Email: dfgdf@dsg.tu
Пенсильвания, США
Мухаммад Музамил
Исламский университет Бахавалпура
Email: Muzamil.abdulsalam786@gmail.com
Пакистан
Хмаза Амир
Исламский университет Бахавалпура
Email: asa@sdfsd.tyt
Пакистан
Григорий Сидоров
Национальный политехнический институт (CIC-IPN)
Email: sidorov@cic.ipn.mx
Мехико, Мексика
Ильдар Батыршин
Национальный политехнический институт (CIC-IPN)
Email: batyr1@cic.ipn.mx
ORCID iD: 0000-0003-0241-7902
Мехико, Мексика
Список литературы
- Alawadh, H. M., Alabrah, A., Meraj, T., & Rauf, H. T. (2023). English language learning via YouTube: An NLP-based analysis of users' comments. Computers, 12(2), 24. DOI:https://doi.org/10.3390/computers12020024
- Anand, M., Sahay, K. B., Ahmed, M. A., Sultan, D., Chandan, R. R., & Singh, B. (2023). Deep learning and natural language processing in computation for offensive language detection in online social networks by feature selection and ensemble classification techniques. Theoretical Computer Science, 943, 203-218. DOI:https://doi.org/10.1016/j.tcs.2022.06.020
- Anjum, & Katarya, R. (2024). Hate speech, toxicity detection in online social media: a recent survey of state of the art and opportunities. International Journal of Information Security, 23(1), 577-608. DOI:https://doi.org/10.1007/s10207-023-00755-2
- Arif, M., Shahiki Tash, M., Jamshidi, A., Ullah, F., Ameer, I., Kalita, J.,.. & Balouchzahi, F. (2024). Analyzing hope speech from psycholinguistic and emotional perspectives. Scientific Reports, 14(1), 23548. DOI:https://doi.org/10.1038/s41598-024-74630-y
- Austin, D., Sanzgiri, A., Sankaran, K., Woodard, R., Lissack, A., & Seljan, S. (2020). Classifying sensitive content in online advertisements with deep learning. International Journal of Data Science and Analytics, 10(3), 265-276. DOI:https://doi.org/10.1007/s41060-020-00212-6
- Balouchzahi, F., Sidorov, G., & Gelbukh, A. (2023). Polyhope: Two-level hope speech detection from tweets. Expert Systems with Applications, 225, 120078. DOI:https://doi.org/10.1016/j.eswa.2023.120078
- Chakravarthi, B. R. (2022). Hope speech detection in YouTube comments. Social Network Analysis and Mining, 12(1), 75. DOI:https://doi.org/10.1007/s13278-022-00901-z
- Chakravarthi, B. R. (2022). Multilingual hope speech detection in English and Dravidian languages. International Journal of Data Science and Analytics, 14(4), 389-406. DOI:https://doi.org/10.1007/s41060-022-00341-0
- Chinnappa, D. (2021). Dhivya-hope-detection@ LT-EDI-EACL2021: Multilingual hope speech detection for code-mixed and transliterated texts. In Proceedings of the First Workshop on Language Technology for Equality, Diversity and Inclusion (pp. 73-78). Association for Computational Linguistics.https://aclanthology.org/2021.ltedi-1.11.
- Davidson, T., Bhattacharya, D., & Weber, I. (2019). Racial bias in hate speech and abusive language detection datasets. arXiv preprint arXiv:1905.12516.
- Gowen, K., Deschaine, M., Gruttadara, D., & Markey, D. (2012). Young adults with mental health conditions and social networking websites: seeking tools to build community. Psychiatric Rehabilitation Journal, 35(3), 245. DOI:https://doi.org/10.2975/35.3.2012.245.250
- Ghanghor, N., Ponnusamy, R., Kumaresan, P. K., Priyadharshini, R., Thavareesan, S., & Chakravarthi, B. R. (2021). IIITK@ LT-EDI-EACL2021: Hope speech detection for equality, diversity, and inclusion in Tamil, Malayalam and English. In Proceedings of the First Workshop on Language Technology for Equality, Diversity and Inclusion (pp. 197-203). Association for Computational Linguistics.
- Irfan, A., Azeem, D., Narejo, S., & Kumar, N. (2024). Multi-Modal Hate Speech Recognition Through Machine Learning. In 2024 IEEE 1st Karachi Section Humanitarian Technology Conference (KHI-HTC) (pp. 1-6). IEEE. DOI:https://doi.org/10.1109/KHI-HTC60760.2024.10482031
- Kogilavani, S. V., Malliga, S., Jaiabinaya, K. R., Malini, M., & Kokila, M. M. (2023). Characterization and mechanical properties of offensive language taxonomy and detection techniques. Materials Today: Proceedings, 81, 630-633. DOI:https://doi.org/10.1016/j.matpr.2021.04.102
- Kumar, A. Saumya, S., & Roy, P. (2022). SOA_NLP@ LT-EDI-ACL2022: An ensemble model for hope speech detection from YouTube comments. In Proceedings of the second workshop on language technology for equality, diversity and inclusion (pp. 223-228). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/2022.ltedi-1.31
- Lee, Y., Yoon, S., & Jung, K. (2018).Comparative studies of detecting abusive language on twitter. arXiv preprint arXiv:1808.10245.
- Louati, A., Louati, H., Albanyan, A., Lahyani, R., Kariri, E., & Alabduljabbar, A. (2024). Harnessing machine learning to unveil emotional responses to hateful content on social media. Computers, 13(5), 114. DOI:https://doi.org/10.3390/computers13050114
- Malik, M. S. I., Nazarova, A., Jamjoom, M. M., & Ignatov, D. I. (2023). Multilingual hope speech detection: A Robust framework using transfer learning of fine-tuning RoBERTa model. Journal of King Saud University-Computer and Information Sciences, 35(8), 101736. DOI:https://doi.org/10.1016/j.jksuci.2023.101736
- Mnassri, Kh., Farahbakhsh, R., Chalehchaleh, R., Rajapaksha, P., Jafari, A.R., Li, G., & Crespi, N. (2024). A survey on multi-lingual offensive language detection. PeerJ.Computer Science, 10, e1934-e1934. DOI:https://doi.org/10.7717/peerj-cs.1934
- Nagar, S., Barbhuiya, F. A., & Dey, K. (2023). Towards more robust hate speech detection: Using social context and user data.
- Social Network Analysis and Mining, 13(1), 47. DOI:https://doi.org/10.1007/s13278-023-01051-6
- Nath, T., Singh, V. K., & Gupta, V. (2023). BongHope: An annotated corpus for Bengali hope speech detection. Research Square. DOI:https://doi.org/10.21203/rs.3.rs-2819284/v1
- Palakodety, S., KhudaBukhsh, A. R., & Carbonell, J. G. (2020). Hope speech detection: A computational analysis of the voice of peace. In ECAI 2020 (pp. 1881-1889). IOS Press.
- RamakrishnaIyer LekshmiAmmal, H., Ravikiran, M., Nisha, G., Balamuralidhar, N., Madhusoodanan, A., Kumar Madasamy, A., & Chakravarthi, B. R. (2023). Overlapping word removal is all you need: Revisiting data imbalance in hope speech detection. Journal of Experimental & Theoretical Artificial Intelligence, 36(8), 1837-1859. DOI:https://doi.org/10.1080/0952813X.2023.2166130
- Roy, P., Bhawal, S., Kumar, A., & Chakravarthi, B. R. (2022, May). IIITSurat@ LT-EDI-ACL2022: Hope speech detection using machine learning. In Proceedings of the Second Workshop on Language Technology for Equality, Diversity and Inclusion (pp. 120-126). Association for Computational Linguistics.https://aclanthology.org/2022.ltedi-1.13.
- Schmidt, A., & Wiegand, M. (2017). A survey on hate speech detection using natural language processing. In Proceedings of the Fifth International Workshop on Natural Language Processing for Social Media (pp. 1-10). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/W17-1101
- Snyder, C. R., Rand, K. L., & Sigmon, D. R. (2002). Hope Theory: A Member of the Positive Psychology Family. In C. R. Snyder, & S. J. Lopez (Eds.), Handbook of Positive Psychology (pp. 257-276). Oxford University Press.
- Subramanian, M., Sathiskumar, V. E., Deepalakshmi, G., Cho, J., & Manikandan, G. (2023). A survey on hate speech detection and sentiment analysis using machine learning and deep learning models. Alexandria Engineering Journal, 80, 110-121. DOI:https://doi.org/10.1016/j.aej.2023.08.038
- Wang, Z., & Jurgens, D. (2018). It's going to be okay: Measuring access to support in online communities. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (pp. 33-45). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/D18-1004
- Yates, A., Cohan, A., & Goharian, N. (2017). Depression and self-harm risk assessment in online forums. arXiv preprint arXiv:1709.01848.
- Yenala, H., Jhanwar, A., Chinnakotla, M. K., & Goyal, J. (2018). Deep learning for detecting inappropriate content in text. International Journal of Data Science and Analytics, 6, 273-286. DOI:https://doi.org/10.1007/s41060-017-0088-4
- Zampieri, M., Malmasi, S., Nakov, P., Rosenthal, S., Farra, N., & Kumar, R. (2019). Predicting the type and target of offensive posts in social media. arXiv preprint arXiv:1902.09666.
Дополнительные файлы



