티스토리 뷰

카테고리 없음

Smile speech

재은재은 2019. 12. 22. 15:10

소개


SNS 관련 논문들과 기사들을 읽어보니 Hate speech의 심각성에 대해 인지하게 되었다.

SNS는 꾸준히 사용자가 증가하는 영향력 있는 온라인 플랫폼으로서 자유성이 보장되는 만큼 수많은 차별, 혐오표현들이 쓰이고 있다.

또한, SNS 혐오표현은 지속성, 확산성, 접근성, 익명성, 규제 부재로 인해 빠르고 광범위하게 확신시킨다.

혐오 표현의 문제점은 피해자가 되는 개인에게 정신적, 신체적 피해를 주고 사회적으로도 특정 집단간의 갈등을 유발하기도 한다. 이에 Hate speech에 주의성의 필요를 느껴 HAN (Hierarchical attention network)알고리즘을 사용하여 Hate speech detection모델 구현하고, 다른 알고리즘들과 detection 정확도를 비교분석해보는 것을 목표로 삼았다. 주 제목은 Hate speech의 반대말인 smile speech로 이름을 지었다!

 

트위터 API 수집


트위터 데이터를 이용해서 탐지하려고 트위터 개발자 승인을 받았다!

질문은 번역기를 이용하면 쉽게 채울 수 있다. 혹시 바로 승인이 되지 않으면 메일로 확인절차를 몇번 더 걸친 뒤 승인을 받을 수 있다!

 

개발자 승인 메일

 

정확도 분석


트위터로 데이터를 받았지만 다양한 논문들을 읽어보니 다양한 알고리즘을 사용하여 정확도를 비교, 분석 하는것이 사전 작업으로 중요하다고 생각되어 기존의 Hate speech 데이터셋을 이용하여 정확도를 추출했다. 사용한 데이터들은 모두 트위터에서 추출한 영어로 작성된 데이터로 Hatebase, Kaggle, Wassem & Hovy를 사용했다.

 

Qian, Jing, et al. "Leveraging intra user and inter user representation learning for automated hate speech detection." arXiv preprint arXiv:1804.03124 (2018)

HANLSTM 모델을 구현하였다. HAN알고리즘 같은 경우는 대부분은 DATA SET들을 정확도가 높았다. 문서단위로 분류하기 때문에 정확도가 높게 나온 것 같다. LSTM같은 경우도 정확도가 높게 나오긴 했지만 HAN에 비하여 낮은 수준으로 정확도가 추출되었다. 다양한 데이터들과 알고리즘으로 돌린 결과 HAN알고리즘이 정확도 면에서 가장 높은 결과를 보여주었다. 다른 논문에서 활용된 Wassem & Hovy 데이터를 사용한 다른 알고리즘 정확도이다. HAN의 정확도가 더 높은 것을 확인할 수 있다.

 

앞으로의 방향


기회가 된다면 트위터 API를 직접 수집한 데이터를 바탕으로 분석을 진행하고 싶다. 그 전에 HAN알고리즘 정확도를 다른 공개 데이터를 이용하여 조금 더 분석해 볼 생각이다.

정확도를 분석하는 것으로 끝내는 것이 아닌 Hatespeech 해결에 도움을 줄 수 있는 방안도  생각해 봐야겠다.

 

더욱 자세한 설명은 https://youtu.be/6KbGhlx8QHM 을 통해 확인할 수 있다.

 

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
more
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함