Hate Detector

Sistema de detecção de comentários ofensivos na Web.
Os usuários brasileiros da Web estão entre os mais ativos em redes sociais e mais dispostos em interagir uns com os outros. Embora este engajamento promova uma sociedade on-line muito participativa e colaborativa, existem usuários que não estão interessados ​​no bem comum, estes, ofendem aqueles que têm opinião contrária as suas, ou mesmo sem motivo aparente. Estes comentários ofensivos são conhecidos como discurso de ódio (hate speech). A grande quantidade de texto gerado e publicado por usuários diariamente, torna impossível filtrar manualmente comentários ofensivos. Existem iniciativas para identificar as mensagens ofensivas automaticamente, mas em sua maioria contemplam apenas a língua inglesa. Este projeto tem como objetivo desenvolver um método de identificação de comentários ofensivos em português.

OffComBR

Os datasets OffComBR-2 e OffComBR-3 estão disponíveis no formato arff juntamente com suas descrições no endereço abaixo

https://github.com/rogersdepelle/OffComBR

Caso utilize algum dos datasets favor utilizar a citação:

@inproceedings{Pelle2017,
title={Offensive Comments in the Brazilian Web: a dataset and baseline results},
author={Rogers P. de Pelle and Viviane P. Moreira},
booktitle={6th Brazilian Workshop on Social Network Analysis and Mining (BraSNAM)},
year={2017},
note={to appear}
}

Código de obtenção e anotação de dados, caso tenha dúvidas não hesite em enviar um e-mail.

https://github.com/rogersdepelle/hatedetector

Segundo John Nockleby¹, discurso de ódio (hate speech) por ser definido como "qualquer comunicação que deprecia uma pessoa ou um grupo com base em alguma características como raça, cor, etnia, sexo, orientação sexual, nacionalidade, religião ou outra característica". Desde o início da Web existem usuários que ofendem outros usuários, eles são chamados de haters. Mas só nos últimos anos eles estão sendo combatidos mais fortemente, pois quanto maior o número de usuários ativos nas redes sociais, mais pessoas são afetadas por essas ofensas, gerando uma maior repercussão.

Recentemente, empresas como Facebook, Twitter e YouTube têm enfrentado ações legais por permitir que usuários postem textos considerados ofensivos. Apesar do esforço aplicado na identificação de textos com ofensas, é praticamente impossível para os seres humanos verificar tudo o que é postado na rede. Relatórios dizem que os brasileiros são os que mais gastam tempo nas mídias sociais e estimam que 96% de todos os usuários brasileiros de Internet têm pelo menos uma conta de rede social. Só Facebook tem mais de 100 milhões de contas brasileiras. O país ocupa o terceiro lugar no número de usuários do Facebook e o quinto no número de usuários do Twitter.

O projeto COMUNICA QUE MUDA preparou um dosiê com alguns dados sobre a intolerâ ncia nas redes sociais. Clique aqui para acessar o documento completo.


¹Nockleby, John T. (2000), “Hate Speech,” in Encyclopedia of the American Constitution.

Nobata, Chikashi, et al. Abusive Language Detection in Online User Content. International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2016.

Djuric, Zhou,et al. Hate speech detection with comment embeddings. International World Wide Web Conferences Steering Committee, 2015.

Shuhua Liu and Thomas Forss. Text classification models for Web content filtering and online safety. IEEE International Conference on Data Mining Workshop, 2015.

Ting, Wang, et al. A study of hate groups detection based on social networks analysis and Web mining. International Conference on Advances in Social Networks Analysis and Mining, 2013.

Kwok and Wang. Locate the hate: Detecting tweets against blacks. AAAI Conference on Artificial Intelligence, 2013.

Warner and Hirschberg. Detecting hate speech on the world wide Web. Second Workshop on Language in Social Media, 2012.


Rogers Prates de Pelle
Aluno de Mestrado no Instituto de Informática da Universidade Federal do Rio Grande do Sul (UFRGS)
Contato:

Prfª. Drª. Viviane Pereira Moreira
Professora Adjunta no Instituto de Informática da Universidade Federal do Rio Grande do Sul (UFRGS)
Contato: