Librería de expresiones de odio detectado en medios informativos digitales en España, resultado del proyecto "Hatemedia" (proyecto PID2020-114584GB-I00), financiado por la Agencia Estatal de Investigación - Ministerio de Ciencia e Innovación.
Las expresiones de odio muestra 7.210 lemas simples y compuestos más repetidos y que desde el punto de vista semántico tienden al odio en medios informativos digitales en España. La elaboración de este documento final, requirió las siguientes fases:
ETIQUETADO DE EXPRESIONES Y EXTRACCIÓN DE LEMAS. En la primera fase, se revisaron un total de 476.753 mensajes asociados a medios informativos digitales en España, en el que se identificaron un total aproximadamente 4,5% de mensajes con expresiones que tendían al odio. Del total de mensajes identificados se eliminaron stop-words, se identificaron datos anómalos (que no pertenecían a un idioma conocido o eran diminutivos de éste) y se revisaron manualmente para identificar tanto los lemas simples como compuestos que tendían al odio. IDENTIFICACIÓN DE DUPLICADOS: En la primera fase se realizaron dos listados, el primero de lemas simples y el segundo de lemas compuestos. El primer paso fue filtrar estas dos listas para identificar lemas repetidos, obteniendo estas dos bibliotecas donde cada lema aparece una sola vez. INTEGRACIÓN BBDD: A continuación, en la tercera fase, se procedió a unir ambas bibliotecas para construir una biblioteca final que integrara todos los lemas, tanto simples como compuestos. Finalmente, se realizó un filtrado final para asegurar que no se repitan los lemas.
Autores: - Elias Said-Hung, Max Römer Pieretti, Julio Montero-Díaz, Alberto De Lucas, Javier Martínez Torres.
Apoyado por: - POSIBLE S.L.
Para más información: - https://www.hatemedia.es/, o contactar a elias.said@unir.net
---
Library of hate speech detected in digital news media in Spain, the result of the "Hatemedia" project (project PID2020-114584GB-I00), financed by the State Research Agency - Ministry of Science and Innovation.
Hate expressions show 7,210 more repeated simple and compound slogans, and from the semantic point of view tend to be hate in digital news media in Spain. The preparation of this final document required the following phases:
LABELING OF EXPRESSIONS AND EXTRACTION OF SLOGMS. In the first phase, a total of 476,753 messages associated with digital news media in Spain were ...
Las expresiones de odio muestra 7.210 lemas simples y compuestos más repetidos y que desde el punto de vista semántico tienden al odio en medios informativos digitales en España. La elaboración de este documento final, requirió las siguientes fases:
ETIQUETADO DE EXPRESIONES Y EXTRACCIÓN DE LEMAS. En la primera fase, se revisaron un total de 476.753 mensajes asociados a medios informativos digitales en España, en el que se identificaron un total aproximadamente 4,5% de mensajes con expresiones que tendían al odio. Del total de mensajes identificados se eliminaron stop-words, se identificaron datos anómalos (que no pertenecían a un idioma conocido o eran diminutivos de éste) y se revisaron manualmente para identificar tanto los lemas simples como compuestos que tendían al odio. IDENTIFICACIÓN DE DUPLICADOS: En la primera fase se realizaron dos listados, el primero de lemas simples y el segundo de lemas compuestos. El primer paso fue filtrar estas dos listas para identificar lemas repetidos, obteniendo estas dos bibliotecas donde cada lema aparece una sola vez. INTEGRACIÓN BBDD: A continuación, en la tercera fase, se procedió a unir ambas bibliotecas para construir una biblioteca final que integrara todos los lemas, tanto simples como compuestos. Finalmente, se realizó un filtrado final para asegurar que no se repitan los lemas.
Autores: - Elias Said-Hung, Max Römer Pieretti, Julio Montero-Díaz, Alberto De Lucas, Javier Martínez Torres.
Apoyado por: - POSIBLE S.L.
Para más información: - https://www.hatemedia.es/, o contactar a elias.said@unir.net
---
Library of hate speech detected in digital news media in Spain, the result of the "Hatemedia" project (project PID2020-114584GB-I00), financed by the State Research Agency - Ministry of Science and Innovation.
Hate expressions show 7,210 more repeated simple and compound slogans, and from the semantic point of view tend to be hate in digital news media in Spain. The preparation of this final document required the following phases:
LABELING OF EXPRESSIONS AND EXTRACTION OF SLOGMS. In the first phase, a total of 476,753 messages associated with digital news media in Spain were ...