Regionalismos de MEXICO con ejemplos de TWITTER

www.datos.gov.co | Last Updated 28 Nov 2017

<b>DESCRIPCION</b> Este conjunto de datos contiene un máximo 50,000 tuits que hacen uso de palabras regionales junto con el nombre de la ciudad donde se produjo el tuit de ejemplo. Los regionalismos fueron identificados a partir de un corpus de 218 millones de tuits correspondientes a 333 ciudades de 21 países de Latinoamérica, España y los Estados Unidos. El método para identificar los regionalismos combina técnicas de recuperación de información (Calvo 2017) y de autocorrelación espacial (Nguyen & Eisenstein, 2017). Los ejemplos fueron seleccionados de manera aleatoria entre los tuits correspondientes a las cinco ciudades con mayor grado de regionalismo para cada palabra. Si usted encuentra útil este recurso y lo usa en sus proyectos de investigación o desarrollo, por favor citar: Sergio Mancera. “Automatic extraction of regional words from social networks” (2017). Tesis de maestría, Centro de Investigación en Computación, Instituto Politécnico Nacional, México D.F., México <b>ADVERTENCIA</b> Este conjunto de datos ha sido obtenido por medios completamente automáticos. Por lo tanto, su contenido no ha sido revisado exhaustivamente de manera manual. Sin embargo, en su construcción, el recurso ha sido evaluado de manera científica buscando que posibles errores se presenten en la menor medida posible y su proporción sea comparable con la de otros recursos similares en el mundo. <b>REFERENCIAS</b> Calvo, H. (2014, April). Simple TF• IDF Is Not the Best You Can Get for Regionalism Classification. In International Conference on Intelligent Text Processing and Computational Linguistics (pp. 92-101). Springer, Berlin, Heidelberg. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean. (2013). Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013. https://code.google.com/p/word2vec/ Nguyen, D., & Eisenstein, J. (2017). A Kernel Independence Test for Geographical Language Variation. Computational Linguistics.

Tags: mexicanísmos, méxico, regionalismos, español, ejemplos, twitter

This dataset has the following 5 columns:

Column NameAPI Column NameData TypeSample Values
REGIONALISMregionalismtext
REGIONALISM_SCOREregionalism_scorenumber
CITYcitytext
WORD_CITY_SCOREword_city_scorenumber
TWEETtweettext