<b>DESCRIPCION</b> Este conjunto de datos contiene un máximo 50,000 tuits que hacen uso de palabras regionales junto con el nombre de la ciudad donde se produjo el tuit de ejemplo. Los regionalismos fueron identificados a partir de un corpus de 218 millones de tuits correspondientes a 333 ciudades de 21 países de Latinoamérica, España y los Estados Unidos. El método para identificar los regionalismos combina técnicas de recuperación de información (Calvo 2017) y de autocorrelación espacial (Nguyen & Eisenstein, 2017). Los ejemplos fueron seleccionados de manera aleatoria entre los tuits correspondientes a las cinco ciudades con mayor grado de regionalismo para cada palabra. Si usted encuentra útil este recurso y lo usa en sus proyectos de investigación o desarrollo, por favor citar: Sergio Mancera. “Automatic extraction of regional words from social networks” (2017). Tesis de maestría, Centro de Investigación en Computación, Instituto Politécnico Nacional, México D.F., México <b>ADVERTENCIA</b> Este conjunto de datos ha sido obtenido por medios completamente automáticos. Por lo tanto, su contenido no ha sido revisado exhaustivamente de manera manual. Sin embargo, en su construcción, el recurso ha sido evaluado de manera científica buscando que posibles errores se presenten en la menor medida posible y su proporción sea comparable con la de otros recursos similares en el mundo. <b>REFERENCIAS</b> Calvo, H. (2014, April). Simple TF• IDF Is Not the Best You Can Get for Regionalism Classification. In International Conference on Intelligent Text Processing and Computational Linguistics (pp. 92-101). Springer, Berlin, Heidelberg. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean. (2013). Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013. https://code.google.com/p/word2vec/ Nguyen, D., & Eisenstein, J. (2017). A Kernel Independence Test for Geographical Language Variation. Computational Linguistics.
This dataset has the following 5 columns:
Column Name | API Column Name | Data Type | Sample Values |
---|---|---|---|
REGIONALISM | regionalism | text | geo exposición aquello rudos pare view top 100 |
REGIONALISM_SCORE | regionalism_score | number | 0.2089 0.2075 0.2066 0.206 0.2059 view top 100 |
CITY | city | text | Ciudad de Mexico Monterrey Hermosillo Santiago de Queretaro Puebla view top 100 |
WORD_CITY_SCORE | word_city_score | number | 0.0185 0.0423 0.0167 0.0128 0.2677 view top 100 |
TWEET | tweet | text | @vrocastroficial @cca333 Buenas noches que descancen Les dejo mi bendicion En el nombre del Padre del Hijo y del Espiritu Santo Amen LQM Bueno pues me voy a dormir. Muy buenas noches que descancen Cansado con sueno pero a Dios gracias al fin en casa descancen raza!!!!!! Senores es tiempo de dormir, que descancen y que el dia de manana sea un excelente dia, que Dios vele sus suenos y les conceda la paz A dormir :) buenas noches, q descancen y sueñen bonito''Cuando se duerme se entra en un mundo enteramente nuestro sin nadie qué moleste'' view top 100 |