Regionalismos de COSTA RICA y sus palabras cercanas

www.datos.gov.co | Last Updated 3 Dec 2017

<b>DESCRIPCION</b> Este conjunto de datos contiene aproximadamente 5,000 palabras regionales cada una con 30 palabras relacionadas semánticamente. Los regionalismos fueron identificados a partir de un corpus de 218 millones de tuits correspondientes a 333 ciudades de 21 países de Latinoamérica, España y los Estados Unidos. El método para identificar los regionalismos combina técnicas de recuperación de información (Calvo 2017) y de autocorrelación espacial (Nguyen & Eisenstein, 2017). Las palabras “cercanas”, relacionadas o similares a cada regionalismo se obtuvieron utilizando el modelo de aprendizaje “profundo” (Deep learning) word2vec (Mikolov et al. 2013) entrenado con el corpus completo. Si usted encuentra útil este recurso y lo usa en sus proyectos de investigación o desarrollo, por favor citar: Sergio Mancera. “Automatic extraction of regional words from social networks” (2017). Tesis de maestría, Centro de Investigación en Computación, Instituto Politécnico Nacional, México D.F., México <b>ADVERTENCIA</b> Este conjunto de datos ha sido obtenido por medios completamente automáticos. Por lo tanto, su contenido no ha sido revisado exhaustivamente de manera manual. Sin embargo, en su construcción, el recurso ha sido evaluado de manera científica buscando que posibles errores se presenten en la menor medida posible y su proporción sea comparable con la de otros recursos similares en el mundo. <b>REFERENCIAS</b> Calvo, H. (2014, April). Simple TF• IDF Is Not the Best You Can Get for Regionalism Classification. In International Conference on Intelligent Text Processing and Computational Linguistics (pp. 92-101). Springer, Berlin, Heidelberg. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean. (2013). Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013. https://code.google.com/p/word2vec/ Nguyen, D., & Eisenstein, J. (2017). A Kernel Independence Test for Geographical Language Variation. Computational Linguistics.

Tags: costarriqueñismos, costa rica, regionalismos, español, sinónimos, twitter

This dataset has the following 4 columns:

Column NameAPI Column NameData TypeSample Values
REGIONALISMregionalismtext
REGIONALISM_SCOREregionalism_scorenumber
NEIGHBORneighbortext
SIMILARITYsimilaritynumber