La Web es sin lugar a dudas el repositorio de información más grande jamás construido por el ser humano. Con más de cuatro mil millones de páginas indexadas por los motores de búsqueda públicos, la Web representa el mayor y más amplio corpus textual disponible en la actualidad. Por su valor lingüístico, dado que contiene información en más de 1 500 lenguajes, este corpus está siendo usado con gran éxito en muchas tareas de procesamiento del lenguaje natural. En particular, varios métodos de minería de datos se han aplicado para extraer de la Web algunos tipos de patrones lingüísticos útiles para tareas como la traducción automática y búsqueda de respuestas. En este artículo presentamos un método que permite encontrar combinaciones de palabras significativas a los diferentes sentidos atribuibles a una palabra polisémica. Los experimentos realizados, aunque preliminares, muestran el gran potencial del método propuesto para encontrar estas colocaciones por sentido usando la Web como corpus, así como la viabilidad de la incorporación de dichas colocaciones en sistemas de desambiguación del sentido de las palabras, que pueden a su vez ser usados en sistemas de traducción automática y recuperación de información.
Guzmán Cabrera, R. et al. (2005). Búsqueda de colocaciones en la web para sinónimos de Wordnet. Acta Universitaria, 15 (2), pp. 50-56.