Procesamiento de lenguaje natural

El campo de Procesamiento de Lenguaje Natural (PLN) tiene como objetivo conseguir que las computadoras realicen tareas útiles que involucren al lenguaje humano, tales como permitir la comunicación humano – máquina, mejorar la comunicación humano – humano, o simplemente procesar texto o voz de forma útil.

Uno de los mayores retos que debe ser afrontado en el campo de PLN proviene del hecho que el lenguaje natural, a diferencia del lenguaje de máquina, es frecuentemente ambiguo. Se dice que un texto es ambiguo si es que existen múltiples alternativas de estructuras lingüísticas que pueden ser construidas para él. Por ejemplo, en la oración “Estuve esperándote en el banco” no se sabe si la persona estuvo sentada en un banco o en una institución financiera.

Debido a la frecuencia con la que se presentan estos casos de ambigüedad y las complicaciones que genera para conseguir un entendimiento pleno de lo que se está expresando, la investigación en PLN presenta varios desafíos y es promete ser útil en una gran variedad de aplicaciones como: traducción automática, sistemas de preguntas y respuestas, extracción de información, elaboración automática de resúmenes, simplificación textual, entre otros.

En GRPIAA, los proyectos en PLN están principalmente abocados a dos líneas de investigación: implementación de herramientas de apoyo para la redacción de textos científicos, y análisis de complejidad y simplificación de textos en español. Para ambas líneas, los proyectos involucran el uso de métodos de aprendizaje de máquina basados en corpus.

 

Bibliografía básica: 

  • JURAFSKY, Daniel; MARTIN, James H. 2007          Speech and Language Processing: An introduction to Natural Language Processing, Computations Linguistics, and Speech Recognition. Upper Saddle River: Pearson Prentice Hall.

  • MANNING, Christopher; SHUTZE, Hinrich. 1999       Foundations of Statistical Language Processing. Segunda edición. Londres: Instituto Tecnológico de Massachusetts.

  • BIRD, Steven; KLEIN, Ewan; LOPER, Edward. 2009            Natural Language Processing with Python. s/c: Natural Language Toolkit.

Herramientas y software recomendado:

  • FreeLing: An open source suite for language analyzers (http://nlp.lsi.upc.edu/freeling/) Brinda diferentes herramientas para procesar texto en diferentes idiomas, incluido es Español.

  • Weka 3: Data Mining Software in Java (http://www.cs.waikato.ac.nz/ml/weka/) Proporciona una colección de algoritmos de aprendizaje de máquina.

  • NLTK: Natural Language Toolkit (http://www.nltk.org/) Plataforma para construir programas en Python que trabajen con datos del lenguaje humano.