Recursos de Tecnología Lingüística Analizadores sintácticos
Analizador sintáctico
Dado un texto:
Obtener el análisis en constituyentes
Asignar funciones
Técnicas de análisis completo
Técnicas de análisis superficial
Banco de árboles sintácticos
Recursos de Tecnología Lingüística Analizadores sintácticos
Análisis de la frase 'El presidente del gobierno ha declarado esto'
Recursos de Tecnología Lingüística Analizadores sintácticos
Permiten:
– Consulta de estructuras específicas
– Consultar frases en las que aparece un determinado lema (verbo)
– Obtener los regímenes verbales
– Tipo semántico de los sujetos/objetos
– Control de concordancia N – A
– etc.
Recursos de Tecnología Lingüística Redes semánticas
Una red semántica es una manera de representar el conocimiento basada en las relaciones que establecen los conceptos representados.
En les redes lexicosemánticas se representan los conceptos lexicalitzados.
EuroWordNet es la red lexicosemántica más extendida, de manera que se ha constituido como un estándar de representación.
castellano, catalán e inglés
Se utiliza para:
El etiquetado automático de corpus
Léxico computacional para obtener relaciones entre palabras
Recuperación de información
…
Recursos de Tecnología Lingüística Redes semánticas
BUSCA: sinónimos de casa
Sentido 1: Línea aristocrática (nombre)
casa
Sentido 2: Entidad que elabora un producto (nombre)
fabricantecasa
Sentido 3: Miembros de una empresa o negocio (nombre)
casafirma
Sentido 4: Conjunto de personas que viven juntas (nombre)
casafamilia
Sentido 5: Edificio donde pueden vivir una o más personas (nombre)
casa
Recursos de Tecnología Lingüística Redes semánticas
(Gp:) Resultado 0.3 segundos de ejecución)
(Gp:) fabricante, casa asunto, negocio
Hay ambigüedad, escoge un sentido:
(Gp:) Sentido 1: Línea aristocrática (nombre)Sinónimos: casa
(Gp:) Sentido 2: Entidad que elabora un producto (nombre)Sinónimos: fabricante, casa
(Gp:) Sentido 3: Lugar donde se vive (nombre)Sinónimos: casa
Hiperónimos de ….
Recursos de Tecnología Lingüística Redes semánticas
Hay ambigüedad, escoge un sentido:
Sentido 1: Línea aristocrática (nombre)Sinónimos: casa
Sentido 2: Lugar donde se vive (nombre)Sinónimos: casa
Sentido 3: País, estado o ciudad donde se vive (nombre)Sinónimos: casa, hogar
Sentido 4: Miembros de una empresa o negocio (nombre)Sinónimos: casa, firma
Sentido 5: Conjunto de persones que viven juntas (nombre)Sinónimos: casa, familia
Resultado (0.2 segundos)
casa, familia colectividad
grupo social agrupación, grupo, colectivo
Hiperónimos de …
Recursos de Tecnología Lingüística Redes semánticas
Permiten:
Etiquetar corpus con sentidos y consultarlos posteriormente
Obtener los sentidos de una palabra:
sus hiperónimos
sus hipónimos
sus sinónimos
Combinado con el análisis sintáctico:
obtención de estructuras por cada sentido
Desambiguados
Morfosintácticamente (A. M)
semánticamente con los synsets de WN
Proporcionan los contextos en los que se usan las unidades léxicas.
Proporcionan ejemplos de uso
Obtención de terminología relacionada con ciertos dominios (fines específicos).
Recursos de Tecnología Lingüística Corpus
Aplicaciones de las Tecnologías de la Lengua
¿Qué es una aplicación de Ingeniería Lingüística?
Sistema informático que resuelve una tarea inteligente utilizando conocimiento lingüístico.
– Programas
– Datos/Conocimiento lingüístico
– Diseño/Análisis y arquitectura de la aplicación
Aplicaciones de las Tecnologías de la Lengua
1. Correctores de textos
2. Extracción de información
3. Recuperación de información
4. Sistemas de pregunta-respuesta
5. Traducción automática
6. ELAO (Enseñanza de Lenguas Asistida por Ordenador)
Aplicaciones de las Tecnologías de la Lengua1. Correctores de textos
Verificación ortográfica
Verificación gramatical
Verificación de estilo
Aplicaciones de las Tecnologías de la Lengua1. Correctores de textos
Tecnologías y conocimiento lingüístico
Listas de palabras correctas
Declaradas
Obtenidas con un analizador/generador
Listas de combinaciones de pronombres átonos
Tipología de verbos
Coapariciones incorrectas
datos estadísticos
listas predeterminadas (*pienso de que …)
Errores de concordancia
listas predefinidas
análisis morfológico y desambiguación
Errores de régimen
léxico con información de rección
Errores de estilo
Identificar repeticiones: analizador morfológico, tratamiento de corpus
Aplicaciones de las Tecnologías de la Lengua2. Extracción de información
Obtener de documentos, páginas web, etc. la información relevante
Los sistemas de EI tienen como objetivo transformar una colección de textos en información fácilmente accesible y utilizable
Congresos especializados: Message Understanding Conferences (MUC)
Ponen a prueba los sistemas de extracción de información y los evalúan según unos criterios estándar.
hay que determinar cuál es la información relevante
Definición de plantillas de extracción
Temas predefinidos
Aplicaciones de las Tecnologías de la Lengua2. Extracción de información
(Gp:) Filtrado
y segmentación
(Gp:) Extracción
(Gp:) Análisis
sintáctico
(Gp:) Análisis
Léxico y
morfológico
(Gp:) Correferencia
(Gp:) Fusión
(Gp:) Plantilles
(Gp:) Plantilles
(Gp:) Plantilles
(Gp:) Plantillas
documentos
Análisis local del texto
Análisis del discurso
Aplicaciones de las Tecnologías de la Lengua2. Extracción de información Aplicaciones relacionadas
Clasificación de documentos
Asignar a cada documento, de una colección, una o más categorías (clases).
Hay que predefinir las clases o categorías (ontologías, taxonomías).
Técnicas estadísticas: aprendizaje automático a partir de ejemplos.
Minería de datos
Encontrar, en una estructura de datos, agrupaciones que responden a un determinado comportamiento o que tienen propiedades similares.
Marqueting: perfiles de destinatarios de propaganda.
Resumen automátic
Plantilla = resumen del documento
Indexación automàtica
Aplicaciones de las Tecnologías de la Lengua3. Recuperación de información
Un sistema de RI :
dada una consulta planteada por un usuario
? encontrar los documentos más relevantes de acuerdo con la consulta.
Los documentos pueden pertenecer
a una colección
a una biblioteca digital o
ser localizados por algún buscador de Internet.
Líneas de mejora
Técnicas de PLN en el tratamiento de la pregunta
Selección de pasajes y/o fragmentos
Competiciones del TREC (http://trec.nist.gov)
Buscadores de Internet: Yahoo, Google, AltaVista, …
Aplicaciones de las Tecnologías de la Lengua3. Recuperación de información
Objetivo:
Hacer preguntas libres
Recuperar los documentos precisos
Procesos:
a) Representación de los textos que se quieren recuperar
Indexación de documentos (EI)
Identificar los términos que describen el contenido
b) Representación de la consulta
Descripción de lo que se busca ? explicitar el contenido
c) Comparación de las representaciones o recuperación de documentos
d) Evaluación de los documentos y retroalimentación de la búsqueda
Aplicaciones de las Tecnologías de la Lengua4. Sistemas de pregunta-respuesta (P-R)
Un sistema de P-R parte de una consulta expresada en lenguaje natural
No devuelve un documento relevante (es decir, que contenga la respuesta)
sinó la propia respuesta
Si los sistemas de RI convencionales utilizan técnicas básicamente estadísticas,
? los sistemas de P-R utilizan técnicas de PLN
Aparece en las competiciones del TREC a partir del TREC-8 (1999)
Aplicaciones de las Tecnologías de la Lengua5. ¿Qué es la TA?
Problemas
Ambigüedad del lenguaje: “atracar”
Conocimiento del mundo:
Es demasiado extenso para poderlo introducir en un programa
Es demasiado complejo para poderlo formalizar.
Calidad de la traducción depende de:
Grado de proximidad entre lenguas
Tipo de conocimiento:
información léxica, morfológica, sintáctica.
Tipo de texto que tiene que traducir.
La TA se ocupa del diseño, la implementación, la evaluación y el uso de
programas informáticos para traducir textos de un idioma a otro.
Página anterior | Volver al principio del trabajo | Página siguiente |