Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Problemas de análisis de texto (página 2)




Enviado por Pablo Turmero



Partes: 1, 2

Monografias.com

Grafo propuesto, grafo de co-ocurrence:
Vértices: todas las palabras de un corpus de entrenamiento, except palabras de paro.
Una liga se crea si dos palabras aparecen juntas en un texto (al menos una vez).

Uso de medidas de centralidad para extraer palabras relevantes.

Usar un método de aprendizaje supervisado.

*Castillo, E, et al. (2015). UDLAP: Sentiment Analysis Using a Graph Based Representation.
Castillo, E, et al. (2016). UDLAP at SemEval-2016 Task 4: Sentiment Quantification Using a
Graph Based Representation
Análisis de sentimiento y perfil de autor

Monografias.com

“I’m very excited #happy”
Análisis de sentimiento y perfil de autor
Este enfoque trabaja sobre textos que no son muy largos, porque crea ventanas de co-ocurrencia de diferentes tamaños.

Monografias.com

Análisis de sentimiento y perfil de autor
Alrededor de 45% de exactitud usando el corpus de SemEval 2015, 2016, que es un conjunto de datos preparado para la tarea de análisis de sentimientos.

Alrededor de 80% de exactitude usando el corpus de Clef Pan 2015, que es un conjunto de datos preparado para la tarea de perfil de autor.
http://alt.qcri.org/semeval2015/
http://alt.qcri.org/semeval2016/
http://pan.webis.de/clef15/pan15-web/

Monografias.com

Herramientas Open source
Diferentes herramientas open source que se pueden usar en el problema de PLN.

La mayoría de las herramientas proporcionan un API en diferentes lenguajes de programación como:
Python
Java
Scala
C/C++
C#

Monografias.com

Herramientas PLN
Wordnet es una gran base de datos léxica de inglés: nombres, verbos, adjetivos y adverbios.
Todas las palabras en Wordet se agrupan en conjuntos de sinónimos cognitivos llamados  synsets.
Synsets están ligados por medio de relaciones conceptuales-semánticas and léxica
Para el Español: http://grial.uab.es/synset/synset2.php
Para el Francés: http://alpage.inria.fr/~sagot/wolf-en.html

https://wordnet.princeton.edu/

Monografias.com

Herramientas PLN
La red de Wordnet se usa para obtener sentidos específicos de las palabras y las relaciones semánticas como:
Lemas.
Sinónimos.
Hiperónimos.
Hipónimos.
Similaridad semántica entre palabras.

https://wordnet.princeton.edu/

Monografias.com

Herramientas PLN
(Gp:) http://www.nltk.org/

NLTK es una plataforma para construir programas en Python para trabajar con datos de lenguaje humano.

Proporciona interfaces fáciles de usar para más de 50 córporas y recursos lexicales como:
Wordnet.
SentiWordNet (sólo en inglés).
Dependency Parsed Treebank.
SENSEVAL 2 Corpus: Sense Tagged Text.

Monografias.com

Herramientas PLN
(Gp:) http://www.nltk.org/

Provee una conjuntos de librerías para:

Clasificación: asignar información semántica relacionada a un document de texto.

Tokenización: proceso de romper un texto en palabras, frases o símbolos.

Stemming: proceso de reducción de palabras a su forma base (Word steam).

Tagging: el papel sintáctico de las palabras en el texto (Part of speech).

Parsing: proceso de analizar una oración tomando cada palabra y detrminando su estructura a partir de sus partes constituyentes.

Monografias.com

Herramientas PLN
(Gp:) http://www.clips.ua.ac.be/pattern

Clips Pattern es un módulo de minería de web para el lenguaje de programación de Python.

Desarrollado en la Universidad de Lovaina, Bélgica.

Proporciona un paquete de herramientas para:
Minería de datos.
Procesamiento de Lenguaje Natural.
Aprendizaje por computadora.
Análisis de redes y visualización.

Monografias.com

Herramientas Grafos
(Gp:) https://networkx.github.io/

NetworkX es un paquete en Python para la creación, mainpulación y estudio de la estructura, dinámica y funciones de grafos complejos y redes complejas. Es una aplicación de tipo stand-alone.

Principales características:
Creación de grafos, digrafos y multigrafos.
Diferentes tipos de algoritmos para calcular:
Medidas de Centralirdad.
Análisis de ligas/arcos (links).
Predicicón de ligas.

Monografias.com

Igraph es una colección de herramientas para el análisis de redes con énfasis en la eficiencia, la portabilidad y la sencillez de uso.
Es una herramienta de código abierto que puede programarse en R, Python y C/C++

Principales características:
Creación de grafos y multigrafos.
Desarrollo de aplicaciones de tipo Stand-alone
Ofrece diferentes algoritmos para manipulación y análisis de grafos como:
Clustering y detección de Comunidades.
Conectividad
Isomorfismo
http://igraph.org/redirect.html
Herramientas Grafos

Monografias.com

GraphX es un nuevo componente en Apache Spark para grafos y cómputo paralelo sobre grafos.

Es una herramienta de código abierto que puede programarse en R, Scala, Python y Java.

Usa un enfoque de tipo Map-Reduce.

Ofrece diferentes algoritmos paralelos para el cálculo de:
PageRank.
Propagación de etiquetas. Label propagation.
Componentes fuertemente conectados.

http://spark.apache.org/graphx/
Herramientas Grafos

Monografias.com

Otras herramientas

Monografias.com

Conclusiones
La comprensión total del lenguaje natural es un objetivo aún distante. Pero existen hoy en día, herramientas y sistemas útiles para resolver problemas varios problemas prácticos de PLN.

El reto consiste en encontrar la correcta adecuación entre los diferentes tipos de problemas y las herramientas disponibles para resolverlos.

Los enfoques basados en grafos para representar textos representan una alterniva interesante para etraaer la información lingüística relevante.

Usados adecuadamente, los métodos estadísiticos de PLN (… deep learning), han abierto nuevas posibilidades para el análisis y comprensión de los textos.

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter