El Problema de la Extracción Automática de Conocimiento



Monografias.com
1 ¿Qué es aprendizaje? (visión genérica, Mitchell 1997) es mejorar el comportamiento a partir de la experiencia. Aprendizaje = Inteligencia. (visión más estática) es la identificación de patrones, de regularidades, existentes en la evidencia. (visión externa) es la predicción de observaciones futuras con plausibilidad. (visión teórico-informacional, Solomonoff 1966) es eliminación de redundancia = compresión de información. El Problema de la Extracción Automática de Conocimiento La minería de datos no es más que un caso especial de aprendizaje computacional inductivo. Aprendizaje Inductivo: razonamiento hipotético de casos particulares a casos generales.
Monografias.com
2 ¿Cómo se validan/descartan las hipótesis para conformar el conocimiento adquirido? Principio (‘escándalo’) de la Inducción: las hipótesis pueden ser refutadas, pero nunca confirmadas. Y para las que todavía no han sido refutadas, ¿cuál elegimos? Necesidad de criterios de selección: simplicidad, refuerzo, ... Existencia de métodos de validación: estadísticos, cross-validation, informacionales, ... ¿Cuánto afecta a la plausibilidad el número de ejemplos? ¿Cómo afecta la presencia de ruido? El Problema de la Extracción Automática de Conocimiento
Monografias.com
3 Taxonomía de Técnicas de DM Clasificación de las técnicas de aprendizaje: Interpolación: una función continua sobre varias dimensiones Predicción secuencial: las observaciones están ordenadas secuencialmente. Se predice el siguiente valor de la secuencia. Caso particular de interpol. con 2 dim., una discreta y regular. Aprendizaje supervisado: cada observación incluye un valor de la clase a la que corresponde. Se aprende un clasificador. Caso particular de interpolación: la clase (imag. función) es discreta. Aprendizaje no supervisado: el conjunto de observaciones no tienen clases asociadas. El objetivo es detectar regularidades en los datos de cualquier tipo: agrupaciones, contornos, asociaciones, valores anómalos. Abducción o Aprendizaje Analítico: El contexto B es muy importante. El objetivo es explicar la evidencia respecto a B. Predictivos Descriptivos Explicativos Inductivos Abductivos Cualquier problema de aprendizaje inductivo se puede presentar (más o menos directamente) de cualquiera de estas cuatro formas.
Monografias.com
4 Ejemplos: Interpolación: Predicción secuencial: 1, 2, 3, 5, 7, 11, 13, 17, 19, ... ? Aprendizaje supervisado: 1 3 -> 4. 3 5 -> 8. 4 2 -> ? 7 2 -> 9. Segmentación (Aprendizaje no supervisado): ¿Cuántos grupos hay? ¿Qué grupos formo? Predictivos Descriptivos Taxonomía de Técnicas de DM f(2.2)=? ? Análisis Exploratorio: Correlaciones, Asociaciones y Dependencia
Monografias.com
5 PREDICTIVO: Interpolación y Predicción Secuencial. Generalmente las mismas técnicas: Datos continuos (reales): Regresión Lineal: Regresión lineal global (clásica). Regresión lineal ponderada localmente. Regresión No Lineal: logarítmica, pick & mix, ... Datos discretos: No hay técnicas específicas: se suelen utilizar técnicas de algoritmos genéticos o algoritmos de enumeración refinados. Taxonomía de Técnicas de DM
Monografias.com
6 PREDICTIVO: Aprendizaje supervisado. Dependiendo de si se estima una función o una correspondencia: clasificación: se estima una función (las clases son disjuntas). categorización: se estima una correspondencia (las clases pueden solapar). Dependiendo del número y tipo de clases: clase discreta: se conoce como “clasificación”. Ejemplo: determinar el grupo sanguíneo a partir de los grupos sanguíneos de los padres. si sólo tiene dos valores (V y F) se conoce como “concept learning”. Ejemplo: Determinar si un compuesto químico es cancerígeno. clase continua o discreta ordenada: se conoce como “estimación” (o también “regresión”). Ejemplo: estimar el número de hijos de una familia a partir de otros ejemplos de familias. Taxonomía de Técnicas de DM
Monografias.com
7 PREDICTIVO: Aprendizaje supervisado (Clasificación). Técnicas: k-NN (Nearest Neighbor). k-means (competitive learning). Perceptron Learning. Multilayer ANN methods (e.g. backpropagation). Radial Basis Functions. Decision Tree Learning (e.g. ID3, C4.5, CART). Bayes Classifiers. Center Splitting Methods. Rules (CN2) Pseudo-relational: Supercharging, Pick-and-Mix. Relational: ILP, IFLP, SCIL. Taxonomía de Técnicas de DM Similarity-Based Fence and Fill
Monografias.com
8 DESCRIPTIVO: Análisis Exploratorio Técnicas: Estudios correlacionales Asociaciones. Dependencias. Detección datos anómalos. Análisis de dispersión. Técnicas de Aprendizaje Automático
Monografias.com
9 DESCRIPTIVO: Segmentación (Aprendizaje no supervisado) Técnicas de clustering: Taxonomía de Técnicas de DM k-means (competitive learning). redes neuronales de Kohonen EM (Estimated Means) (Dempster et al. 1977). Cobweb (Fisher 1987). AUTOCLASS ...
Monografias.com
10 Un concepto importante en el aprendizaje supervisado (clasificación) y no supervisado (segmentación) es el concepto de similitud: La razón de este uso es que, intuitivametne, datos similares tendrán clases/grupos similares. ¿Cómo se mide la similitud? DISTANCIA inversa a SIMILITUD. Los métodos de similitud (o de distancia) se basan en almacenar los ejemplos vistos, y calcular la similitud/distancia del nuevo caso con el resto de ejemplos. Similitud/Distancia