Minería de datos, un estimulante panorama laboral



En los últimos años, el crecimiento de la información, debido básicamente al gran poder de procesamiento de las máquinas como a su bajo costo de almacenamiento, dentro de estas enormes masas de datos existe una gran cantidad de información oculta muchas de ellas de gran importancia estratégica para el negocio, a la que no se puede acceder por las técnicas clásicas de recuperación de la información.

El descubrimiento de esta información oculta es posible gracias a la Minería de Datos (DataMining), que entre otras técnicas como la inteligencia artificial para encontrar patrones y relaciones dentro de los datos (variables), creación de modelos, es decir, representaciones abstractas de la realidad, pero es el descubrimiento del conocimiento (KDD, por sus siglas en inglés) que se encarga de la preparación de los datos y la interpretación de los resultados obtenidos, los cuales dan un significado a estos patrones encontrados. El valor real de los datos reside en la información que se puede extraer de ellos, información que ayude a tomar decisiones y mejorar la comprensión de los fenómenos que nos rodean. Hoy los métodos analíticos son el arma secreta de muchos negocios exitosos. Aplicando métodos analíticos avanzados para la explotación de datos, los negocios incrementan sus ganancias, maximizan la eficiencia operativa, y reducción de costos.

En Ecuador, tan solo una Universidad forma especialistas a nivel de Diplomado en este campo desde hace aproximadamente dos años, sin dejar de lado como materias optativas en Facultades de Ingeniería en Sistemas y Ciencias Exactas. La oportunidad laboral en el país exige ya de especialistas en este campo por ejemplo en Instituciones Financieras, Recaudación de Impuestos, Telefónica, Bancario y en pequeñas empresas. Los que más aplican a este puesto son Ingenieros en Sistemas, Economistas, Estadísticos, etc., debido a la falta de profesionales en esta especialidad. El país tan solo cuenta con tres especialista preparados en el exterior.

DATOS ELECTORALES, GIS Y MINERIA DE DATOS

La Maestría en Minería de Datos que se cursa en la Universidad de Buenos Aires, se demostró que la minería de datos espaciales es un campo de investigación promisorio con aplicaciones en percepción remota, GIS (Sistema de Información Geográfica), en este campo se aplicó con los datos de las elecciones presidenciales del Ecuador en el año 2009.

Uno de los principales retos de los políticos y consultores para tener campañas de precisión, funcionales y exitosas. Son las bases de datos que son minas de oro en una campaña que se encamina a ser precisas, que al tener una correcta base de datos los consultores y clientes podrán saber quiénes son sus electores o gobernadores, así como conocer la información de ellos.

Al construir la base de datos está debe ser funcional, con datos (estadísticos) y blandos (de opinión publica) todos estos aplicados a la minería de datos espacial, se podrá obtener un máximo aprovechamiento de los recursos de la campaña y llegar a los grupos adecuados.

El saber manejar el software de base de datos no es suficiente, sino como consultarle, que buscar en ella, en donde usar los datos. Para tal efecto SIG y minería de datos, gracias a sus herramientas, así como adecuados equipos y personal capacitado para usarlo. Un mapa creado por GIS, no es un mapa común y corriente, sino un mapa que interactúa con una base de datos, mostrando la ubicación precisa en diferentes capas de información, necesaria para crear una estrategia de campaña correcta. Estos mapas pueden tener varias capas como información que tenga en su base de datos que se presenten correctamente mostrando datos estadísticos valiosos en el área de la geografía electoral.

La mezcla de herramientas descritas anteriormente, con especialistas en SIG, bases de datos, opiniones públicas, minería de datos espaciales, consiguiendo tener una estrategia de campaña fuerte y precisa. La construcción de una base de datos de datos de esta naturaleza lleva tiempo, en la planificación, análisis y hasta requiere una cierta pasión para manejar enormes volumen de datos. Pero el costo no es el factor principal, es más bien el software como MapInfo, Arview que vienen incorporados herramientas de exploración de datos espaciales que cuesta alrededor de 1200 y cursos que son disponibles con frecuencia.

En conclusión lo más significativo al desarrollar un proyecto de esta magnitud es la posibilidad de realizar consultas, observaciones e interpretaciones desde el punto de vista territorial a partir del manejo conjunto de las descripciones temáticas y de localización, siendo esto un valor agregado que adquiere la información estadística.

EL FÚTBOL BASADO EN NÚMEROS

"Indicadores que podrían utilizarse para el análisis del mundial y ver si las sensaciones que generó se respaldan en los fríos números".

Estimados amigos:

Hace aproximadamente tres meses terminó el mundial de fútbol, dejando como ganadora a la selecciona española, hoy son los análisis de la gente vinculado a este deporte donde entra en juego diferentes fuentes de datos que proveen información de los equipos, fotos de los jugadores, sus carreras en equipos de liga, campeonato y cuerpos técnicos. Uno de los lugares de donde se pueden obtener dichos datos es Internet.

Por ejemplo, la página de la Federación Internacional de Fútbol Asociado (FIFA) contiene estadísticas a nivel jugador: cantidad de partidos jugados, tiros al arco, pases, distancia recorrida, pelotas recuperadas y muchísimos otros datos de interés.

Se generó un conjunto de datos que contiene indicadores concernientes a características defensivas, ofensivas y de juego (en total 15 variables), que están disponibles en el sitio oficial del mundial, relacionadas a los 599 jugadores que participaron en al menos un minuto en la última copa del mundo.

Se aplicó una segmentación, también conocida como clustering o agrupaciones por medio del software SAS Enterprise Miner, a los datos disponibles: Los volantes ofensivos y delanteros no definidores tuvieron una alta cantidad de tiros al arco, al igual que asistencia, corrieron mucho, pero muy pocos pudieron plasmar en la red todo el esfuerzo que hicieron. Se trata entre otros de: Messi (delantero argentino que apuntó al arco en treinta ocasiones y no pudo convertir), Cristiano Ronaldo, Alexis Sánchez, Kaka, Gerrard y Park. Diego Forlan, que fue elegido como el mejor del mundial, está dentro de los "máximos goleadores" junto a Higuain, Asamoah Gyan, Villa, Klose, Luis Fabiano, Vittek y Sneijder.

Por medio de la aplicación de técnicas de Minería de Datos pueden obtenerse resultados de alto valor. Así como se aplicó una técnica de extracción de conocimiento a jugadores de fútbol, puede ser utilizado para analizar el comportamiento de clientes, transacciones, puntos de venta y cualquier otro tipo de entidad del que se busque sacar conocimiento para luego obtener beneficios de negocio.

EL COMPONENTE TECNOLÓGICO Y LAS PYMES

"La Inteligencia de negocios, solución para manejar grandes volúmenes de datos y toma de decisiones."

Estimados amigos:

Los negocios en el Ecuador específicamente las PYMES, según la Encuesta Nacional de la Microempresa realizada en el 2009, existen alrededor de 660 mil pymes en el Ecuador son de origen domestico y su debilidad más grande está en la poca aplicación del manejo de la información integrada, desarrollo organizacional, estandarización de los procedimientos de los flujos administrativos de la empresa, pero aún, tener la habilidad para manejar datos heterogéneos, redundantes y a veces inconsistentes, sobre los cuales se suelen tomar decisiones.

La globalización, el dinamismo y la integración de mercados generan grandes cantidades de datos, los cuales no pueden ser aprovechados por las herramientas tradicionales de manera que les permita a las organizaciones hacer frente a los retos y exigencias del mundo actual. Un componente de la Inteligencia de Negocios o BI por sus siglas, son los almacenes de datos o Data Warehouse. Un almacén de datos que es un repositorio central de datos históricos de toda la organización, de esta manera provee un ambiente para que se haga un mejor uso de la información que está siendo administrada por diversas aplicaciones operacionales.

Los datos históricos de la organización al tenerlos en un solo almacén simplifican el problema de acceso a la información, por lo tanto facilita el proceso de análisis. Para llevar a cabo el análisis y acceso de los usuarios a los datos del almacén, se requiere de herramientas apropiadas de explotación. BI proporciona algunos componentes para realizar esta tarea los sistemas OLAP que son sistemas de procesamiento analíticos en línea, que permiten realizar un análisis multidimensional de los datos, el cual ofrece un enfoque más realista del negocio. Y por otro lado la Minería de Datos se enfoca en la exploración de datos para detectar patrones o relaciones entre los mismos, es decir permite a los analistas entender los factores de éxito del negocio. Estimado con la aparición de las herramientas tecnológicas, las empresas verán beneficios en la administración, en la mayoría de sus procesos.

EL DESTINO DE NUESTROS DATOS

"La estadística y sus millones de datos, todo un inmenso abanico de posibilidades de análisis de la información".

Estimados amigos:

A dos días de haberse realizado el Censo de Población y Vivienda en el país, donde recoge una amplia recopilación de información de personas, estructura de hogares, edificios, etc. La gran pregunta de la mayoría de ciudadanos es ¿qué destino tendrán los datos?, estos pueden ser interesantes, para integrarlos con información gráfica o geográfica. Se puede utilizar para ver los resultados de determinadas políticas públicas o como elemento de toma de decisiones del lugar geográfico o ámbito social donde se deben aplicar estas políticas. A nivel privado se podrían utilizar para complementar estudios de mercado (en decisiones como la ubicación de un supermercado, un centro de diversión o algo similar), para campañas de publicidad específica o emails masivo, etc.

El análisis de datos del censo da origen a encontrar grupos étnicos y religiosos por zonas como influyen por ejemplo en el consumo de drogas, natalidad, etc.). Conocer niveles económicos de las zonas según el pago de impuestos. La información (datos estadísticos procesados) se constituye patrimonio de una institución, pero cuando se le saca provecho, se le compara, se agrega, se jerarquiza, se especifica rangos, se determina proporciones, se les proyecta, o se pronostica con determinado rango de precisión, ya sea en un momento en el tiempo o a través de él.

Para asegurar el procesamiento de información el INEC contó con la asesoría especializada en censos de Consult DataMining firma internacional con amplia experiencia en el procesamiento de grandes bases de datos conjuntamente con técnicas Data Mining o Minería de datos aplicados por primera vez en el país. Así mismo capacitando a todo el personal en procedimientos estadísticos e informáticos como también la utilización de software para el manejo de toda la información con los que se efectúan diferentes análisis acorde a la naturaleza de los datos, basados en la teoría estadística.

 

 

Autor:

Roberto Camana