sábado, 30 de noviembre de 2013

Data mining

                        


DATA MINING


ÍNDICE

1.    INTRODUCCIÓN

2.    ANTECEDENTES HISTÓRICOS

3.    MARCO TEÓRICO

4.    IMPORTANCIA PARA EL ÁMBITO JURÍDICO

5.    CONCLUSIONES

6.    BIBLIOGRAFÍA




1.- INTRODUCCION

Nos encontramos en una realidad en la cual en el quehacer cotidiano cada vez se encuentra más digitalizado por lo que se va generando constantemente datos; por ejemplo al comprar en una tienda y pasar la tarjeta.
Así las bases de datos aumentan masivamente hasta convertirse en un almacén de datos que ha crecido  en los últimos años; el problema  surge al momento de procesarlos y utilizarlos frente a esta situación se presenta esta tecnología emergente  Data Mining  que es una tecnología de apoyo.
De este caos  es posible desentrañar patrones o pautas sobre nuestro comportamiento para elaborar modelos predictivos y aplicarlos a diferentes ámbitos de  la vida de la persona humana y no será la excepción la ciencia del derecho donde existe una gran cantidad de datos para poder de esta manera facilitar la administración del derecho.
Por ello en este trabajo se dará a conocer en primer lugar como es que se ha surgido este proceso, como se aplica en diferentes ámbitos de la vida de la persona, y fundamentalmente como beneficia al ámbito jurídico y como es que nosotros futuros abogados podemos  aprovechar este proceso.




MINERIA DE DATOS

2.    ANTECEDENTES HISTORICOS:
Originalmente iba a ser llamado "la máquina de aprendizaje práctico" y el término "minería de datos" se dio por razones de marketing.  Así [1]desde los años sesenta los estadísticos manejaban términos como data fishing, data mining o data archaeology.
En los años ochenta  Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro  empezaron a consolidar los términos de data mining y finales de los años ochenta  existían  empresas dedicadas a esta tecnología.
Esta[2] es  la primera ciencia históricamente que extrae la información de los datos básicamente mediante metodologías procedentes de las matemáticas. Posteriormente con el incremento de tamaño y la estructuración de los datos; es  cuando se empieza a hablar de minería de datos.
En 1999 Dorian Pyle publicó un libro llamado “Data Preparation for Data Mining” en el que propone una manera de usar la Teoría de la Información para analizar datos.  
En el año 2002 existían más de 100 empresas en el mundo que ofrecían alrededor de 300 soluciones. Las listas de discusión sobre este tema las forman investigadores de más de ochenta países.

En la [3]actualidad la Minería de Datos ha sufrido transformaciones en los últimos años, por los cambios tecnológicos, estrategias de marketing y la extensión de los modelos de compra en línea.
Y así en los sistemas de enseñanza y en la minería de datos son áreas basadas en la web y con un gran crecimiento, por lo que su unión está despertando interés entre los investigadores y las empresas.
La minería de datos sirve para poder:
·         Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años.
·         En algunos casos, los datos se consolidan en un almacén de datos y en mercados de datos; en otros se mantienen en servidores de Internet e intranet.
·         Las herramientas de la minería de datos ayudan a extraer la información enterrado en archivos corporativos o en registros públicos, archivados.

Actualmente es utilizado en distinta  áreas de aplicación  como financieras y
bancarias, análisis de mercado, distribución y comercio en general:

·         Clasificar un dato dentro de una de las clases categóricas, preguntas tales como: ¿Cual es el riesgo de conceder un crédito a este cliente?
·         Agrupar registros, observaciones o casos en clases de objetos similares.
·         Generar reglas en referencia al descubrimiento de relaciones de asociación.
·         Además la minería de datos produce cinco tipos de información: Asociaciones, secuencias, clasificaciones , agrupamientos y pronósticos

3.    MARCO TEÓRICO

·         CONCEPTOS:
DEFINICION TRADICIONAL
Un proceso [4]no trivial de identificación  válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos.
Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.
 DEFINICION EMPRESARIAL:
En  este ámbito es la[5] integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión.
Pero lo que en verdad hace el data mining es reunir las ventajas de varias áreas como la estadística, la inteligencia artificial, la computación gráfica, las bases de datos y el procesamiento masivo, usando como materia prima las bases de datos.
·         INCIDENCIA EN ORGANIZACIONES
a)    En la Empresa
-       Detección de fraudes en las tarjetas de crédito
-       Descubrimiento del porque de la deserción de los clientes en una compañía.
-       Hábitos de compra en supermercados.
-       Prediciendo el tamaño de las audiencias televisivas.
-       Identificación de patrones de compra de los clientes.
-       Búsqueda de asociaciones entre clientes y características demográficas.
-       Predicción de respuesta a campañas de correo.
-       Análisis de cestas de la compra

b)    Transportes
-       Determinación de la planificación de la distribución entre tiendas.
-       Análisis de patrones de carga

c)    Elecciones.
-       Cotejar grandes bases de datos sobre hábitos de consumo y encuestas para conocer con detalle las inquietudes y los intereses del votante y así perfilar mejores campañas.

d)    Medicina.
-       Reunir grandes bases de datos biológicos para emplearlas en la detección a tiempo de tumores, demencias o alzhéimer.

·         QUÉ TIPO DE HERRAMIENTA ES

Qué tipo de herramienta es: Es un software?, un indicador de gestión?, un aplicativo y/o guía de buenas prácticas en la implementación de Tecnologías de Información?, etc.  En qué estado de desarrollo se encuentra (Versión 1, 2, 3….) si es que corresponde, etc.
¿QUÉ TIPO DE HERRAMIENTA ES?
Es una tecnología compuesta por etapas que integran  varías áreas. En esencia es un programa compuesto por varias herramientas, el cual no debe ser confundido con un software. Durante el 
desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadísticas, de visualización de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementándose con otra herramienta.
Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento acabado de la información (knowledge-driven).

Cómo había mencionado anteriormente el Data Mining  es un gran programa el cual utiliza técnicas para su desarrollo, las cuales son: 
Redes neuronales artificiales,  Arboles de decisión,  Algoritmos genéticos,  Método del vecino más cercano,  Regla de inducción; las cuales desarrollaremos a continuación:
·         Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son:
·         El perceptrón.
·         El perceptrón multicapa.
·         Los mapas autoorganizados, también conocidos como redes de Kohonen.
·         Regresión lineal.- Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.
·         Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos:
·         Algoritmo ID3.
·         Algoritmo C4.5.
·         Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.
·         Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos:
·         Algoritmo K-means.
·         Algoritmo K-medoids.
·         Reglas de asociación.- Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.
El Data Mining está soportado por tres tecnologías que ya están suficientemente maduras: Recolección masiva de datos, Potentes computadoras con multiprocesadores y Algoritmos de Data Mining,
Dadas las bases de datos de suficiente tamaño y calidad, la tecnología de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades: Predicción automatizada de tendencias y comportamientos. Descubrimiento automatizado de modelos previamente desconocidos.

·         ESTADO DE DESARROLLO

La Minería de Datos ha sufrido transformaciones en los últimos años de acuerdo con cambios tecnológicos, de estrategias de marketing, la extensión de los modelos de compra en línea, etc. Los más importantes de ellos son:
·         La importancia que han cobrado los datos no estructurados (texto, páginas de Internet, etc.).
·         La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet, etc.
·         La exigencia de que los procesos funcionen prácticamente en línea (por ejemplo, en casos de fraude con una tarjeta de crédito).
·         Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un modelo válido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo real.

Las bases de datos comerciales están creciendo a un ritmo sin precedentes. Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontró que el 19% de los que contestaron están por encima del nivel de los 50 Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre de 1997. En algunas industrias, tales como ventas al por menor (retail), estos números pueden ser aún mayores. MCI Telecommunications Corp. cuenta con una base de datos de 3 terabytes + 1 terabyte de índices y overhead corriendo en MVS sobre IBM SP2. La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma más costo - efectiva con tecnología de computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining utilizan técnicas que han existido por lo menos desde hace 10 años, pero que sólo han sido implementadas recientemente como herramientas maduras, confiables, entendibles que consistentemente son más performantes que métodos estadísticos clásicos.
En la evolución desde los datos de negocios a información de negocios, cada nuevo paso se basa en el previo. Por ejemplo, el acceso a datos dinámicos es crítico para las aplicaciones de navegación de datos (drill through applications), y la habilidad para almacenar grandes bases de datos es crítica para Data Mining.
Los componentes esenciales de la tecnología de Data Mining han estado bajo desarrollo por décadas, en áreas de investigación como estadísticasinteligencia artificial y aprendizaje de máquinas. Hoy, la madurez de estas técnicas, junto con los motores de bases de datos relacionales de alta performance, hicieron que estas tecnologías fueran prácticas para los entornos de data warehouse actuales.

Así, día tras día las tecnologías que utiliza el data mining van avanzando y creciendo haciendo más vulnerable el acceso a información privada, como el crecimiento del conocimiento web.


4.    IMPORTANCIA PARA EL ÁMBITO JURÍDICO


a)    Utilidad para el abogado en su ejercicio profesional
Habiéndose establecido ya lo que la minería de datos es capaz de proporcionar y la definición de éste mismo en diferentes perspectivas , toca avocarnos a tratar la utilidad o beneficios que pudiese tener para el abogado en ejercicio . Es así que podríamos señalar que la minería se datos se avoca o juega su papel más importante en el campo empresarial, dado que , como se mencionó líneas arriba permite detección de fraudes en las tarjetas de crédito , la deserción de los clientes en una compañía , entre otras . Es virtud de lo mencionado , esto  nos lleva a relacionarlo inmediatamente  con el abogado que ejerce su profesión respecto de la rama empresarial en razón de que el perfil de éste abogado se vincula al estudio  y análisis de instituciones jurídicas vinculadas a movimientos y estrategias de éstas mismas .
Establecemos que la minería de datos se constituye como una herramienta fundamental en este campo , en base a que la información obtenida ayuda a los usuarios a elegir cursos de acción y a definir estrategias competitivas , porque conocen información que solo ellos pueden emplear . Así mismo mediante modelos avanzados y reglas de inducción se puede examinar gran cantidad de datos y encontrar patrones difíciles de identificar a simple vista . [6]
Por tanto un abogado empresarial puede recabar información y datos con los cuales pudiese dar un mejor asesoramiento a la empresa para la que labora ya que al conocer , dominar e interpretar este sistema puede no solo detectar malos manejos empresariales , sino también prever posibles desfalcos , estrategias comerciales y de logística. De otro lado se puede brindar a los usuarios o en todo caso clientes de la empresa ,  información más precisa , completa y verás sin que ésta pueda ser manipulada o monitoreada por cualquier  persona . Finalmente el abogado conocedor de este sistema puede dar un mejor y completo alcance a los accionistas o junta directiva del manejo económico y legal de la empresa en base a los datos recabados .
Con la minería de datos el abogado empresarial  puede  detectar problemas rápidamente , solucionar los mismos y darle cierto valor agregado ; por lo que podríamos hablar de una nueva información o datos obtenidos respecto de detalles que antes no habían sido estudiados a fondo . Hablamos entonces  de que el abogado brindaría una información repotenciada que sin lugar a dudas sirve para poder elaborar estadísticas, balances y tendencias de la empresa .

b)    Utilidad a la administración de justicia en su proceso de modernización

En el apartado anterior hemos puesto de  relevancia que la minería de datos sirve y es de mucha utilidad en el ámbito empresarial . Toca ocuparnos ahora de la utilidad que brinda para una mejor administración de justicia . Es así que mediante este sistema los datos obtenidos proporcionan un nuevo enfoque y nuevos indicadores que pueden ser empleados para la revaloración de casos , expedientes o evitar que se archive un proceso . Sostenemos esta idea dado que al poder darle un valor agregado a los datos , contar con mejores y nuevas herramientas en base a una información primaria , el abogado y en sí una institución jurídica   puede no solo dar cuenta a las partes del avance en el proceso sino que además puede asegurar que los datos o información recolectada que es de relevancia para el proceso esté debidamente resguardada y sea utilizada correctamente en el caso . 

c)    Sirve a la administración pública dentro de sus políticas de mayor transparencia y acercamiento a la población.

La minería de datos: “La herramientas de minería de datos permiten extraer patrones, tendencias y regularidades para describir y comprender mejor los datos y para predecir comportamientos futuros”[7] Entendiendo el fragmento extraído, la minería de datos utiliza una serie de herramientas para poder identificar lo que el usuario o en este caso la administración pública desee obtener, así tales por ejemplo datos estadísticos respecto a cuantos matrimonios, terminaron con el divorcio , cuántos hijos extramatrimoniales hay, entre otros. La minería de datos, en el entendido anterior, serviría a la administración pública en su política de transparencia puesto que mediante ésta, se puede dar a los administrados una opción para que ellos puedan ver los datos almacenados y que los administrados puedan tener acceso a éstas con el objeto de informarse más acerca de los movimiento y acciones que realiza la administración pública; por otro lado Aaron Swartz (2012) indicaba “que encontramos distintos tipos de personas que se entremezclan en este contexto: los curiosos que quieren conocer dónde van a parar sus impuestos; los activistas que creen que al revelar los datos sobre lo que hace el Gobierno en realidad pueden detener la corrupción; y las empresas que pueden aprovecharlo para generar aplicaciones de valor añadido”, así mismo asevera que hay ciertos organismos competentes para hacer un control más minuciosos y que se encarga de verificar como se utilizan los aportes que se hace al Estado mediante distintos tipos de actividades y que la transparencia no es completamente para los administrados en general, si bien es cierto tiene  derecho a acceso a  la información pública hay ciertos datos que son propios del estado y hay entes competentes para realizar el control y velar por nuestros derechos a la vez, respecto al acercamiento a la población, de hecho el uso de la minería de datos crearía un gran acercamiento puesto que descubrirán que pueden ser participes del desarrollo de nuestro país ver cómo ha ido evolucionando, como es que han variado ciertas cosa y como hoy por hoy podemos usar los datos más relevantes tal vez en tan solo un clic. Por ende gracias a que los datos almacenados y a raíz de ello la disposición de los datos de diferentes formas, permiten un mayor acercamiento  a la población, puesto que así podrán darse cuenta de la situación en la que se encuentra su país.


d)    Están los abogados hoy en día preparados para someterse a reformas con mayor incidencia de las TIC
Las TIC son tan importantes para potenciar el cambio de las relaciones económicas y sociales, como hace siglo y medio, con el desarrollo de la industrialización lo fueron la incorporación de la electricidad y posteriormente las telecomunicaciones.[8]
A manera de introducirnos en este punto, el  28 de Octubre de 2011 en la ciudad de Cádiz, se celebra el 1º Encuentro Nacional de Abogados TIC, dichos miembros proponen la digitalización de la abogacía  en tal entendido los abogados de Perú también estarían preparados para someterse a reformas en las que haya mayor incidencia de las TIC puesto que nos podría ahorrar trámites engorrosos, además de permitirnos ahorrar en materiales como papel, ya que esto conlleva a que los documentos queden traspapelados y muchas veces en el olvido, si se usan más las tecnologías de la información y la comunicación se podría evitar pérdidas de dichos documentos o atentados contra estos como ocurrió en la época de terrorismo en el Perú en el que se sabe que los terroristas mataron a personas y para ocultar según ellos las evidencias decidieron quemar las municipalidades para que así desaparezcan las partidas de nacimiento  de  dichas personas, si las TIC entraran en funcionamiento como reformas ya, no ocurriría tales cosas ya que todo estaría almacenado en una base de datos, además se podría tenerlos también en físico con una simple impresión y lo importante es que podemos mantener el documento por más que físicamente se haya perdido.

Otro punto es que si el Perú se pone de acuerdo en poner más en funcionamiento las TIC los trámites para los administrados, los que requieren que se tutelen sus derechos sería mucho menos complicado y se ahorraría gastos innecesarios, se debe entender también que hay abogados de toda edad, es claro que para los de edad avanzada será más difícil puesto que estaban acostumbrados a trámites más físicos, incluso más tradicionales y antiguos que actualmente; y el uso de las TIC para ellos se tornaría más complicado pero no imposible, motivo por el cual el uso de las TIC en las reformas en términos generales sería de mucha ayuda  para la función jurisdiccional.

5.    CONCLUSIONES

·         Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro  empezaron a consolidar los términos de data mining; Dorian Pyle publicó un libro llamado “Data Preparation for Data Mining” en el que propone una manera de usar la Teoría de la Información para analizar datos.

·         Las herramientas de la minería de datos ayudan a extraer la información enterrada en archivos corporativos o en registros públicos, archivados. Explora datos para sacar la información oculta.

·         Reunir las ventajas de varias áreas como la estadística, la inteligencia artificial, la computación gráfica, las bases de datos y el procesamiento masivo, usando como materia prima las bases de datos.

·         Predicen futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento acabado de la información

·         Con la minería de datos el abogado empresarial  puede  detectar problemas rápidamente , solucionar los mismos y darle cierto valor agregado

·         los datos obtenidos proporcionan un nuevo enfoque y nuevos indicadores que pueden ser empleados para la revaloración de casos , expedientes o evitar que se archive un proceso

·         el uso de las TIC para ellos se tornaría más complicado pero no imposible, motivo por el cual el uso de las TIC en las reformas en términos generales sería de mucha ayuda  para la función jurisdiccional.













6.    BIBLIOGRAFIA



·         Evolución Historia de la Minería de Datos:http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos(4 de agosto 2013)
·         ROMERO MORALES, Estado actual de la aplicación de la minería de datos a los sistemas de enseñanza basada en web pag. 51

·         Fayyad ,Introducción a la minería de datos.1996 (DIGITAL)

·         Molina, Minería de Datos (DIGITAL)

·         Ángeles y Santillán , Minería de Datos : concepto , características , estructura y aplicaciones(DIGITAL)

·         Cardona Madariaga Diego, Las tecnologías de la información y las comunicaciones-TIC- en la relación administración pública ciudadano caso Colombia- Perú, Universidad del Rosario: Bogotá, p. 57.



[2]Evolución Historia de la Minería de Datos:http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos(4 de agosto 2013)
[3] ROMERO MORALES, Estado actual de la aplicación de la minería de datos a los sistemas de enseñanza basada en web pag. 51
[4] Fayyad ,Introducción a la minería de datos.1996 (DIGITAL)
[5] Molina, Minería de Datos (DIGITAL)
[6] Ángeles y Santillán , Minería de Datos : concepto , características , estructura y aplicaciones(DIGITAL)
[7] Pérez López, Cesar; Sanatín Gonzales Daniel, Minería de datos técnicas y herramientas, España, Magallanes p.2
[8] Cardona Madariaga Diego, Las tecnologías de la información y las comunicaciones-TIC- en la relación administración pública ciudadano caso Colombia- Perú, Universidad del Rosario: Bogotá, p. 57.

No hay comentarios:

Publicar un comentario