Читать книгу: «Big data. IFCT128PO», страница 2

Шрифт:

2.4. Evolución del análisis de datos: el data mining

HILO CONDUCTOR

Pero, ¿cómo podría TextilTek, S. L. anticiparse a sus rivales y diseñar una estrategia de marketing eficiente? La respuesta está en el data mining.

El estudio del BI podría abarcar perfectamente un curso completo, pero ese no es el objetivo, aunque resulta esencial para poder situarnos en un contexto adecuado para lo que viene después. Paralelamente, y con el objetivo de cubrir ciertas carencias del BI nace el data mining.

A finales de los años 80 surge una nueva expresión, el data mining o minería de datos, que consiste en buscar y extraer información y conocimiento de los datos mediante patrones y modelos que ayuden a estudiar el posible resultado en acciones que ocurrirán en el futuro.

¿Por qué llamar así a este procedimiento?

El data mining se basa en un procedimiento que intenta descubrir patrones de información en conjuntos de datos masivos, siendo semejante a un proceso de minería. Es precisamente por esto que la denominación de este término proviene de la analogía que se hace con los trabajos que se realizan para extraer materia prima valiosa de yacimientos en la tierra, la minería, pero en este caso en lugar de materia prima son datos obtenidos de grandes repositorios y bancos de datos.

Junto con el data mining, y unido a este término, tambien comienza a utilizarse el llamado KDD o Knowledge Discovery in Databases (en español, Descubrimiento del Conocimiento en Bases de Datos. La diferencia fundamental entre el KDD y el data mining es que para el primero es necesario un profundo conocimiento sobre el área a estudiar, mientras que para el segundo es necesario un conocimiento propiamente técnico.

En la siguiente imagen podrás ver muy resumidamente los pasos a seguir en un proceso de data mining:

Una técnica del data mining: el machine learning

HILO CONDUCTOR

TextilTek, S. L. está implantando con éxito tecnologías big data, concretamente el sistema de análisis con data mining le está dando buenos resultados, ya que en base a los datos que genera mediante las compras de los clientes y las áreas funcionales de la empresa, es capaz de anticiparse a las demandas de un mercado cada vez más saturado y exigente. Aunque la respuesta de los clientes está siendo mucho más positiva que con el antiguo sistema de alertas, el área de marketing ha desechado este y se basa en el análisis de redes sociales y el feedback para identificar los gustos de moda de los jóvenes.

El machine learning o aprendizaje automático no es más que otra consecuencia de la necesidad de una búsqueda y explotación de patrones de datos en bancos, con el objetivo de construir modelos que predigan las consecuencias que tendrán lo que en ese momento se está haciendo. Este método se comenzó a utilizar por los bancos en la década de los noventa para detectar posibles fraudes y estudio de créditos.

Pero el machine learning va más allá de esto, y es que es una rama de la inteligencia artificial. Se trata de crear algoritmos que sean capaces de aprender y tomar decisiones y, por tanto, de predecir acontecimientos. Esto se hace tomando información y construyendo ejemplos que generalizan comportamientos, por lo que la estadística representa una parte fundamental.

Actualmente esto tiene multitud de aplicaciones como, por ejemplo, los motores de búsqueda de internet, que aprenden tus hábitos para luego enviarte información que pueda interesarte. Seguramente lo hayas experimentado y te parezca algo incomprensible a priori, pero todo se deriva precisamente de esto.

PARA SABER MÁS

La inteligencia artificial cada vez más forma parte de nuestra vida. Puede ser una forma excelente de facilitárnosla, pero también implica riesgos como la sustitución de la mano humana por máquinas artificiales y una posible crisis de paro a nivel mundial. Para más curiosidades puedes visitar el siguiente artículo:


https://redirectoronline.com/ifct128po0103

2.5. Data science y el científico de datos

La aparición del concepto data science o ciencia de datos surge precisamente del desarrollo de las aplicaciones de data mining y engloba el conjunto de principios científicos y aplicados que definen cómo se extrae el conocimiento de los datos.

El concepto se introdujo en el nuevo milenio y su fin es englobar los principios en los que se basan los conceptos anteriores: matemáticas, estadística e informática para la extracción de información mediante patrones y relaciones de datos. Con el data science se pretende dar una explicación de la evolución sufrida por los procesos de obtención de conocimiento a partir de los datos y la entrada en la nueva era digital.

Tal ha sido la repercusión de esto que apareció la figura del científico de datos o persona que se especializa en el tratamiento de datos. En otras palabras, se trata de la conjunción de desarrollo de distintos conocimientos como la estadística mezclada con creatividad y la computología. Estas personas cuentan con unas habilidades muy concretas:


ACTIVIDAD COMPLEMENTARIA

1. Hasta ahora has podido seguir el caso de TextilTek S. L. en relación a la implantación de un sistema big data. ¿Podrías aportar ideas de cómo esta empresa podría recabar información y datos de las personas para adaptarse más a sus exigencias y gustos, y así llegar a más público?

3. Definiciones y bases del big data

HILO CONDUCTOR

TextilTek, S. L. es consciente de esto y, debido a su inexperiencia, ha decidido contratar a un profesional para que se encargue de la gestión del big data de la empresa de una manera más personal que la consultora tecnológica. Además, se encargará de darle formación básica al personal para que de aquí en adelante puedan entender a lo que se enfrentan.

Antes de proceder al estudio del big data, también llamados macrodatos, conviene que aprendas el significado de términos relevantes que envuelven el big data y que todo profesional de la materia debería saber y controlar.

Si bien es cierto que han aparecido importantes conceptos ya en puntos anteriores, conviene extender aún más el glosario, ya que la magnitud que abarca el big data es ciertamente enorme.


Nube de términos utilizados en big data

3.1. Conceptos clave

Como habrás notado, un término que aparece en infinidad de veces es el de datos, ya que es la esencia del big data. Conviene que aprendas algunos términos que definen los tipos de conjuntos de datos creados y otros relacionados con estos, ya que aparecerán en más ocasiones:

1 Algoritmo: conjunto o secuencia de operaciones sistemáticas, lógicas y finitas que permiten realizar un cálculo y encontrar la solución a un problema como, por ejemplo, analizar datos.

Analytics: forma en la que una información se puede capturar, procesar y analizar para convertirla en aprendizaje. Este proceso se ejecuta después del data mining.

Small data: menor que el big data. Este concepto define un volumen menor de datos con lo que se trabaja.

4 Datos estructurados y no estructurados: los datos estructurados cuentan con una estructura lógica ordenados en columnas y tablas, y es necesario que el sistema conozca el formato de los datos para su guardado, pero son una fuente menor de extracción de información para el big data. Los datos no estructurados o desorganizados, como los e-mail, son una fuente mayor de aprendizaje con fines comerciales para el big data. Además, el sistema los guardará sin una estructura definida, solo como una de datos codificada.

Dark data: son datos que si un sistema no está configurado específicamente para leerlos, se considerarán desconocidos.

Data cleansing: método por el cual los bancos de datos mantienen su integridad, evitando datos corruptos irrelevantes.

Data lake: gran volumen de datos o lago de datos en estado natural, donde el científico de datos o data scientist debe adquirir el conocimiento.

Dirty data: conjunto de registros de datos capturados en bruto y sin limpiar.

Fast data: datos que deben analizarse en tiempo real, ya que su período de información útil es corto.

10 Slow data: datos con información de larga duración.

11 Medium data: cantidad de datos suficiente para generar conocimiento, pero menor cantidad que el big data.

12 Predictive analytics: análisis predictivo de datos.

13 Deep learning: conjunto de algoritmos destinados al aprendizaje automático.


3.2. El término big data y sus definiciones

Tras una larga lectura de antecedentes y términos, con la finalidad de poder situarte en un contexto adecuado, estamos en posición de definir el big data. Como has visto, el recorrido que tiene detrás es muy amplio y con muchas connotaciones.

Big data ha significado una revolución en todos los campos de la tecnología y los negocios y, por ende, es necesario definirlo con todo lo que ello implica. Seguramente esto provoca que el término signifique muchas cosas y también nada en concreto, ya que su uso es global y está en expansión continuamente.


1 1. Definición base: el big data se puede definir como un conjunto de datos de un monstruoso tamaño que van a superar la capacidad del software existente para poder ser capturados, gestionados y procesados. Estos conjuntos de datos son caracterizados por las llamadas 3 V del big data: volumen, velocidad y variedad.

2 2. Definición según la perspectiva de negocio: el big data se puede entender como la oportunidad que bridan los datos para hacer negocios con ellos, una definición, cuanto menos, oportunista.

3 3. Definición según su dimensión tecnológica: el big data se entiende como una tecnología de información y comunicación en continuo crecimiento y evolución. En esta se introducen las tecnologías concretas que hacen posible esto, como los softwares de almacenamiento y gestión, aunque no es demasiado acertado introducirlos aquí.

4 4. Definición como la revolución del conocimiento: podemos ver el big data como la luz que ilumina todos los datos que han permanecido en la oscuridad, como una forma de eliminar las barreras tecnológicas en cuanto a adquisición de conocimiento. Los datos no solo sirven para justificar hechos, sino para crearlos.

5 5. Definición como una cultura: debido a su incidencia en el mundo, el big data forma parte de nuestra cultura, afectando a la sociedad en su comportamiento y forma de ver la vida.

6 6. Definición como señales: podemos ver los datos como oportunidades de negocio, señales para anticiparse a acontecimientos y obtener ventaja de ellos como, por ejemplo, prevenir enfermedades a través de la investigación o crear estructuras sostenibles en la sociedad.

7 7. Definición como una metáfora: esta visión surge del llamado internet de las cosas. Los seres humanos somos un sensor más que arroja información al planeta y somos parte del sistema nervioso del mismo, y el internet de las cosas representa los cables por los cuales circula la información.

4. Bases de establecimiento del big data

Ya hemos visto que el big data tiene su origen en el uso del data mining de las grandes empresas tecnológicas que surgieron primeramente en Silicon Valley gracias a la invención del transistor de silicio que tras suponer una revolución se crearían empresas tan importantes hoy día como AMD, Intel o Google, además de otras.


Sede de Google en Silicon Valley (© Fotografía: Benny Marty / Shutterstock.com)

Pero no es hasta finales de los noventa cuando nace el World Wide Web o las WWW cuando las empresas se encuentran con un verdadero problema, el de la imposibilidad de explotar estos bastos bancos de datos para potenciar su negocio. El problema realmente no era muy distinto al que habían tenido anteriormente empresas financieras o aseguradoras, pero en este caso el volumen de datos era de dimensión muy distinta y el data mining y los mecanismos de la época eran insuficientes.

Es aquí cuando se empieza a hablar de volumen, velocidad y variedad para referirse a los datos, términos que posteriormente definirían las características del big data como las 3V.


SABÍAS QUE...

Sillicon Valley recibe su nombre del silicio, material que se extraía en esta área y que fue el germen del establecimiento de empresas que experimentaban con este material hasta la invención del transistor. Hoy en día es lugar de residencia de las mayores empresas tecnológicas del mundo.

ACTIVIDAD COMPLEMENTARIA

2. Ya has conocido el término big data y habrás comprobado que es relativamente abstracto. Además, has visto que lo definen tres características: volumen, velocidad y variedad. ¿Qué entiendes tú por big data? ¿Qué significan estas tres características que empiezan por V? ¿Habrá más de estas tres V? Enuméralas.

4.1. Rápido repaso al modelo MapReduce

Un ejemplo claro del nuevo escenario que abrió el World Wide Web lo tenemos en Google que logró implantar con éxito su novedoso algoritmo Page-Rank, el cual era capaz de analizar datos de multitud de sitios web.

Ya existían en la época algoritmos capaces de procesar grandes volúmenes de datos de forma paralela, usando para ello grandes máquinas de análisis con varios núcleos en conjuntos o clusters (High Performance Computing o HPC). Pero en el caso de Google, con PageRank optó por una estrategia distinta: implantar un conjunto de máquinas de menor tamaño y menor capacidad de procesamiento.

Esta solución se basa en dos elementos. Por un lado, la existencia de un sistema de ficheros distribuidos para la gestión del almacenamiento de los datos de manera segmentada y, además, replicada entre las distintas máquinas. Por otro lado, un software que tiene implementadas las diferentes tareas para cada máquina. Este software permitía una más fácil implementación de nuevos programas que trabajaran con los datos. A este modelo se le llamó MapReduce.

Función Map

 Transforma los datos brutos en datos intermedios transformados en claves y valor que se agrupan según la misma clave.

Función Reduce

 Agrupa los valores de los datos sumándolos y se produce el resultado final.


4.2. Desarrollo de las tecnologías del big data

Gracias a la creación de MapReduce se han implementado más soluciones basadas en este para crear motores de búsqueda a nivel global como Yahoo, y de esta forma se llegó a implementar un sistema semejante, pero en software libre con código abierto, denominado Apache Hadoop. Tras la creación de este, y gracias a ser de acceso libre, se crearon multitud de herramientas adiciones que potenciaron la funcionalidad del big data.

DEFINICIÓN

Apache Hadoop

Es un entorno de trabajo de licencia libre inspirado en el MapReduce de Google, que permite a diferentes aplicaciones trabajar con grandes volúmenes de datos.

En los siguientes años se fueron desarrollando estas tecnologías paralelamente por parte de Google con NoSQL, un sistema de almacenamiento de datos, también de forma libre.

DEFINICIÓN

NoSQL

Es un tipo de sistema de gestión de base de datos, que no solo usa el SQL como lenguaje de consultas para bases de datos, sino también otros existentes, de ahí el nombre NoSQL o No solo SQL.

Después surgió la Web 2.0, donde usuarios de todo el mundo interactuaban en redes sociales y creaban contenido en forma de streams o flujos, en los cuales era necesario procesar y distribuir los datos en tiempo real. Así fue como se fue expandiendo cada vez en mayor medida el big data.

Y finalmente llegamos a la actualidad, donde gracias al software libre y al abaratamiento de las tecnologías de computación, ha sido posible que usuarios normales tangan acceso al cloud computing o computación en la nube, en la cual se alquilan máquinas de forma remota para hacer uso de ellas y llegar a la era del internet de las cosas, donde se crean todo tipo de dispositivos capaces de crear y compartir contenido ni necesidad de enlaces físicos, llevando así a una nueva dimensión: el big data.

TAREA 1

Imagina que eres el dueño de una empresa de venta de moda textil creada en 1970. Gracias a tu excelente dirección y a la de tus socios, has mantenido tu empresa a la vanguardia en tecnología, consiguiendo con ello expandirte y optimizar todas las áreas de negocios.

Realiza un documento donde cuentes de forma cronológica la trayectoria que ha seguido tu empresa en la implementación de sistemas de análisis de datos hasta el día de hoy para conocer la razón del éxito de tu negocio.

5. Resumen

Los antecedentes del big data comenzaron en los albores de nuestro tiempo:

Edad antigua: uso de aparatos mecánicos. Abaco, Anticitera.

Siglo XVII: John Graunt crea la estadística.

Siglo XIX: primeras computadoras. Se habla de business intelligence.

Siglo XX: era de la información, aparece el big data.

Siglo XXI: internet de las cosas, creamos más datos en un día que en 1.000 años.

La información aplicada a los negocios hace obtener una ventaja competitiva en las organizaciones, nace el Business Intelligence y con él un mundo de posibilidades, donde las organizaciones evolucionan rápidamente hacia una era marcada por los datos y su importancia.

1958: Peter Luhn define el BI.

Se crean las bases de datos. Nace el data warehouse.

Evoluciona el análisis de datos: nace el data mining para estudiar el futuro a través de los datos.

Surge el machine learning: las máquinas son las protagonistas.

Desarrollo de profesionales: los científicos de datos y la ciencia de los datos.

El big data y las diferentes formas de entenderlo. Has aprendido la terminología más utilizada relacionada con este concepto y has establecido las bases para el entendimiento del big data.

El big data nace como necesidad para las grandes empresas tecnológicas de los años noventa.

Google y su novedoso MapReduce: divide y vencerás.

Nace el software libre con Apache Hadoop, alternativa gratuita a MapReduce.

Invención de la Web 2.0: todos creamos datos masivamente. Nace el big data.

Ejercicios de autoevaluación
Unidad de Aprendizaje 1

1. ¿Quién definió por primera vez el término business intelligence?

a. Richard Millar Devens, en 1958.

b. Hans Peter Luhn, en 1958.

c. Richard Millar Devens, en 1865.

d. Hans Peter Luhn, en 1865.

2. La implantación del business intelligence en una empresa dota a esta de conocimiento útil para una mejor toma de decisiones. Pero, ¿qué tipo de análisis hace de los datos?

a. Descriptivo.

b. Predictivo.

c. Predictivo y descriptivo.

d. El análisis debe realizarlo el científico de datos.

3. Determina si las siguientes oraciones son verdaderas o falsas:

a. El data mining aporta a la organización un análisis descriptivo de los datos para saber el pasado y el presente de esta.

1 Verdadero

2 Falso

b. El data mining es una evolución del business intelligence tradicional.

1 Verdadero

2 Falso

c. El data mining aporta a la organización información a través del estudio de patrones y modelos para predecir resultados.

1 Verdadero

2 Falso

d. El data mining se basa en la inteligencia artificial.

1 Verdadero

2 Falso

4. El científico de datos:

a. Es la figura del analizador en el data mining.

b. Se especializa en ordenar y almacenar los datos más relevantes.

c. Son científicos matemáticos que se especializan en el tratamiento de datos.

d. Se especializa en el tratamiento de datos.

5. ¿Cuáles son las 3 V del big data más importantes?

a. Volumen, variación y variedad.

b. Volumen, velocidad y variedad.

c. Volumen, valor y veracidad.

d. Volumen, valor y variedad.

6. El modelo MapReduce:

a. Se basa en dos elementos: un sistema de ficheros distribuidos y un software que tiene implementadas las tareas de cada máquina.

b. Se basa en dos elementos: un sistema de ficheros centralizado y un software que tiene implementadas las tareas de cada máquina.

c. Es un sistema de ficheros distribuidos en varias maquinas.

d. Es un software que tiene implementadas las tareas de cada máquina para analizar datos.

7. Apache Hadoop:

a. Pertenece a Google.

b. Es de pago.

c. Es un software libre.

d. Es un software libre implementado por Google.

8. ¿Qué es el machine learning?

a. Análisis automático de las máquinas.

b. Aprendizaje automático de las máquinas.

c. Inteligencia artificial.

d. Una evolución del data mining.

9. ¿Qué es la Web 2.0?

a. La evolución de las primeras redes de datos.

b. Una red centralizada donde se crea y comparte información personal.

c. Una red global donde todos compartimos información mediante la creación de contenido.

d. Es la red de internet dotada de mayor seguridad.

10. Determina si las siguientes oraciones son verdaderas o falsas:

a. El big data hace referencia a una cantidad masiva de datos que supera la capacidad de análisis del software.

1 Verdadero

2 Falso

b. El big data hace referencia a una cantidad masiva de datos que puede ser analizada en tiempo real mediante inteligencia artificial.

1 Verdadero

2 Falso

c. Al big data también se le conoce como macrodatos.

1 Verdadero

2 Falso

d. El big data también se le llama internet de las cosas.

1 Verdadero

2 Falso

765,32 ₽
Возрастное ограничение:
0+
Объем:
241 стр. 119 иллюстраций
ISBN:
9788491987222
Издатель:
Правообладатель:
Bookwire
Формат скачивания:
epub, fb2, fb3, ios.epub, mobi, pdf, txt, zip

С этой книгой читают