Читать книгу: «Big data. IFCT128PO»

Шрифт:

Big Data. IFCT128PO

José Antonio Castillo Romero

ic editorial

Big Data. IFCT128PO

© José Antonio Castillo Romero

1a Edición

© IC Editorial, 2018

Editado por: IC Editorial

c/ Cueva de Viera, 2, Local 3

Centro Negocios CADI

29200 Antequera (Málaga)

Teléfono: 952 70 60 04

Fax: 952 84 55 03

Correo electrónico: iceditorial@iceditorial.com

Internet: www.iceditorial.com

IC Editorial ha puesto el máximo empeño en ofrecer una información completa y precisa. Sin embargo, no asume ninguna responsabilidad derivada de su uso, ni tampoco la violación de patentes ni otros derechos de terceras partes que pudieran ocurrir. Mediante esta publicación se pretende proporcionar unos conocimientos precisos y acreditados sobre el tema tratado. Su venta no supone para IC Editorial ninguna forma de asistencia legal, administrativa ni de ningún otro tipo.

Reservados todos los derechos de publicación en cualquier idioma.

Según el Código Penal vigente ninguna parte de este o cualquier otro libro puede ser reproducida, grabada en alguno de los sistemas de almacenamiento existentes o transmitida por cualquier procedimiento, ya sea electrónico, mecánico, reprográfico, magnético o cualquier otro, sin autorización previa y por escrito de IC EDITORIAL;

su contenido está protegido por la Ley vigente que establece penas de prisión y/o multas a quienes intencionadamente reprodujeren o plagiaren, en todo o en parte, una obra literaria, artística o científica.

ISBN: 978-84-9198-722-2

Nota de la editorial: IC Editorial pertenece a Innovación y Cualificación S. L.

Especialidad formativa

Se entiende por especialidad formativa la agrupación de contenidos, competencias profesionales y especificaciones técnicas que responde a un conjunto de actividades de trabajo enmarcadas en una fase del proceso de producción y con funciones afines.

Las especialidades formativas de Uso General, Formación Complementaria, Formación Modular y las especialidades formativas dirigidas a la obtención de certificados de profesionalidad se incluyen en el Fichero de Especialidades del Servicio Público de Empleo Estatal para su gestión en todo el territorio nacional por cualquier Administración competente.

Las especialidades complementarias, pertenecen todas a la Familia profesional de Formación Complementaria (FCO) y tienen la consideración de formación transversal en áreas que se consideran prioritarias tanto en el marco de la Estrategia Europea para el Empleo y del Sistema Nacional de Empleo como en las directrices establecidas por la Unión Europea. Se consideran áreas prioritarias las relativas a tecnologías de la información y la comunicación, la prevención de riesgos laborales, la sensibilización en medio ambiente, la promoción de la igualdad, la orientación profesional y aquellas otras que se establezcan por la Administración competente.

Las especialidades de Certificado de profesionalidad tienen una duración especificada en su normativa reguladora.

En el resultado de la búsqueda, se muestran las unidades de competencia, todos los módulos formativos con su duración y las unidades formativas del certificado correspondiente, con su duración. Las horas del certificado, exclusivo de las especialidades de certificado de profesionalidad, con alta igual o superior a 2008, son las horas totales más las horas del módulo de Prácticas Profesionales no Laborales.

1 Si la especialidad tiene unidades formativas, las horas totales, presencial, distancia, teleformación serán igual a la suma de esas horas de las unidades formativas de los distintos módulos, sin que se repita ninguna Unidad formativa.

2 Si la especialidad no tiene unidades formativas, las horas totales, presencial, distancia, teleformación serán igual a las sumas de esas horas de los módulos formativos, eliminando las horas de los módulos repetidos.

https://sede.sepe.gob.es/especialidadesformativas/RXBuscadorEFRED/BusquedaEspecialidades.do

(Fuente: Servicio Público de Empleo Estatal)

Índice

Portada

Título

Copyright

Especialidad formativa

Índice

Objetivos Generales

Unidad de Aprendizaje 1 Antecedentes, definiciones y bases para un correcto entendimiento

1. Introducción

2. Antecedentes

3. Definiciones y bases del big data

4. Bases de establecimiento del big data

5. Resumen

Ejercicios de autoevaluación Unidad de Aprendizaje 1

Unidad de Aprendizaje 2 La importancia del dato

1. Introducción

2. El valor del dato

3. Problemas que aparecen en la recogida de datos

4. El presente y futuro de los datos: normativa y aplicaciones

5. Resumen

Ejercicios de autoevaluación Unidad de Aprendizaje 2

Unidad de Aprendizaje 3 Algunos conceptos técnicos de la analítica tradicional

1. Introducción

2. Analítica tradicional vs. big data

3. Componentes del business intelligence

4. Herramientas del BI

5. Resumen

Ejercicios de autoevaluación Unidad de Aprendizaje 3

Unidad de Aprendizaje 4 Representación de los datos

1. Introducción

2. Orígenes de datos en big data

3. Representación de datos

4. Resumen

Ejercicios de autoevaluación Unidad de Aprendizaje 4

Unidad de Aprendizaje 5 Introducción al big data

1. Introducción

2. Definiendo el big data

3. Tecnología big data

4. Resumen

Ejercicios de autoevaluación Unidad de Aprendizaje 5

Unidad de Aprendizaje 6 Introducción a la analítica avanzada

1. Introducción

2. Analítica avanzada: las preguntas no se responden, se crean

3. Analítica predictiva

4. Analítica prescriptiva

5. Resumen

Ejercicios de autoevaluación Unidad de Aprendizaje 6

Glosario

Bibliografía

OBJETIVOS GENERALES

El objetivo general del IFCT128PO. Big Data, es el siguiente:

1 Participar en diálogos sobre competencias clave en su entorno profesional, conocer un mercado –tecnológico– en constante expansión, realizar breve inmersión en el mundo analítico actual y ser capaz de acceder a casos de éxito en distintos sectores.

Unidad de Aprendizaje 1

Antecedentes, definiciones y bases para un correcto entendimiento

Contenido

1. Introducción

2. Antecedentes

3. Definiciones y bases del big data

4. Bases de establecimiento del big data

5. Resumen

Objetivos

El objetivo general de esta Unidad de Aprendizaje es:

 Entender el contexto en el que se sitúa el big data y cómo surge a través del desarrollo de diferentes soluciones para trabajar con los datos, así como conocer estas soluciones.

Los objetivos específicos de esta Unidad de Aprendizaje son:

 Entender qué es y la importancia del business intelligence (BI).

 Identificar el proceso de funcionamiento del BI.

 Saber cómo se integra el data mining y qué aporta en el BI.

 Conocer la función del machine learning.

 Identificar qué es y las funciones del científico de datos.

 Definir correctamente el término big data y comprender su alcance.

 Familiarizarse con los diferentes conceptos relacionados con el big data.

 Saber qué aportó la invención del MapReduce al big data.

1. Introducción

A lo largo de la historia, y desde que tenemos uso de razón, el ser humano ha basado su existencia en el conocimiento y en utilizar este para evolucionar. El uso de los datos a nuestro alrededor ha sido clave para adquirir conocimiento en todas las etapas de la historia, pero es ahora cuando este ha adquirido un papel esencial en nuestra forma de entender vida.

El uso de las nuevas tecnologías hace posible que puedas estar conectado a otras personas en cualquier parte del mundo. Esto implica que continuamente estás generando información que debe ser procesada y enviada, y es así cómo surge el problema de nuestro tiempo: cómo usar eficazmente la abrumadora cantidad de datos que creamos para fines productivos.

En este módulo podrás situarte en un contexto en el que verás que el uso de datos ha existido desde los comienzos de la historia y no es tan novedoso como nos hacen creer o, al menos, como se nos presenta, con una terminología cada vez más abstracta y variada.

Por ello, es necesario centrarse en el estudio de los antecedentes que forman las bases de lo que hoy día entendemos como big data y de cómo surgió esta mentalidad de utilizar los datos para su análisis de formas cada vez más complejas hasta hoy día.

Por otro lado, aprenderás los conceptos clave que te ofrecerán una mejor comprensión de lo que hoy día significa el big data, descubriendo cómo se originó este término y su crecimiento.

Para ello, nos centraremos en el caso de TextilTek, S. L., empresa de moda con más de 50 años de experiencia, que cuenta con puntos de venta en diferentes zonas de España y, además, venta online personalizada. Gracias a su creciente expansión, recientemente han comenzado a implantar un sistema de big data para estudiar en detalle los clientes, sus gustos y el mercado y obtener ventaja sobre sus competidores.

2. Antecedentes

Para que te puedas situar adecuadamente en lo que trata este curso, necesitarás conocer multitud de términos, que seguramente hayas oído a través de los medios de comunicación o de tus propios compañeros, tales como business intelligence, data mining o deep learning.

Pero antes de abordar todos estos temas, conviene que sepas que lo que vas a estudiar no es algo que acaba de surgir, ya que el ser humano ha usado datos desde que comenzó a tener conocimiento.

Por ello, y para que sea más fácil ponerte en contexto, verás cómo se ha producido esta evolución desde el principio de los tiempos, donde el uso de información era tan simple como saber las existencias de alimentos con las que contábamos, hasta la complejidad con la que actualmente funciona nuestro día a día.

Por supuesto, se hará una especial mención a la importancia que ha tenido la evolución del uso de información para los negocios ya que, en gran medida, la forma en que se ve actualmente el mundo se debe a ellos.


Evolución del ser humano desde el punto de vista tecnológico

2.1. La información en la antigüedad

HILO CONDUCTOR

La dirección de TextilTek, S. L. ha decidido implantar la tecnología big data en la empresa, ya que desean estar a la vanguardia en las nuevas tecnologías. Para ello, han establecido contacto con una consultoría de servicios tecnológicos para que les asesore a la hora de dar este paso a algo desconocido para ellos. Para su sorpresa, esta consultoría lleva más de treinta años implantando el big data en empresas de todo tipo de servicios, por lo que se dan cuenta de que esta tecnología no es tan actual como se pensaban.

Aunque parezca que el término big data es muy novedoso en estos tiempos, no es así, ya que todo lo que lo forma lleva mucho tiempo gestándose, y es precisamente en nuestro tiempo cuando se ha producido la explosión y se ha dado a conocer para todo el mundo con la llamada era de la información.

Es interesante saber de dónde procede el término big data antes de conocerlo más en profundidad, y es que su historia es poco conocida o, mejor dicho, la historia de todo lo que ha llevado a que nazca el big data:

1 2400 a. C. La invención del Ábaco en Babilonia, que mediante una tabla y cuentas permitía realizar cálculos relativamente complejos para la época, como el cálculo de raíces. Además, en esta época ya aparecieron las primeras bibliotecas para almacenar el conocimiento.

2 48 d. C. Invasión de Alejandría por los romanos, destruyendo la biblioteca más grande y famosa de la época. En ella se pretendía almacenar el conocimiento de toda la humanidad en más de medio millón de archivos.

3 200 d. C. Invención de la Anticitera en Grecia, considerado el primer ordenador mecánico de la historia del que se tiene constancia. Este permitía estudiar la astronomía y marcar el calendario.

4 1663 Año en el que se crea la estadística, donde se llevan a cabo cálculos de análisis por parte de John Graunt en un intento por controlar y frenar la peste bubónica en Europa.

5 1865 Hace dos siglos se comenzaron a utilizar términos que aún perviven con fuerza en la actualidad, como fue el uso de la inteligencia de negocios o business intelligence por parte del autor Richard Millar Devens en su obra Cyclopaedia of Commercial and Business Anecdotes, en la que describe la obtención de la ventaja competitiva mediante la recogida, estructurado y análisis de datos por parte del banquero Henry Furnese.

6 1884 Herman Hollerith patentó su máquina tabuladora, que era capaz de realizar la tabulación del censo de Estados Unidos mediante una cinta de papel agujereada, el cual se hacía manualmente y acumulaba retrasos de hasta diez años. La empresa fundada por Herman Hollerith se fusionaría con otras formando la empresa informática IBM (International Business Machines).

SABÍAS QUE...

Ya en la era del Paleolítico se empleaban como método de almacenamiento de información huesos y palos para contabilizar la comida y calcular necesidades futuras, por lo que desde entonces la humanidad se ha interesado por guardar datos.

2.2. La información en la era digital

HILO CONDUCTOR

En TextilTek, S. L., conocen bien el alcance de internet, ya que hace varios años implantaron las ventas online a través de su página web. Para la gestión de clientes implantaron una base de datos, donde almacenaban los datos de los clientes y las compras que estos realizaban.

El año 1938 marca un antes y un después definitivo en nuestra historia gracias a la invención de la computadora. La primera computadora estaba construida mediante relés, aunque rápidamente estos fueron reemplazados por tubos de vacío, precursores de los tan utilizados transistores.

La empresa IBM tuvo un papel fundamental en el desarrollo de estas computadoras, siendo hoy día una de las empresas más grandes y avanzadas del mundo en informática y consultoría tecnológica.

Posteriormente, y no muchos años después, se desarrollaron las comunicaciones entre computadoras. La idea era mantener una comunicación de datos mediante dos o más computadoras a través de un hilo conductor, y es así como en 1981, y gracias al protocolo TCP/IP, nació internet y posteriormente en 1991 se anunció la World Wide Web.

Internet ha supuesto hasta el día de hoy una revolución, en la que millones de datos son movidos en tiempo real de un extremo al otro del mundo, estando esto en continuo crecimiento y provocando que cualquier tipo de máquina de procesado se quede pequeña frente a tal cantidad de datos, y es así como surge el término big data, aunque aún debes conocer un poco más su origen:

1 1928. Invención del primer sistema magnético de almacenamiento de datos, creado por Fritz Pfleumer. Concretamente fue capaz de almacenar sonido en una cinta magnética.

2 1958. El investigador de IBM, Hans Peter Luhn, definió la business Intelligence (BI) como un proceso de aprendizaje de hechos que permite emprender acciones sobre la meta que se desee.

3 1965. Creación del primer centro de datos del mundo en Estados Unidos para almacenar huellas y declaraciones de impuestos de la población.

4 1970. IBM crea la primera base de datos relacional que puede ser utilizada por cualquier persona sin conocimientos de computación.

5 1989. Erik Larson, periodista estadounidense, habló por vez primera de big data en una revista. A raíz de este hecho, se empezaron a utilizar herramientas de business intelligence.

6 1996. Por primera vez en la historia, el precio del almacenamiento digital y su acceso es más barato que el papel, siendo clave en la historia del big data.

7 1999. El término big data es analizado por primera mediante un estudio académico. Posteriormente se citarían las 3 V del big data.

8 2005. Se crea la Web 2.0, en la que los usuarios pueden crear contenido, lo cual supone otra revolución en cuanto a la creación de datos.

9 2016. El big data pasa a ser una palabra de moda en el mundo. Nace el internet de las cosas.


NOTA

Una base de datos relacional está compuesta por tablas con relaciones que, a su vez, contienen registros de datos. Cada tabla está relacionada mediante claves o códigos que aseguran su integridad.

PARA SABER MÁS

El internet de las cosas es otro término que habrás escuchado en los medios de comunicación infinidad de veces. Para saber qué es, puedes visitar este enlace:


https://redirectoronline.com/ifct128po0101

2.3. Business intelligence aplicado a los negocios

HILO CONDUCTOR

En el caso de TextilTek, no tenían grandes bases de datos y, por tanto, se podían analizar de forma fácil. Hasta ahora tenían programado un método por el cual, si llegaban artículos nuevos en stock que coincidían con los tipos comprados por los clientes, se les enviaba una alerta a estos. Pero han comprobado que cada vez más personas han rechazado esta información por entenderlo como spam (no deseada).

Hoy en día, utilizamos los datos como si de otra moneda de cambio se tratase. Los análisis realizados muestran que diariamente se generan 2,5 cuatrillones de bytes, es decir, hablamos del orden de zettabytes. Estos datos debidamente usados por las empresas les pueden aportar grandes ventajas competitivas.

Hablando de tal cantidad de datos diariamente generados, se convierte en un elemento crítico para empresas de todo el mundo el lograr una gestión correcta de los mismos. Por ello, será necesario que estas tengan casi obligatoriamente sistemas capaces de analizar los datos que acumulan cada una de las áreas funcionales de las mismas, así como los datos externos a ellas, que tanta relevancia tendrán para obtener una ventaja competitiva.

A raíz de estos problemas es cómo surge la analítica de datos, desde la invención del business intelligence hasta el big data. El objetivo no es otro que el de analizar cada vez mayor cantidad de datos estructurados y no estructurados más rápidamente y transformarlos en decisiones.

Entonces, ¿cuál podría ser la clave del análisis de datos en los negocios? La respuesta es sencilla: ser capaces de realizar una estrategia de marketing adecuada y competitiva, anticipándose a la competencia y predecir el comportamiento de los clientes para saber qué y cómo quieren los servicios que ofreces.

SABÍAS QUE...

Cada minuto los más de 2.700 millones de personas que cuentan con acceso a internet envían más de 200 millones de correos electrónicos; realizan 2 millones de búsquedas en Google; publican 48 horas de vídeo en YouTube; escriben más de 100.000 mensajes en Twitter; publican 30.000 nuevos artículos en sitios como WordPress y suben más de 6.000 imágenes a Instagram.

Aquí puedes ver algunas estadísticas interesantes de todo el mundo y en tiempo real:


https://redirectoronline.com/ifct128po0102

Cómo y dónde surgió: primeros pasos

Como has visto anteriormente, en 1865 se introdujo el término inteligencia de negocios, pero es en 1958 cuando el investigador de la ya fundada IBM, Hans Peter Luhn, lo definió de una forma parecida a como se conoce hoy día, aunque aún tendría que sufrir modificaciones en su comprensión, ya que los procesos de negocios y su informatización avanzarían rápidamente.

La definición que Luhn dio en cuestión fue la siguiente: “es la habilidad de aprender las relaciones de hechos presentados de forma que guíen las acciones hacia una meta deseada” (Luhn, H. P. A Business Intelligence System. IBM Journal of Research and Development, 1958), definición relativamente básica si la comparamos con lo que actualmente implica este término.

En la actualidad, el BI se podría definir como el conjunto de medios utilizados para poder transformar los datos en información, con el objetivo de obtener conocimiento como finalidad para la mejora de procesos y la toma de decisiones eficaz en un negocio. Este conocimiento puede ser adquirido tras la consulta de datos históricos y su procesado mediante el cruzamiento de estos para así poder determinar el pasado y el presente de la organización.

Años más tarde, Kenneth Iverson creó el primer lenguaje de programación multidimensional que sirvió de base para lo que se conoce como procesamiento analítico en línea.

DEFINICIÓN

OLAP (On-Line Analytical Processing)

Es una solución que permite analizar grandes cantidades de datos de manera multidimensional, también llamados cubos OLAP, que contienen grandes cantidades de datos.

Creación de las bases de datos: el data warehouse

HILO CONDUCTOR

Los de TextilTek, S. L. se dieron cuenta de que cada vez era más difícil analizar la información con los medios que tenían, todo ello centralizado en su sede mediante servidores y sistemas de almacenamiento que tenían que ampliar continuamente, ya que la empresa crecía y era necesario almacenar mucha información de clientes y funcionamiento de los departamentos. Por ello, han decidido dar un paso más e invertir en big data. ¿Qué implicará dar este paso? Pronto lo descubrirán.

Posteriormente, en los años setenta se crearon las primeras bases de datos y aplicaciones para empresas que permitían el acceso a la información de estas bases de datos, aunque aún de forma poco eficaz y con una calidad mediocre.

En los años 80, debido a los avances informáticos, la BI tomó más personalidad y se definiría como un conjunto de sistemas informáticos utilizados para tomar decisiones en los negocios que se basan en la recogida y análisis de datos o reporting de los bancos de información de cada organización, conocidos como data warehouse. Pero aún no había aplicaciones que facilitarían la exploración de bases de datos. Por ello, es en esta década cuando se crea Excel 1.0, convirtiéndose en la más ampliamente utilizada.

Datos muy resumidos

 Datos compactos de fácil acceso y usados de forma más frecuente.

Datos poco resumidos

 Nivel de datos poco detallados y guardados en unidades de discos.

Datos actuales

 Datos de mayor interés, ya que son más recientes y tienen un alto nivel de detalle.

Datos históricos

 Datos almacenados masivamente y de escaso acceso.

El business intelligence 2.0

HILO CONDUCTOR

Debido al desconocimiento del business intelligence y un sistema de marketing deficiente, TextilTek, S. L. ha tenido gran cantidad de datos valiosos guardados, sin sacarles el suficiente partido. Gracias a la consultora, ahora son capaces de analizar datos históricos para saber cómo funciona la empresa.

Hasta ahora puedes darte cuenta de que en ningún momento el tipo de datos ha cobrado importancia para el BI, porque en su gran mayoría eran datos estructurados, y no es hasta la entrada del nuevo siglo cuando esto cobra importancia. Es entonces cuando se empiezan a desarrollar sistemas de análisis para datos no estructurados, ya que con la invención de las nuevas tecnologías más rápidas e inteligentes, los datos comienzan a adquirir una dimensión completamente diferente: nace así el business intelligence 2.0, creándose así el concepto de big data.

Como síntesis, el procedimiento del business intelligence lo puedes ver en el siguiente gráfico:


765,32 ₽
Возрастное ограничение:
0+
Объем:
241 стр. 119 иллюстраций
ISBN:
9788491987222
Издатель:
Правообладатель:
Bookwire
Формат скачивания:
epub, fb2, fb3, ios.epub, mobi, pdf, txt, zip

С этой книгой читают