Читать книгу: «Big data. IFCT128PO», страница 3

José Antonio Castillo Romero

Шрифт:

Unidad de Aprendizaje 2

La importancia del dato

Contenido

1. Introducción

2. El valor del dato

3. Problemas que aparecen en la recogida de datos

4. El presente y futuro de los datos: normativa y aplicaciones

5. Resumen

Objetivos

El objetivo general de esta Unidad de Aprendizaje es:

Entender la importancia que tiene el dato en todas las áreas de la sociedad, haciendo especial énfasis en su importancia estratégica para las organizaciones y la preservación de la privacidad mediante una correcta gestión.

Los objetivos específicos de esta Unidad de Aprendizaje son:

Describir las aplicaciones que tienen los datos en la estrategia de la organización y los beneficios que aportan estos a su progreso.

Identificar las distintas funciones y niveles que tiene el data management en una organización.

Analizar algunos de los problemas más comunes que aparecen a la hora de trabajar con los datos en las organizaciones.

Saber qué normativa de protección de datos es aplicable en nuestro territorio.

1. Introducción

Los datos siempre han sido importantes. Antes de la entrada del big data, las organizaciones recopilaban los datos de todas las áreas funcionales y los guardaban en los data warehouses, para después poder analizarlos periódicamente y de esta forma adquirir ideas para aumentar el rendimiento y mejorar los negocios.

Realmente, era la idea correcta: tener almacenes de datos propios a los que sacarle información, pero fue con la creación de internet cuando esto dejó de tener en parte sentido. Debido a la interconexión global, la información que se empezó a producir era de tal tamaño que los data warehouses no tenían cabida para guardar datos externos a las organizaciones y fue así como surgió el big data.

A esto debemos sumarle la proliferación de los dispositivos inteligentes, que pueden crear información desde prácticamente cualquier lugar del mundo y no solo esto, sino que funcionan como sensores capaces de generar información y procesarla, y es aquí donde se plasma la verdadera importancia del dato y el verdadero sentido del big data: generar valor a partir de los datos.

Para ello, nos centraremos en el caso de TextilTek, S. L., empresa que descubrirá que no solo se trata de adquirir tecnología para el procesamiento de los datos, sino que debe existir un compromiso de concienciación por parte de todos los empleados y que llevará varios años adaptarse plenamente a estos cambios.

2. El valor del dato

HILO CONDUCTOR

Siguiendo con el caso de TextilTek, S. L., estos han decidido contratar personal especializado para que, entre otras cosas, se encarguen de la formación del personal de la empresa en todo lo referente a los datos y la forma de tratar con estos. En esta unidad aprenderás, junto a ellos, la importancia que tienen los datos.

Los datos son la razón de existir del big data, por lo que estos ayudan a que podamos poner en perspectiva el alcance del mismo.

Organizaciones, entes públicos, medios de comunicación e individuos deben entender que los datos son necesarios para una buena toma de decisiones que afecten de forma global a una sociedad. Un ejemplo claro serían las nuevas smart cities o ciudades inteligentes, que pueden tomar datos de tráfico, tiempo, polución y ayudar a los ciudadanos a moverse de forma más segura por sus calles, gracias a una eficaz toma de decisiones basadas en la adquisición de datos.

Las organizaciones deben invertir en infraestructuras que trabajen con datos y permitan el continuo acceso a los mismos prácticamente en tiempo real. Además, permiten crear patrones de comportamiento de los clientes y así anticiparse a las necesidades de los mismos.

Gracias al data science, los datos son la base para crear nuevas líneas de investigación que, si no fuera por la posibilidad de comparar grandes cantidades de información mediante software, no seríamos capaces de descubrir gran parte de avances tecnológicos de hoy en día, haciendo especial hincapié en los avances médicos que se han producido gracias a los datos.

2.1. El negocio de los datos: su valor estratégico

Todo lo que hacemos deja una huella digital que es analizable, aunque no siempre es información relevante. Esto crea un mundo transparente para las empresas y los clientes, desarrollando las relaciones entre estos hasta el punto de que pueden saber qué haces, qué compras, cómo y cuándo, creando un modelo de negocio basado en nuestro estilo de vida y en los datos que generas.

Existen empresas que directamente basan su existencia en recopilar y procesar datos que generamos mediante nuestro acceso a internet, para después venderlos a otras que pagan por ellos, por lo que no solo se adquiere ventaja competitiva a partir de los datos, sino que los datos son un negocio en sí, y muy rentable. Por esto mismo, se habla de que el big data está transformando por completo el modelo de negocio que ha existido hasta ahora, introduciendo nuevas posibilidades y filosofías.

EJEMPLO

La aseguradora John Hancock Financial entrega una pulsera de actividad física a cada cliente, con el objetivo de analizar su conducta deportiva: mientras más ejercicio haga, más descuento obtendrá en su seguro de vida. Es un ejemplo claro de crear ventaja competitiva.

Cuantificar los datos

HILO CONDUCTOR

La primera tarea que se le ha encomendado a TextilTek, S. L. es la de sacar partido a sus datos. Siempre han contado con un data warehouse para guardar datos internos que la legislación obliga, pero nunca habían considerado estos relevantes para obtener ventaja competitiva, más allá de su mero uso como datos históricos.

Prácticamente todo lo que nos rodea contiene sensores que producen datos. Móviles, relojes, nuestra propia ropa y, por supuesto, los vehículos los tienen, y con ellos comienza el proceso de cuantificación del big data. Estos datos generados son necesarios para producir otros datos nuevos y así es como se inicia un proceso que, en ocasiones, termina siendo la actividad de negocios de alguna organización.

Trasladando esto al mundo de las empresas, la cantidad de datos a cuantificar se dispara, incluso sin el uso de sensores y herramientas. Las empresas deben guardar ciertos datos y registros obligatoriamente, aunque no siempre los utilizan para fines de estudios, lo cual es un error que gracias al big data está cambiando.

La potencia del big data se encuentra en que no solo se podrán recoger datos cuantitativos, sino también cualitativos, que son aún de más valor, y tratar de cuantificar estos mediante su estudio y análisis.

EJEMPLO

Un claro ejemplo lo puedes encontrar en las personas que cada vez están más obsesionadas con cuantificarse ellas mismas: las calorías que ingieren, cuanto pesan, medidores de actividad física y un largo etcétera de datos que, gracias a los gadgets o dispositivos con un propósito específico, podemos cuantificar.

Predecir a través de los datos

HILO CONDUCTOR

Mediante las ideas aportadas por la dirección y el personal especializado, Textil-Tek, S. L. ha decidido utilizar, por un lado, métodos cuantitativos para obtener mejoras en su rendimiento financiero y sus áreas y, por otro, métodos cualitativos para comprender mejor a sus clientes y mejorar los servicios.

Tras haber visto cómo se pueden obtener y cuantificar los datos que se generan, llega la hora de saber para qué se hace, es decir, cuál será el objetivo final de estos datos en cuanto a negocios se refiere.

Entre las diferentes posibilidades que existen, una que destaca sobre las demás es que estos datos se pueden usar para predecir acontecimientos y acciones y, además, actuar sobre ellas cambiando su destino. Por eso, el Big Data es una muy buena vía para persuadir.

Los datos cuantificados proporcionan información valiosa para predecir comportamientos de clientes, los stakeholders, la organización en sí misma o su mercado de acción. Se podrían predecir, incluso, aspectos del propio ser humano, tales como su conducta.

DEFINICIÓN

Stakeholder

El stakeholder o parte interesada hace referencia a una entidad, como una persona o una organización, que muestra interés en otra organización como, por ejemplo, trabajadores, accionistas, clientes, etc.

Según su filosofía, hay diferentes métodos de predicción:

Método cualitativo

Utiliza datos no numéricos para predecir acciones futuras que no se basen en valores. Por ejemplo, recopilar opiniones de clientes para tomar acciones sobre un producto en el mercado.

Método cuantitativo

Se basa en utilizar números y valores (número de ventas, número de compras, etc.) durante cierto período de tiempo para realizar un pronóstico.

Método explicativo

Utiliza datos también cuantitativos para explicar posibles tendencias y hacer un pronóstico de resultados.

Método de series de tiempo

Utiliza solo datos históricos para hacer predicciones de futuro.

APLICACIÓN PRÁCTICA

Deseas sacar unas nuevas galletas de chocolate para su venta en supermercados y necesitas elaborar unas estadísticas de la aceptación que estas podrían tener respecto a los potenciales clientes y cuáles son sus gustos en cuanto a galletas.

¿Qué tipo de método deberías usar para recopilar los datos que deseas?

Solución

En este caso, serían necesarios los dos métodos:

1 El método cuantitativo es necesario para contabilizar el número de interesados en el nuevo producto, por lo que se trata de obtener valores numéricos.
2 El método cualitativo es necesario, porque también deseo saber cuáles son los gustos de los entrevistados y para ello es necesario realizar preguntas abiertas.

El poder de los datos para cambiar cosas

Anteriormente has visto cómo se pueden cambiar los resultados realizando predicciones, pero no es la única forma. Te puedes plantear una pregunta: ¿Necesito información concreta sobre una persona o un colectivo en una situación concreta? ¿Cómo obtengo la información que necesito? Y la respuesta es mediante la experimentación de esa conducta, simulándola a con la realización de experimentos.

Un lugar idóneo para realizar experimentos es en los sitios web. Se ha demostrado, por ejemplo, que un botón verde en lugar de rojo para realizar descargas aumenta los beneficios de las empresas o que las caras femeninas en los anuncios incrementan el interés de los clientes. Estos son ejemplos de la aplicación de experimentos para cambiar la conducta humana hacia un fin concreto, gracias a la implantación de determinados datos. A esto se le denomina data-driven o decisiones basadas en los datos.

Otro campo de aplicación de la experimentación es la publicidad, gracias al neuromarketing (unión entre la neurociencia y el data mining), donde interviene el aprendizaje computacional o machine learning como vía para analizar y predecir comportamientos, que, unidos al factor humano, hacen de esta práctica un método muy efectivo para cambiar la conducta humana a través de los anuncios.

DEFINICIÓN

Neuromarketing

El neuromarketing o marketing emocional es una ciencia que estudia e investiga los comportamientos del cerebro humano durante un proceso de compra.

Optimizar

HILO CONDUCTOR

Una vez definidos los métodos a utilizar para obtener resultados mediante los datos, TextilTek, S. L., debe definir indicadores clave con los que saber rápida y fácilmente si los resultados que se van obteniendo son de su agrado. Para ello, necesitará diseñar un cuadro de mando con el que comprobar si estos indicadores reflejan buenos resultados.

Otra de las aplicaciones fundamentales de los datos es la de proporcionar la capacidad para optimizar los procesos internos de las organizaciones. Los datos generados por ellas mismas, junto con los captados en el exterior, proporcionan una visión interna y otra externa de cómo está situada respecto a su competencia. Es así como se pueden detectar posibles errores y predecir el rendimiento que tendrá en el futuro y actuar en base a ellos.

El ritmo de evolución y la necesidad de adaptarse por parte de las empresas al mundo actual es frenético, y una forma de medir sus progresos es diseñar Indicadores Clave de Rendimiento, más conocidos como KPI, que, integrándose en los cuadros de mando y el big data, constituyen una parte fundamental para la plena adaptación y optimización.

NOTA

Un KPI o Indicador Clave de Rendimiento se utiliza para medir el rendimiento de procesos y, además, relacionarlos con los objetivos fijados para ese proceso. Normalmente, los datos se miden en porcentajes.

Estos KPI se integrarán en el tablero o cuadro de mando de la organización, que es una representación esquemática y, a veces, gráfica de los indicadores fijados por la organización. Su función es ayudar a entender mejor los datos que muestran los KPI. Existen distintas áreas que se pueden medir con indicadores: Finanzas, Comercial, Marketing, Compras, Producción, Logística, Calidad, Recursos Humanos e Informática y Mantenimiento.

NOTA

Para implementar y ejecutar la estrategia interna por una empresa, es necesario un correcto estudio de la información mediante el big data, pero también cobra una importancia esencial el factor humano. Hay que comprender a los usuarios y los trabajadores, ya que ellos son una parte fundamental del rendimiento de una empresa.

ACTIVIDAD COMPLEMENTARIA

3. El cuadro de mando es una utilidad fundamental para las organizaciones y una de las áreas de estudio y medición es la de los clientes mediante KPI relacionados con estos. Busca o inventa tres KPI de fidelización de clientes y explica qué van a medir en el cuadro de mando de la empresa.

Innovación

Por último, se debe hablar de innovación, se deben usar los datos para optimizar internamente las empresas y promover su innovación. Estos dos términos van cogidos de la mano, ya que para optimizar, generalmente hay que innovar. Está bien llevar a cabo el porqué, pero también es necesario el cómo.

El porqué de cambiar algo implica un cambio de mentalidad en las empresas. Gracias al big data, se puede tener una idea de por qué es necesario cambiar algo.

Esto es aún más importante. Hay que saber la forma de hacerlo, sus implicaciones y lo que se necesita.

EJEMPLO

Un ejemplo ilustrativo es el de una empresa de aerolíneas que no sabía cómo optimizar los tiempos de vuelo de sus naves, así que compartió el problema con la comunidad científica online y gracias a ello obtuvieron la solución.

Esto refleja la importancia de los datos y la recolección de estos para encontrar soluciones. Es una forma de innovación en sí misma. En el proceso de innovación cobra una especial relevancia el modelo teórico de John Kotter, profesor de la Escuela de Negocios de Harvard, que enumera el proceso de la innovación en ocho fases:

1 Crear un sentido de urgencia: no es suficiente comunicar la necesidad de un cambio, sino que se debe convencer al mayor número de integrantes de la organización para que apoyen el cambio. Crear un sentimiento de urgencia refuerza esto.
2 Formar un equipo: se debe formar un equipo con el personal más influyente de las distintas áreas de la organización.
3 Crear una visión que lo dirija: la visión vendrá definida por la situación ideal a la que se quiere llegar con el cambio. Esta dirigirá el enfoque de los cambios.
4 Comunicar la visión y la estrategia: una vez diseñada, es necesario comunicarla a toda la organización para que exista el sentimiento de implicación y convencimiento.
5 Superar los obstáculos: se creará la estructura sobre la que irán los cambios. Esta debe ser lo suficientemente fuerte como para poder enfrentarse a los inconvenientes que aparezcan.
6 Asegurar el éxito a corto plazo: aunque la estrategia esté diseñada a largo plazo, será necesario cumplir los objetivos paso a paso, creando así una sensación de confianza.
7 Consolidar las mejoras y profundizar: cada vez que se consiga un objetivo, se debe potenciar lo bueno y subsanar los errores que se hayan podido producir.
8 Fijar los cambios: una vez conseguido el objetivo final, se debe asentar en el día a día de la organización.

2.2. El negocio de los datos: data management

HILO CONDUCTOR

Debido a los cambios que está implementando TextilTek, S. L. en todas sus áreas, es necesario adaptar la dirección a todo ello. Se debe realizar una integración en toda la organización que unifique los objetivos, ya que saben perfectamente que de nada sirve implementar cambios tangibles si no existe una concienciación por parte de todos los trabajadores. Todo esto se conseguirá con un data management adecuado.

Hasta hace unos años, las empresas eran capaces de realizar una gestión de los datos de forma relativamente sencilla, pero los datos tienen cada vez más influencia en los negocios de estas y son un activo propiamente dicho, formando un pilar fundamental que se debe manejar debidamente.

En los apartados anteriores has podido ver la importancia de los datos como ente estratégico esencial para la evolución de los negocios. Como consecuencia de esto surge el concepto de data management (en español, gestión de datos), que trata de establecer una serie de funciones básicas para estructurar esta gestión de forma correcta para evitar problemas típicos como los siguientes:

Data governance

Es el nivel que encuadra a todos los demás. Su función es encargarse de supervisar los demás niveles de gestión de datos, como si de un gobierno se tratara.

Sus funciones serán las siguientes:

Crear los estándares y las políticas que guiarán el uso de los datos.

Establecer los roles y las responsabilidades internas.

Decidir la tecnología más adecuada para la gestión de datos.

La idea es que los datos no vayan ligados solamente al Departamento de Tecnologías de la Información o IT, ya que influyen en todas las áreas de la organización. Por lo que el data governance será el encargado de crear un marco general, cumpliendo los siguientes puntos:

Políticas

Políticas para asegurar el cumplimiento de los objetivos.

Herramientas

Deben poder medir los resultados, sean específicos o generales.

Equipos

Deben configurarse grupos de personas con tareas específicas que puedan alinearse con los distintos objetivos planteados.

Objetivos

Definir objetivos y el modo de alcanzarlos.

Integridad

Los datos deben cumplir con las necesidades. Se debe tratar de reducir los costes de su gestión y cumplir la normativa.

Data Architecture

HILO CONDUCTOR

Con el data architecture, TextilTek, S. L. deberá adoptar una arquitectura de datos adecuada. Esto implica definir su estructura mediante un modelo, diseñarla e implementarla, todo ello mediante diferentes funciones de manera ordenada.

En esta función se definirá la estructura que los datos tendrán en la organización, tanto de forma física como de forma lógica. A esto se le denomina el framework de Zachman o marco de referencia de los datos, que hace la función de un mapa que representa dónde y cómo se localizan los datos en la organización, su ciclo de vida y el recorrido que hacen.

Para que los datos queden correctamente definidos, la estructura diseñada debe cumplir los siguientes parámetros:

Los objetivos del data architecture son:

Definir y desarrollar la arquitectura de los datos.

Medir e identificar los cambios necesarios en esta arquitectura para adaptarla a lo deseado, es decir, optimizarla.

El data modeling and design

En un nivel inferior al data architecture se encuentra el data modeling o modelado de los datos, que trabaja directamente con las bases de datos, por lo que es mucho más concreta y específica en el tratamiento de los datos.

Existen dos procesos que se llevan a cabo mediante el data modeling:

Modelado

Tarea que se dedica a estructurar los datos y a organizarlos.El modelo se representa por medio de texto y símbolos que reflejan la disposición de los datos y sus relaciones.

Diseño

Transforma el modelo lógico en un modelo físico y funcional.

Proceso de modelado y diseño de una base de datos

Data storage

La función de este nivel es la implementación de una serie de políticas o especificaciones que definan cómo se guardarán los datos, cuándo y qué datos se almacenarán.

Es algo esencial para una organización, ya que si se trabaja con grandes volúmenes de datos, es necesario implementar ciertas directrices de cómo se almacenarán.

Con esto, se pretenden obtener diferentes beneficios:

Ahorro

Cualquier plataforma de almacenaje de datos es limitada, por lo que el almacenamiento debe tener una estructura.

Además, deben establecerse unos principios que permitan el desechado de datos y la asignación de espacio para los nuevos.

Productividad

Los datos almacenados aleatoriamente provocan la ralentización de los sistemas de procesamiento, ya que se hace más difícil el acceso a los mismos. Por ello, los datos se dividirán en:Datos activos: lo de acceso inmediato y más recientes.Datos inactivos: almacenados de forma comprimida y separados de los primeros.

Data security

Se trata de diseñar los mecanismos necesarios para preservar la seguridad de los datos en el entorno de la organización, gracias a políticas y actuaciones dirigidas en última instancia por el data governance.

Esta función también se encargará de monitorizar los datos para que se asegure la privacidad de estos, incluso cuando sean compartidos. Los mecanismos a utilizar pueden ser los siguientes:

Enmascaramiento persistente

Los datos se resguardan en entornos no productivos, es decir, de pruebas y desarrollo. Los datos originales quedarán modificados permanentemente, ya que el enmascaramiento se realiza en la información en reposo.

Enmascaramiento dinámico

El proceso de resguardo de datos se hace en tiempo real, por lo que los datos se encuentran en entornos de producción, es decir, no se encuentran aislados. Los datos confidenciales son modificados, mientras que los originales permanecen sin cambios y en reposo.

NOTA

El enmascaramiento de datos consiste en crear una versión modificada de los datos para que, en lugar de acceder a los datos originales, se acceda a datos con una estructura distinta y así preservarlos.

Data integration

Este nivel lo conforman los diferentes estándares y especificaciones implantados para poder integrar los datos en toda la organización, de forma que todos los departamentos puedan quedar interconectados mediante un flujo de información. Lo forman dos conceptos:

Interoperabilidad

Los sistemas deben ser capaces de interactuar entre ellos, permitiendo el flujo de datos.

Integración

Debe darse este intercambio de datos entre los sistemas.

Para ello, las áreas deben saber cómo se guarda la información en cada una de ellas. Por ejemplo, en cuanto a la arquitectura o el tipo de datos, ya que para que diferentes áreas puedan conmunicarse, estas se deben entender.

Documents and contents

Este nivel se encarga de los datos que están fuera de las bases de datos. El objetivo es diseñar una serie de reglas para organizar y estructurar esos datos no relacionales, como pueden ser los contratos, las facturas, etc. y además conseguir que el acceso a ellos se lleve a cabo con eficiencia.

Por otro lado, existe otra función de iguales características que se encarga de que datos especialmente importantes y críticos para la organización sean creados de forma consistente y con calidad. Esta función se denominará Reference and master data y se encargará de los siguientes tipos de datos:

1 Datos maestros: son los datos críticos para una organización, los especialmente importantes, y de ellos dependen ciertas operaciones:ClientesEmpleadosProductos o socios
2 Datos de referencia: datos estandarizados que sirven para clasificar información con otra información. Por ejemplo:Género o edadCódigo de un paísTipo de producto

Data warehousing and business intelligence

Este nivel se ocupa de los datos analíticos e históricos de la organización y está compuesto por dos elementos que ya conoces:

Data warehouse

Término que define la base de datos interna de la organización y las gestiones que se realizan con los datos: guardado, extracción, transformación y limpieza de datos.

Business intelligence

Se sustenta en el data warehouse para analizar los datos en busca de información para la toma de decisiones.

Relacionado con el data warehouse, está el nivel de Meta data. La función de los metadatos es describir y etiquetar otros datos para poder clasificarlos, utilizarlos e interpretarlos.

La finalidad de este nivel es la de entender los distintos tipos de datos y si existe redundancia, eliminarla.

EJEMPLO

Algunos de los metadatos más comunes son los siguientes:

1 Nombre de campo.
2 Tipo de dato.
3 Fecha de negocio.

Data quality

Última función que se encarga de que los datos de una organización sean lo suficientemente buenos como para considerarlos de calidad.

A tales efectos, deben cumplir una serie de características:

Consistencia

Deben ser estables y coherentes con lo que representan.

Precisión

Que aporten una fidelidad que se corresponda a lo que muestran o miden.

Completos

Los datos deben aportar un significado lo suficientemente claro como para ser representativos.

Unicidad

No deben aparecer de forma redundante.

Integridad

Que muestren información correcta y estén correctamente relacionados con todas las fuentes.

Conformidad

Deben ser adecuados para su función.

Para hablar de la calidad de estos, además de estos, también son parte fundamental:

Los servicios con los que cuenta la organización.

Los métodos implantados

Las herramientas utilizadas.

TAREA 2

En la unidad de aprendizaje 1 aprendiste cómo integrar en una organización el sistema de big data y las diferentes tecnologías para realizar operaciones con los datos. En esta actividad irás un paso más allá y tendrás que incorporar en el organigrama de la empresa TextilTek S. L. un Departamento de Tecnologías de la Información (IT) que asegure una correcta gestión de los datos de toda la empresa gracias al data management.

Dado el siguiente organigrama de la empresa, crea una estructura en el Departamento IT y explica cómo asegurará la gestión de los datos en toda la organización según el data management y cómo llevará a cabo la organización las funciones de cuantificación, predicción, optimización e innovación con los datos.