Buch lesen: "GuíaBurros Big data"

Schriftart:

Big data

Víctor Berástegui

Pilar García

Agradecimientos

Quiero agradecer a Víctor Berástegui la oportunidad que me ofreció de participar con él en la elaboración de este libro y el aprendizaje que ha supuesto en el intercambio de ideas que durante su realización hemos efectuado. A José Hermida por su tiempo y sus palabras en la presentación del libro. A Nico mi compañero fiel también durante todas las horas dedicadas y mi agradecimiento a mis padres siempre.

Pilar García

Quiero agradecer a mi hijo, Fabián, lo mucho que me ha enseñado.

Víctor Berástegui

Sobre los autores

Víctor Berástegui nació en Las Palmas de Gran Canaria en el año 1955. Es jurista especializado en derecho administrativo y su vida profesional la ha desarrollado en Madrid; es letrado, profesor de español como lengua extranjera, un estudioso y experto en historia y filosofía de las religiones y actualmente es delegado de protección de datos en la administración pública. Es coautor del libro GuíaBurros: Masonería.

Pilar García es licenciada en Derecho con formación complementaria en derecho informático, privacidad y seguridad de la información. Su trayectoria profesional se ha desarrollado en el ámbito de la protección de datos y la privacidad y la seguridad de la información como consultora y auditora en proyectos para la Administración, así como en diversos sectores de la empresa privada.

Presentación

Es innegable el gran avance que está sufriendo la tecnología en los últimos años. Nos encontramos en la tercera Revolución Industrial, en pleno auge de términos nuevos como big data y otros no tan nuevos, como inteligencia artificial. Es indiscutible que, para personas cercanas al mundo tecnológico, estos términos están presentes y son comprendidos viendo su potencial sin dejarse llevar por las historias que se aprecian en las películas de ciencia ficción. Sin embargo, la inmensa mayoría de la población no es consciente que estas palabras mágicas conllevan una serie de cesiones de facto. Es simple y sencillo dejarse deleitar por los adelantos técnicos, las comodidades y las posibilidades que nos ofrecen como individuos haciendo que nos olvidemos de las consecuencias que conlleva su uso guiado por los artífices dueños de dichos adelantos.

Todo esto es una ventana a nuestra vida que fácilmente dejamos abierta por excusas como “lo hacemos todos” o “es necesario si quiero este servicio”. Las consecuencias implícitas suponen que nuestra vida se pueda catalogar y clasificar fácilmente para ofrecernos lo que necesitamos (o deberíamos necesitar) y proporcionarnos esa individualidad que tanto nos caracteriza, abrazados por el grupo al que tanto deseamos pertenecer.

En este libro Víctor y Pilar consiguen describir de forma simple y alcanzable por cualquiera los términos de esta nueva era ofreciendo, además, una invitación hacia una reflexión moral y ética de las necesidades de una y las consecuencias de la segunda, una invitación dejada en manos del lector para aceptar, rechazar o, al menos, ser conscientes de todo lo que está ofreciendo a cambio: en términos un poco técnicos, los parámetros de la función de su propia vida.

Accesorios o gadgets simples que miden nuestra actividad, cuánto consumimos, cuánto generamos, nos muestran qué es mejor para nuestro organismo o para nuestro estado de ánimo, neveras que compran solas, televisores listos para darte los buenos días… Todo automatizado, sin un humano por el medio que medie o ratifique los datos: todo son algoritmos que llevan nuestra vida.

José Hermida Prado

Experto en Ciberseguridad

Red Team Lead Telefónica España

Introducción

El propósito de este libro es divulgativo. Los autores queremos trasladar al lector la influencia que tiene la recopilación, almacenamiento, tratamiento y uso de ingentes cantidades de datos en nuestras vidas cotidianas y cómo nos afectarán en un futuro cercano los cambios tecnológicos y los avances científicos. No pretendemos tocar todos los aspectos y consecuencias, muchas todavía impredecibles, que tienen las transformaciones tecnológicas que estamos viviendo en esta época. Esto haría la exposición más compleja y nos aleja del objetivo de transmitir nuestras preocupaciones y reflexiones. La intención clara del libro es mover conciencias, despertar responsabilidades e informar a ciudadanos exigentes y reivindicativos los retos del mundo nuevo que empezamos a vislumbrar. Las expectativas y los resultados conseguidos por el avance de las nuevas tecnologías y las investigaciones científicas son una gran esperanza... pero a veces no tanto. Mucho dependerá de nuestra actitud.

Los autores tenemos formación jurídica. Las normas deben ser cumplidas, pero hemos querido alejarnos de una mera exposición normativa, pues estamos convencidos de que el tema supera los ámbitos legales. El día a día de nuestro trabajo cotidiano, en el ámbito de la protección de datos y seguridad de la información, nos incita a esperanzas y preocupaciones; este libro las recoge. El nuevo panorama tecnológico necesita una reflexión que tenga muy presente el bien común y la dignidad de las personas. Nuestro deseo es que el libro sea útil y contribuya a entender el momento tan emocionante que estamos viviendo.

Es de justicia reconocer el importante papel que la Unión Europea, tanto el Parlamento como la Comisión, están teniendo en la promoción de un modelo de progreso tecnológico que sea referente a nivel mundial por recoger la tradición y valores de respeto a los derechos y libertades.

Dedicamos capítulos independientes al big data, inteligencia artificial e internet de las cosas. Son aspectos diferentes que en muchas ocasiones se aplican conjuntamente, estando todas ellas implicadas en la gestión del dato. Esto se refleja en la lectura del libro y en los diferentes ejemplos que se recogen en cada capítulo.

Simbólicamente, en el Génesis, el ser humano adquiere su autonomía por un acto de desobediencia y de asunción de responsabilidad. Nos gustan los valores de la divisa Libertad, Igualdad y Fraternidad; que los avances tecnológicos ayuden a combatir lo que no nos gusta: la pobreza, los prejuicios, la enfermedad, la discriminación, los abusos, la tiranía. Hemos querido hacer un libro de sólidas convicciones en momentos de pensamiento líquido.

Al ser un libro divulgativo se ha evitado al máximo las citas a pie de página, para facilitar la lectura. Queremos expresar nuestra deuda a los autores que figuran en la bibliografía incluida al final del libro, sin sus aportaciones el resultado habría sido distinto.

Llegados aquí nos viene a la memoria el poema de Bertol Brecht:

General, tu tanque es más fuerte que un coche.

Arrasa un bosque y aplasta a cien hombres.

Pero tiene un defecto:

necesita un conductor.

General, tu bombardero es poderoso.

Vuela más rápido que la tormenta y carga más que un elefante.

Pero tiene un defecto:

necesita un piloto.

General, el hombre es muy útil.

Puede volar y puede matar.

Pero tiene un

defecto:

puede pensar.

Los Autores

Capítulo 1
¿Qué es eso del big data?

Podemos definir el big data como la combinación de una gran cantidad de información obtenida de diversas fuentes susceptible de ser comparada. Es el tratamiento de un gran número de datos relacionados lo que posibilita tomar decisiones basadas en la información obtenida. La finalidad es efectuar análisis predictivos de comportamiento, o estadísticas, basados en el tratamiento de ese gran volumen de datos. Inicialmente no se pretende la adopción automatizada de una decisión, sino obtener un estudio certero de una situación concreta. El big data no adopta una resolución final, lo que hace es suministrar información de acuerdo con los parámetros definidos previamente y facilitar las decisiones. En último término interviene el factor humano.

El avance del big data se basa, por una parte, en la innovación continua de la tecnología para recopilar y almacenar gran número de datos; y por otra, en la capacidad de analizar, comprender y utilizar de manera beneficiosa para las organizaciones el valor de esos datos.

En la aplicación del big data se pueden diferenciar dos fases:

1º Fase.- Análisis de los datos

Se efectúa una observación del conjunto de datos existente. Mediante la comparación de los datos y cruces de información, se logran patrones e inferencias. La obtención de estos patrones e inferencias se consiguen con la ayuda de algoritmos. La finalidad es extraer patrones en base a unas circunstancias determinadas.

¿Qué es un algoritmo? La Real Academia de la Lengua Española define el algoritmo como... Conjunto ordenado y finito de operaciones que permite hallar la solución de un problema.El algoritmo se puede descomponer en dos partes:Una serie de instrucciones que se deben ejecutar en un orden. Una receta de cocina es un algoritmo ( Primero picar la cebolla y sofreír a fuego lento. Después añadir las espinacas, etc…).El objetivo es obtener un resultado o resolver un problema. (En nuestro ejemplo ese resultado es poner en la mesa el plato de espinacas que estamos preparando).Los algoritmos eran usados ya en el imperio babilónico. Con la llegada de los ordenadores y las nuevas tecnologías, el tratamiento masivo de datos está revolucionando el mundo.En resumen: algoritmos + computadoras y nuevas tecnologías = revolución actual.

Una vez que se han elaborado los patrones e inferencias, se produce una revisión de estos para eliminar fallos lógicos, técnicos, o éticos. Por ejemplo: desaciertos como la existencia de sesgos discriminatorios en el conjunto de datos o en la técnica utilizada. La existencia de errores supone que los patrones obtenidos no son válidos y no se obtendrían resultados predictivos aplicables a otros sujetos.

2º Fase.- Aplicación de los modelos predictivos

Los patrones e inferencias obtenidas se aplican a un caso concreto con el objetivo de adoptar decisiones basadas en el análisis realizado.

Modelos PredictivosSe intenta hacer predicciones acerca del futuro de acontecimientos no conocidos utilizando una variedad de técnicas para analizar datos históricos y actuales.La finalidad del modelo es predecir tendencias y patrones de comportamiento.El análisis predictivo se usa actualmente en muchos sectores: banca y sector financiero, seguros, sector sanitario, etc.

La tecnología del big data, siguiendo la definición ofrecida en el año 2001 por el analista Gartner Doug, se basa en los siguientes aspectos:

Volumen. El gran volumen de datos que se maneja (terabytes o petabytes)¹ .

Variedad. Variedad en la tipología de datos y la procedencia de estos.

Velocidad. La velocidad en la clasificación y procesamiento de los datos.

A esta definición de Gartner, se suman otras dos características más:

Veracidad. Veracidad de los datos que se tratan. El big data debe garantizar la exactitud de los datos para obtener información cierta que permita la adopción de decisiones correctas.

Valor. El valor añadido que implica esa recopilación, almacenamiento y procesamiento de los datos, para la toma de decisiones en un contexto determinado.

El objetivo claro de todo este proceso de tratamiento de datos es obtener resultados que puedan ser de utilidad. Esta actividad de análisis para descubrir patrones, y conseguir información útil, es lo que se conoce como minería de datos.

Se ha llegado a afirmar que los datos son el petróleo del siglo XXI. La minería de datos no es más que el conjunto de técnicas y tecnologías cuya finalidad es encontrar patrones por medio de la tecnología. Llegar a conclusiones que conviertan en información útil lo que antes era un conjunto deslavazado de datos.

El big data es uno de los iconos de la actual sociedad de la información, aunque, en el fondo, solo es un paso más en el deseo del ser humano por entender el mundo y sus leyes: es fruto de la lucha por comprender lo que nos rodea, en este caso ordenando el caos de los datos, Ordo ab Chaos. Este sentimiento es innato en nosotros. La vida humana, en el Génesis, comienza con la rebeldía y la desobediencia al comer Adán y Eva del árbol del conocimiento. Más de 400 años antes de Cristo, en el Ion, diálogo atribuido a Platón, se plantea la racionalidad como método para entender el mundo y alejarnos de los caprichosos dioses cantados por los poetas. En esencia hablamos de lo mismo.

Uno de los ejemplos más emblemáticos de big data, y que siempre se menciona, ocurrió en 2012 en EEUU. El protagonista es la cadena de distribución minorista Walmart, con más de 245 millones de clientes que visitaban sus 10 900 tiendas y con presencia en 10 países de todo el mundo. Las inversiones tecnológicas permitieron a la cadena de distribución tener más capacidad de procesamiento de la información que el propio gobierno de EEUU. La empresa consiguió conocer con anticipación el impacto del huracán Katrina sobre las ventas y aprovisionar sus tiendas con los productos demandados por los clientes. Analizó las pautas de compra cuando se acercaba un huracán, identificó el tipo de productos que se demandaban y la cuantía en base al nivel de alerta que los telediarios daban día a día. La empresa estudió esta información durante años. En 2012, cuando se acercaba el huracán Katrina, el supermercado fue capaz de predecir con gran exactitud como tenía que aprovisionar sus tiendas y en qué volumen para satisfacer las demandas de los compradores.

Actualmente estamos en un momento de la historia de la humanidad dónde prácticamente toda la información está en formato digital. El caso de los supermercados Walmart y su gestión de las ventas en el huracán Katrina, ocurrida ya en 2012, nos acerca a la idea principal: el tratamiento de cantidades masivas de información con el uso de la tecnología permite comprender y descubrir hechos y tendencias que hasta hace muy poco estaban ocultas al observar las bases de datos.

Ahora bien, ¿de dónde se obtienen los datos? Los datos que se utilizan tienen su origen, entre otras, en las siguientes fuentes:

Redes sociales: las empresas, a través de sus perfiles en diferentes Redes Sociales, obtienen información de sus clientes tanto actuales como potenciales.

Internet de las cosas: los dispositivos conectados a la red recaban gran cantidad de datos relacionados con el usuario.

Open data: datos compartidos por instituciones o empresas que permiten su uso libre.

Datos internos: son los datos que las empresas recaban directamente de su relación con el cliente, por ejemplo, a través de encuestas de satisfacción.

Los datos empleados en el big data pueden ser estructurados o no estructurados. Los primeros son aquellos que están definidos previamente, a los que podemos imaginar como un archivador perfectamente organizado en filas y columnas con datos de dirección, código postal, edad, nacionalidad, etc.; los podríamos ordenar y procesar fácilmente. Por su parte, los datos no estructurados carecen de predefinición, no tienen estructura interna identificable, siendo un conglomerado que no tiene valor hasta que no se realiza una labor de identificación y clasificación de manera organizada; serían los datos contenidos en un campo de texto libre: un correo electrónico, un comentario en redes sociales, audios, videos, etc. Los datos no estructurados son datos en bruto y no organizados.

En los últimos años se ha producido un cambio radical en el concepto y valor que las empresas y organizaciones dan a los datos que manejan. Ahora inciden en la explotación eficiente de los datos que poseen, lo cual les permite obtener ventajas, posicionarse en el mercado, dar un mejor servicio a clientes, optimizar el uso de recursos, etc. Se ha implantado la cultura del dato dentro de las organizaciones y la información ha pasado a ser uno de los mayores activos de las empresas. El uso eficiente de los datos permite diseñar estrategias de futuro con un conocimiento exacto de los gustos y tendencias de los clientes o usuarios. Diseñar y ofrecer productos o servicios enfocados a su target o nicho de mercado de manera personalizada.

Estamos asistiendo al proceso de “monetización del dato”. Este es un activo de la organización y tiene un valor económico. Se puede aprovechar la comercialización de los mismos, tal y como hacen las grandes empresas tecnológicas como Google, Apple o Facebook; o bien puede hacerse un uso interno para diseñar una estrategia empresarial.

En el caso de las grandes tecnológicas, no se trata de una venta directa de datos, sino de ponerlos a disposición de terceros, por ejemplo, para que aparezcan los anuncios de la empresa cliente en los perfiles de los usuarios que se correspondan con su público objetivo.

La utilización de big data es relevante en el mundo de las empresas, pero no se limita su uso solo a este ámbito. Así, por ejemplo, es notoria la utilización del big data en el campo de la medicina. En la investigación, y los tratamientos médicos se almacenan gran número de datos relacionados con los pacientes: identificativos, edad, sexo; junto con otro tipo de datos no estructurados: tratamientos, pruebas realizadas, diagnósticos, etc. La utilización del big data permite crear historiales clínicos detallados que faciliten adoptar decisiones más ajustadas a la situación clínica del paciente concreto; posibilita la predicción de enfermedades y la prescripción de tratamientos personalizados.

Lectura rápidaUn ejemplo es Watson desarrollado por la empresa IBM, un procesador de lenguaje natural que es capaz de leer 200 millones de páginas en tres segundos. De esa forma, puede analizar el historial de un paciente y sus síntomas y crear una lista de enfermedades probables, ayudando así a dar un diagnóstico correcto.

Hacíamos mención a las diversas fuentes de los datos y, sin duda, las redes sociales son unas de las más relevantes. Según el estudio de Domo² sobre las principales redes sociales, en 2019 se generaron los siguientes datos por minuto en el mundo en las principales redes sociales:

Instagram: 277 777 historias publicadas/ por minuto.

YouTube: 4 500 000 vídeos visualizados/ por minuto.

Twitter: 511 200 tuits publicados/ por minuto.

Tinder: 1 400 000 swypes/ por minuto.

Pero, ¿cómo se genera ese elevado volumen de datos en ellas? Veamos el proceso:

Nuestros datos en la redes socialesNos registramos en una red social y empezamos a dar datos: nombre, apellidos, donde vivimos, edad, profesión, nivel de estudios, estado civil, si tenemos hijos, si tenemos mascota...ya estamos registrados......y seguimos generando datos. Damos un “me gusta” o “no me gusta”. Compartimos contenidos nuestros y de otros. Seguimos a una empresa o a una marca, a un grupo político, a una asociación religiosa o cultural. Hacemos comentarios y expresamos nuestras opiniones sobre cualquier tema.A través del procesamiento de todos estos datos, y con la utilización del data mining³, se elaborarán patrones que se convertirán en información de gran valor sobre diferentes segmentos de población (social big data). Toda esta información que los usuarios libremente han ido facilitando no hace difícil hacer un perfil detallado y exacto de cómo somos, qué nos gusta y qué pensamos.

No siempre somos conscientes del rastro que vamos dejando. Accedemos a una página web, navegamos por ella. Hacemos clic en alguna opción o hacemos scroll, nos deslizamos en la página. Entramos en nuestra banca online y hacemos una transacción, visualizamos un contenido. Nos suscribimos a una newsletter. Estamos generando datos. Conectamos nuestro móvil o nuestra tablet a otros dispositivos: damos más datos. Utilizamos un asistente personal y le pedimos que nos busque información, que nos ponga una canción: estamos difundiendo datos. Usamos el navegador o una pulsera inteligente que nos dice los pasos que hemos dado, las horas que hemos dormido y cuando las hemos dormido: publicamos datos. Los dispositivos conectados que utilizamos en nuestro día a día están comunicando datos sobre nosotros: hábitos, preferencias, etc. Leemos un artículo en un periódico digital, páginas a las que accedemos, compras online que realizamos, sitios web en los que nos registramos, uso que hacemos de las redes sociales. Vamos dejando un rastro de toda nuestra actividad: nuestra huella digital. Deberíamos ser conscientes de que estos servicios no son gratis: a cambio de utilizarlos, estamos dando acceso a nuestra alma.

Y ¿qué hace el big data con toda esa información? Recaba los datos, los almacena y los procesa y los vuelve a reunir. Utiliza algoritmos predictivos y prescriptivos; extrae la información requerida; y elabora patrones de comportamiento que se utilizan para desarrollar oportunidades de negocio, diseño de nuevos productos o servicios, estimaciones de venta, elaboración de campañas de marketing personalizadas para un tipo de cliente objetivo (social marketing).

¿Cuánto vale nuestra alma?En resumen, la información es el activo de más valor para las empresas y deberíamos plantearnos que los servicios que nos ofrecen no son gratis. Al final, la empresa recibe un activo de gran valor: nuestros datos.

Die kostenlose Leseprobe ist beendet.