Superabundancia de datos, escasez de información

En la era de la información en la que vivimos, se constata una incómoda paradoja en todos los ámbitos del conocimiento y del comercio: estamos rodeados de bases de datos, pero esos datos a menudo exceden nuestra capacidad de análisis.

A tal punto ocurre así, que en muchas organizaciones las estrategias se delinean a pura intuición. Sus tomadores de decisiones, sencillamente, carecen de  herramientas de análisis que les permitan exprimir las bases de datos para extraer información útil.

Los datos abundan, la información útil escasea; he ahí la paradoja.

Mejor les sería a tales organizaciones encomendar el análisis a usuarios expertos, que dominen las bases de datos. Pero esa es una alternativa pasible de prejuicios, no exenta de visiones sesgadas, cuando no de conflictos éticos.

Y es así que surge la necesidad de un análisis sistemático imparcial y de un software que lo haga posible.

Se necesita, pues, un sistema que sea capaz de adentrarse en una montaña de datos archivados —y a los que nadie recuerda o les presta atención— y que devuelva conocimiento útil y de alto valor. Como si de extraer pepitas de oro de una enorme montaña se tratase.

Un sistema así proporcionaría, por ejemplo, un filtrado automático que deje de lado los datos irrelevantes (lo que los técnicos en las ciencias de la información denominan “ruido”).

Un buen sistema de extracción de valiosas pepitas de conocimiento debería ser capaz, además, de integrar y consolidar datos de múltiples y muy variadas fuentes.

Por ejemplo, sabría leer, convertir y transformar textos en HTML, XML, valores delimitados por comas o tabuladores.

Además, sería capaz de abrir archivos de diferentes plataformas (Windows, Unix, Linux) y comprender caracteres de todo tipo (ASCII, Unicode) para extraer datos de informes (estructurados y no estructurados), independientemente de sus dimensiones.

Luego, el sistema se ocuparía de “leer entre líneas”, es decir, de buscar patrones repetitivos entre los datos.

Acto seguido, destacaría aquellos que evalúe como interesantes: patrones de conducta, hábitos de compra, tendencias, ciclos…

Finalmente, el sistema se ocuparía de presentar el conocimiento en forma visual, clara y amena para el usuario.

Bueno, ese sistema ya existe, por supuesto.

Se lo conoce como Minería de Datos y forma parte del proceso de Descubrir Conocimiento a partir de bases de datos.