Técnicas de minería de datos aplicadas al diagnóstico de entidades clínicas

La Universidad de las Ciencias Informáticas (UCI), posee varios centros de desarrollo de software. El Centro de Informática Médica (CESIM) es uno de ellos, encargado del desarrollo de aplicaciones para el sector de la salud; entre estas se encuentra el Sistema Integral para la Atención Primaria de la Salud (alas SIAPS), el cual posee un componente de tipo Sistema Clínico de Soporte para la Toma de Decisiones (CDSS), para que facilite el procesamiento analítico en línea y la minería de datos y que servirá además al resto de los ambientes bajo un escenario tecnológicamente sólido. Actualmente en el Centro de Toma de Decisiones se está manejando la información con técnicas estadísticas; sin embargo, con estas técnicas no se está aprovechando al máximo la información almacenada.

Las Historias Clínicas Electrónicas (HCE) pertenecientes al alas SIAPS, se encuentran almacenadas en un gran repositorio y su información se envía periódicamente a un Datamart. Dado el gran volumen de datos acumulado en él, y la incapacidad de los especialistas de identificar patrones de comportamiento y extraer conocimiento oculto en los datos almacenados para apoyar sus decisiones, surge la necesidad de aplicar la minería de datos.

En la actualidad, la Hipertensión Arterial se ha convertido en una de las primeras causas de muertes en el mundo. Según el reporte de la Organización Mundial de la Salud (OMS) del 2012 1 de cada 3 personas en el mundo padece de Hipertensión Arterial; además agrega que 1 de cada 10 personas es diabética. Algunos autores como Cumbá, coinciden que anualmente existen 7.2 millones de muertes por enfermedades del corazón. La hipertensión arterial es la segunda causa de muerte a nivel mundial, se reconoce internacionalmente como “muerte silenciosa” pues en la mayoría de los casos los pacientes tienden a ser asintomáticos.

Debido al gran volumen de datos existentes en el datamart, se dificulta la toma de decisiones de los especialistas para realizar un análisis rápido y efectivo y de esta manera encontrar información útil y valiosa oculta en ellos; por otra parte, la no predicción del comportamiento futuro de algunos problemas de salud presentes en las HCE con un alto porcentaje de certeza, basado en el entendimiento del pasado.

La minería de datos es un área de la inteligencia artificial que permite darle solución al problema descrito, la misma se basa en varias disciplinas, algunas de ellas más tradicionales, se distingue de ellas en la orientación más hacia el fin que hacia el medio. Y el fin lo merece: ser capaces de extraer patrones, de describir tendencias y regularidades, de predecir comportamientos y, en general, de sacar partido a la información computarizada que nos rodea hoy en día y que permite a los individuos y a las organizaciones comprender y modelar de una manera más eficiente y precisa el contexto en el que deben actuar y tomar decisiones.

En este artículo se propone exponer, mediante la combinación de dos modelos matemáticos, cómo se puede contribuir al diagnóstico de enfermedades, usando técnicas de minería de datos.

MATERIAL Y MÉTODOS

Para mostrar la forma de combinar los modelos, se tomó como caso de estudio la hipertensión arterial. Esta entidad se encuentra con relativa frecuencia en las personas que trabajan y/o estudian en nuestra universidad, lo que permitió disponer de una base de datos propia que sirviera de ejemplo, a pesar de ser una base pequeña y de personas relativamente jóvenes. La hipertensión arterial no es la entidad más apropiada como ejemplo para el uso de la minería de datos, ya que está bastante bien estudiada y no necesita someterse a estas técnicas informáticas modernas para establecer su diagnóstico positivo. Por este motivo, es importante destacar que los datos analizados en este trabajo pudieran no corresponderse con la realidad. Sin embargo debe prestarse mayor atención a la importancia que tiene la utilización de dichas técnicas en la informática aplicada a la medicina.

Metodología computacional, tecnologías y lenguajes utilizados

Cuando se va a realizar un proyecto de minería siempre es necesario contar con una metodología que guíe todo el proceso. En este caso, se seleccionó CRISP-DM versión 1.0 como metodología de desarrollo a utilizar en el proceso de Minería de Datos.

La CRISP-DM (Cross Industry Standard Process for Data Mining) es una metodología de libre distribución que puede trabajar con cualquier herramienta para desarrollar cualquier proyecto. Esta metodología estructura el ciclo de vida de un proyecto de Minería de Datos en seis fases, que interactúan entre ellas de forma iterativa durante el desarrollo del proyecto. Fue diseñada de forma neutra a la herramienta que se utilice para el desarrollo del proyecto, es de distribución libre y se encuentra en constante perfeccionamiento por parte de la comunidad internacional.

Para realizar el pre-procesado, los que deseen extraer conocimientos a partir de datos deben apoyarse en herramientas de software que les faciliten la tarea. Después de haber realizado un análisis exhaustivo y un estudio comparativo entre aquellas que gozan de mayor popularidad en el mercado se selecciona WEKA versión 3.6.2 como herramienta a utilizar en el proceso de minería de datos.

WEKA (Waikato Environment for Knowledge Analysis) es una herramienta visual de libre distribución bajo licencia GNU desarrollada por un equipo de investigadores de la Universidad de Waikato de Nueva Zelanda. La herramienta está implementada en Java. Es interesante remarcar que, dado que se trata de una herramienta bajo licencia GNU, es posible actualizar su código fuente para incorporar nuevas utilidades o modificar las ya existentes, de ahí que podamos encontrar toda una serie de proyectos asociados a WEKA que permiten garantizar la continua evolución y adaptación de dicha herramienta.

PostgreSQL es un sistema de gestión de base de datos (SGBD) objeto-relacional que posee una gran escalabilidad. Es capaz de ajustarse al número de computadoras y a la cantidad de memoria que posee el sistema de forma óptima, pudiendo soportar una mayor cantidad de peticiones simultáneas de manera correcta. Es multiplataforma, se seleccionó teniendo en cuenta la necesidad de utilizar herramientas libres, para el desarrollo, además de que es un gestor confiable, estable, con control de concurrencia y funcionalidades que lo destacan como uno de los SGBD más potentes en la actualidad.

Trabajos relacionados

Actualmente el panorama es alentador con respecto al desarrollo de aplicaciones que utilizan la minería de datos. Existen un conjunto de técnicas y herramientas capaces de ayudar a la toma de decisiones de los expertos. A pesar de ser relativamente joven, la minería de datos presenta aplicaciones en casi todos los sectores de la sociedad. En la salud, a nivel internacional se destaca la “Aplicación de técnicas de minería de datos para el diagnóstico prematuro del cáncer de mamas”. Este sistema se encarga de realizar un diagnóstico del cáncer de mama a partir de una base de datos de imágenes de mamografías. En Cuba se han desarrollado investigaciones como por ejemplo “Aplicaciones de la minería de datos para el análisis de la Información Clínica”. Este estudio se basa en el apoyo a la toma de decisiones a partir de coronariografías realizadas a pacientes que padecen cardiopatías isquémicas. La UCI tampoco ha estado ajena al desarrollo de aplicaciones que emplean la minería de datos, y en ese sentido se destaca el “Diagnóstico de enfermedades de transmisión sexual mediante técnicas de inteligencia artificial”, que utiliza la información proveniente de un documento Excel para la creación de una aplicación basada en reglas que ayuda a diagnosticar si una persona está infectada de blenorragia o clamidia.

En los tres casos anteriormente mencionados existe una limitante común si se compara con el sistema que este trabajo propone, y es que la información que utilizan para generar los modelos proviene de diversas fuentes y en distintos formatos y no permiten extraerla a partir de un Repositorio Centralizado de Documentos Clínicos.

Solución

Lo primero será crear una vista minable, para ello se deben realizar con anterioridad, según CRISP-DM, varios pasos que posibilitarán la adecuada configuración de los registros que se desean analizar. Los mismos se describen brevemente a continuación.

Para recolectar los datos necesarios en la investigación se hizo un análisis de la hipertensión arterial, para lo cual se le realizaron encuestas a los especialistas en este tema. Cada una de las variables que se tuvieron en cuenta fue localizada en las tablas del almacén de HCE y posteriormente descritas para optimizar la comprensión de las mismas. Los datos contenidos en el almacén fueron sometidos a un riguroso análisis basado fundamentalmente en cuanto a representación de la realidad, consistencia, campos innecesarios, campos vacíos y datos de naturaleza híbrida o poco genuina.

Una vez efectuada la recolección inicial de datos, se procede a su preparación para adaptarlos a las técnicas de minería de datos que se utilicen posteriormente. La preparación de datos incluye las tareas generales de selección de datos a los que se va a aplicar una determinada técnica de modelado, limpieza de datos, generación de variables adicionales, integración de diferentes orígenes de datos y cambios de formato. En este punto se deciden seleccionar los atributos y tuplas que serán incluidos en el proceso de minería.

Atributos: genero_paciente, etnia_paciente, edad_paciente.

Tuplas: Antecedentes familiares de enfermedades cardiovasculares, de diabetes mellitus, de hipertensión arterial y de enfermedades renales; antecedentes personales de enfermedades endocrinas, de enfermedades cardiovasculares y de enfermedades renales; disnea, edemas, palpitaciones, náuseas, cefalea y dolor abdominal.
Posteriormente se analizan los datos que son necesarios para el proyecto y se combinan con el objetivo de obtener la información que proviene de las diferentes dimensiones del almacén de datos integradas en una sola tabla: pre_vista_minable. A esta tabla se le aplicaron un conjunto de transformaciones para las cuales se hizo necesaria la creación de un software desarrollado en el IDE NetBeans, el cual funciona como intermediario entre la tabla md.pre_vista_minable y md.vista_minable_j48 (Fig. 1), tabla que almacena los datos que serán utilizados para la creación del modelo mediante árboles de decisión. Se generó además de la tabla md.vista_minable_j48, una llamada md.vista_minable_skm (Fig. 2), tabla que almacena los datos que serán utilizados para la creación del modelo mediante agrupamiento, la misma es un duplicado de md.vista_minable_j48, la diferencia radica en que sus tuplas son numéricas, esto permite una mejor asignación de las variables a la hora de calcular los centroides de los grupos.

RESULTADOS Y DISCUSIÓN

Los datos utilizados en esta investigación fueron recopilados de 78 historias clínicas de pacientes hipertensos en la Universidad de las Ciencias Informáticas. Debe insistirse en resaltar que al ser datos de pacientes con características específicas, en su gran mayoría jóvenes, esta no es una muestra representativa de la entidad. Sin embargo, la investigación se propone analizar relaciones entre los factores de riesgos (antecedentes patológicos tanto personales como familiares, problemas de salud y hábitos personales) y determinar mediante la técnica de árboles de decisión cuáles son los patrones o comportamientos genéricos que caracterizan a los pacientes que acuden a consulta y que permiten ayudar a predecir la enfermedad, y mediante agrupamiento cuáles son los grupos de edades, regiones poblacionales, y otros datos de interés, que más son afectados por la hipertensión arterial; así como establecer relaciones entre las variables analizadas y cómo influyen unas con respecto a las otras.

A continuación se describen los modelos obtenidos así como los patrones identificados para cada uno de ellos, sin ánimo de generalizarlos, brindando algunos detalles que servirán para una mayor comprensión de los mismos. Seguidamente se muestra el modelo obtenido después de haber aplicado el algoritmo Simple K-Means sobre los datos de entrenamiento almacenados en la tabla vista_minable_skm. Se procedió a agrupar el set de datos en tres grupos. Para la ejecución de este algoritmo es necesario seleccionar un número, denominado semilla, para realizar una distribución aleatoria inicial a partir de la cual el algoritmo comience las sucesivas iteraciones. Para la selección de este número se realizaron 20 corridas consecutivas probando distintas semillas y se seleccionó aquella que minimizaba la suma del error cuadrático (semilla igual 8). Si bien este método heurístico no garantiza la semilla óptima, asegura una relativamente buena asignación. En la figura 3 se sintetiza un fragmento del resultado obtenido con WEKA tras la ejecución de Simple K-Means con 3 grupos y una semilla de 8. Antes de realizar un análisis a profundidad sobre este modelo, primero es necesario observar las características de cada grupo obtenido una vez aplicado el algoritmo.

A partir de la interpretación conjunta de los gráficos de dispersión podemos descubrir en el conjunto de datos lo siguiente:

  • Grupo 0 (40%): se destacan las personas que se encuentran entre 45 y 65 años de edad, predomina el sexo masculino y la mayoría de ellos son de raza mestiza. La distribución de los pacientes que tienen antecedentes patológicos familiares de hipertensión arterial es bastante uniforme; sin embargo, se puede apreciar una ligera mayoría de personas que no tienen este tipo de antecedente.
  • Grupo 1 (26%): Muy concentrado por personas de más de 65 años de edad, generalmente del sexo femenino y hay mayor concentración de personas de raza blanca. En este grupo, aunque al igual que en el grupo 0 existe una distribución relativamente uniforme de casos de antecedentes familiares de hipertensión arterial, es más notable que en la generalidad de los casos tampoco presentan antecedentes de esta índole.
  • Grupo 2 (34%): Representa en su mayoría a las personas que son menores de 45 años de edad, generalmente masculinos de raza negra. Se puede apreciar una notable concentración de personas que sí presentan antecedentes de hipertensión arterial en su familia.
  • Se puede apreciar que en los 3 grupos la generalidad de los pacientes que se encuentran agrupados son personas que tienen hipertensión arterial.

Una vez analizado el contenido de cada grupo se deducen a grandes rasgos los siguientes patrones:

  • En el 40% de los casos de los pacientes que padecen hipertensión arterial están entre 45 y 65 años de edad, son de sexo masculino y de raza mestiza.
  • El 34% de las personas que padecen hipertensión arterial tienen antecedentes patológicos familiares de la enfermedad y consumen tabaco.
  • El 66 % de los casos con hipertensión arterial fueron asintomáticos.

En la figura 4 se muestra un fragmento del árbol obtenido a partir de aplicar el algoritmo J48. Los nodos representan atributos, las ramas representan valores de dichos atributos y los nodos finales representan los valores de la clase. Cada camino del árbol representa una regla.

CONCLUSIONES

El objetivo fundamental de este trabajo ha sido el estudio y análisis de dos técnicas: clasificación y agrupamiento. A lo largo del mismo, se ha llevado a cabo una importante recopilación bibliográfica y revisión teórica sobre algunos aspectos básicos relacionados con el tema. Se han propuesto además, dos modelos matemáticos cuya combinación puede utilizarse como ayuda al diagnóstico de entidades clínicas. Aunque los algoritmos se propusieron en el sector de la salud, su uso no está restringido a esta área. El primer aporte de este trabajo se centra en la construcción de dos modelos mediante clasificación y agrupamiento, árbol de decisión J48, Simple K-Means respectivamente, con la estrategia de encontrar patrones ocultos en los datos clínicos de pacientes que sufren de hipertensión arterial. Además tendrá un aporte práctico basado en que el Sistema Integral para la Atención Primaria de la Salud contará con un soporte de toma de decisiones que lo convertirá en un sistema más robusto, el mismo permitirá acelerar el proceso de análisis de la información de los especialistas en la toma de decisiones médicas. Finalmente, cabe destacar el hecho de que los dos modelos obtenidos han sido evaluados sobre datos reales, comparando sus resultados con los obtenidos de diferentes procedimientos, mediante las propias evaluaciones de los modelos que ofrece WEKA y el visto bueno de los expertos en HTA.

Esta investigación servirá como base para la realización de otros trabajos de manera que perfeccionen lo descrito anteriormente. Servirá de modelo que puede ser implementado en el CDSS y de esta manera encontrar nuevo conocimiento a partir de otras enfermedades, relacionando sus síntomas, causas y diagnósticos futuros.

*Fuente: Revista Cubana de Informática Médica