La toma de decisiones basada en datos ¿Datos cedidos, públicos o generados?

imagen autor
Àlex Casadevall. Senior consultant & deputy manager. Evidenze Digital Health.

La toma de decisiones basada en datos ¿Datos cedidos, públicos o generados?

03/4/2023
1202
En una realidad en la que ser donante de datos es menos probable que ser donante de órganos, en Evidenze explotamos los datos para conseguir información relevante, utilizando la tecnología más como camino que como fin y empezando por el final: ¿qué quieres conseguir?

¿Sabías que eres donante de órganos pero no de tus datos?
Pues sí, de acuerdo con la ley en España (artículo 9 del real decreto 1723/2012) la obtención de órganos de donantes fallecidos con fines terapéuticos podrá realizarse si la persona fallecida de la que se pretende obtener órganos no ha dejado constancia expresa de su oposición. En la práctica, si no constan las últimas voluntades se pregunta a los familiares del difunto. Esto y la generosidad de los españoles quizá sean lo que explica que España vaya históricamente a la cabeza con 40 donantes por millón de habitantes, duplicando a países vecinos como Italia, Estonia, Croacia, Portugal…

¿Y qué pasa con los datos?

Pues pasa que la propiedad es del paciente (vivo o no), aunque el tratamiento esté a cargo de un hospital. Esto está ampliamente recogido y descrito en el Reglamento General de Protección de Datos (RGPD) y en la Ley Orgánica Protección de Datos Personales y Garantía de los Derechos Digitales (LOPDGDD). Si bien es cierto que no va a ser fácil conseguir que nuestro hospital nos dé acceso a ellos, el hospital tampoco puede utilizarlos ni compartirlos con nadie por el hecho de ser datos personales, aunque… no son pocas las veces que interactuando con los departamentos de informática se sorprenden al hacerles ver que no son los propietarios de los datos.

Ahora bien, si hilamos más fino y teniendo en cuenta que los datos PER-SO-NA-LES son los que quedan protegidos. Ahí es donde empieza la confusión: tu peso es un dato personal? Tu edad? Tu estudio genético? Al final, lo que acaba imperando es la máxima protección, que en Evidenze resumimos en que todo uso de dato que permita identificar a su propietario se considera un dato susceptible de requerir el consentimiento del propio propietario.

Y ahí es en según que proyectos donde se necesita tirar de técnicas de anonimización, en las que no vale dejar el peso, la edad y el número de pie: igual entre tus vecinos eres el único que pesa lo que tú, tiene tu edad y tu número de pie. Entonces es cuando crear grupos suficientemente grandes de pacientes similares para garantizar su anonimidad toma sentido: intervalos de peso, años de nacimiento y números de pie. En este tipo de datos es fácil, pero no siempre se puede anonimizar: cómo anonimizas un lunar? Y un estudio genético?

De sentido común o no, en teoría esta realidad permitiría trabajar, analizar y explotar datos, más aún si es con fines legítimos y amparados por un comité ético. En la práctica, la realidad es más tozuda, conservadora y resistente al cambio. Es por ello por lo que surge la necesidad de explotar los datos de una forma consensuada con iniciativas como el Espacio Europeo de Datos Sanitarios o GAIA-X. Sean la solución a todos nuestros problemas de acceso, análisis y explotación del dato o no, lo cierto es que falta un rato largo para que sea una realidad.

¿Cómo hacemos proyectos basados en datos?
En la estrategia basada en datos que llevamos a cabo en Evidenze tenemos un abordaje propio con múltiples caminos y fuentes de datos. Por un lado, explotamos datos de fuentes propias y de terceros con aprobación de los comités éticos respectivos, por el otro nos conectamos a fuentes de datos públicas (datasets anonimizados como el INE, MIMIC del MIT, UK BioBank, AmsterdamUMCdb u otros) y si no es suficiente con estos dos abordajes, nos planteamos generar los datos directamente de la fuente de análisis: paciente, servicio médico, delegado, departamento de ventas, etc. Te contamos algunos casos de éxito en la última sección, antes veamos cómo lo trabajamos.

Siendo verdad que no hay dos proyectos iguales, también es verdad que tanto si hay muchos datos como si hay sólo algunos, algo se puede hacer; siempre! Puede que no se necesite el último algoritmo de machine learning, ni deep learning ni ninguna red neuronal convolucional. Puede que se quede en Business Intelligence. Pues vale. Esto lo tendremos que ver en función de lo que queramos hacer y de los datos que tengamos. No todo alrededor de la tan coreada RWD tiene que llevar una etiqueta que no entendemos para ser seductor y sugerente. En Evidenze vemos a la tecnología como el camino para conseguir un fin, utilizaremos una u otra tecnología (con o sin el apellido learning) en función del binomio objetivo-datos. Es más fácil contarlo que hacerlo, son “únicamente” 3 pasos: el primerísimo es entender la regla de negocio o retorno esperado (¿qué buscas?, ¿para qué lo buscas?, ¿qué quieres hacer con ello?). El segundo paso es digerir los datos suficientemente como para acercarnos lo suficiente para esclarecer si va a ser posible sacar lo que buscamos de los datos que tenemos. Con esta prueba de concepto hecha, ahondamos más todavía y entramos en el tercer y último paso donde explotamos y desplegamos los procesos y resultados que hemos conseguido. Si estabas echando en falta alguna palabra técnica, pues es a partir del segundo paso cuando creamos los ETLs que deben de conectarse con el motor de inferencia y permitir a los motores de procesos e integración dar los resultados esperados en el dashboard diseñado para el punto 3.

Dejamos para otra ocasión profundizar en la calidad del dato, puesto que partir de una mala calidad del dato es la principal fuente de problemas en explotación de datos, lo que en inglés se resume con rubish in, rubish out. En Evidenze lo resumimos como que más vale saber que estás desinformado a tomar decisiones con mala información.

Y es que… se necesita un cambio de foco: liberarnos de la carga de la obtención de los datos y pensar más en lo que realmente queremos conseguir de ellos. Datos hay y más que habrá: ¿qué quieres que te consigamos?

Algunos casos de éxito
Nota: los casos que os podemos contar son aquellos que han sido publicados anteriormente o son de dominio público.
En todos los proyectos que hacemos en Evidenze alrededor de la explotación del dato la relación con el que quiere sacar algo de ellos (laboratorio farmacéutico, hospital, servicio, departamento, profesional sanitario, etc.) debe ser fluida y constante, puesto que la interpretación de los datos no siempre es trivial para nuestros científicos de datos. Este es el más habitual de los escenarios, en el que los datos son aportados por un tercero en forma de historia clínica o similares. Cuando esto sucede, se pueden conseguir cosas como la que hicimos en el año 2017 para un cuarto de millón de historias clínicas de la primaria en Catalunya. En ellas clusterizamos los pacientes con diabetes tipo 2 en 7 segmentos, hasta aquí todo es camino y nada es objetivo, pues la finalidad de esta segmentación no era otra que entender lo que hacía que un paciente perteneciera a un determinado segmento y con ello poder entender cómo pasar a los pacientes de un segmento con mal pronóstico (hipoglucemias) a uno con mejor pronóstico (buen control de la glucosa en sangre).


Pacientes clusterizados en 7 segmentos

Otro ejemplo es con datos de fuentes públicas, mezclando datos de perfil poblacional (edad, ingresos, esperanza de vida, enfermedades habituales, barrio, etc.) permitiendo establecer un criterio de fragilidad emocional que permite predecir la demanda en recursos sociales o de salud mental. In-sis-to: datos. De. Fuentes. Públicas.


Índice de fragilidad según clúster (izquierda) y ubicación geográfica (derecha)

Y cuando tener buenos datos de fuentes privados o conseguirlos de fuentes públicas no es viable, lo que hacemos en Evidenze es ir directamente a la fuente, a quien genera el dato: el paciente (toma de la medicación, actividad física, etc.), el médico (frecuencia de seguimiento, tratamiento habitual, etc.), el delegado (visitas, ventas, materiales enseñados, etc.). Hugo es una aplicación creada para los pacientes con esclerosis múltiple que recoge datos directamente de ellos para apoyarlos a lo largo de su patología, sugiriéndoles cambios de comportamiento en sus hábitos diarios y basando esas sugerencias en el análisis de pacientes similares con menor o mayor éxito que uno mismo.


Reporte de HugoEM

Categorias:

Más sobre Evidenze


Evidenze es una compañía Internacional de servicios y soluciones en la gestión del conocimiento en salud. Especializada en investigación clínica, formació...

Saber más

Servicios:

Data management
Estadística
Estudios clínicos
Estudios observacionales

Articulos relacionados:

Logo
Rocío Rodríguez. Consultant. Cegedim Healthcare Spain.
¿Pueden la Inteligencia Artificial o el Machine Learning trabajar sin datos de calidad?

La Inteligencia Artificial y el Machine Learning están de moda. Las empresas y cualquier sector de la sociedad comentan las bondades de esta tecnología innovadora. Pero ¿qué es la Inteligencia Artificial (IA)? La IA es una tecnología que muestra la culminación de la inteligencia humana y el procesamiento informático. Fundamentalmente lo que se hace es recopilar información de varias fuentes y utilizar los algoritmos adecuados para...

Abr. 2024
Logo
Alejandro García Guzmán. Experto CSV/CSA/DI. GLASPE (Global Association for Professional Development), México.
El presente y futuro de la Validación de Sistemas Computarizados y la Inteligencia Artificial en el sector farmacéutico

El sector farmacéutico ha sido históricamente pionero en la adopción de avances tecnológicos, y esta tendencia se mantiene en la actualización de equipos, sistemas e instrumentos basados en inteligencia artificial (IA). Estas tecnologías abarcan desde el descubrimiento de nuevos fármacos hasta la optimización de procesos de fabricación y la gestión mejorada de datos en diversas etapas de la producción de medicamentos. La IA se ha...

Mar. 2024