Cuando en 1859 una tormenta marina hundió la fragata Royal Charter con más de 400 personas a bordo, la Corona británica financió al marino y científico Robert FitzRoy para que mejorara los pronósticos meteorológicos en las rutas comerciales marítimas. FitzRoy diseñó una red de estaciones en los principales puertos europeos y utilizó el telegrama -que en aquel entonces era ‘nueva tecnología’- para recibir informes meteorológicos diarios. Con esta información creó los primeros mapas del tiempo y acuñó el término weather forecast, o ‘predicción meteorológica’. Gracias al conocimiento de condiciones del tiempo potencialmente peligrosas, este pionero de la ciencia de datos no solo contribuyó a evitar catástrofes económicas por la pérdida de barcos, sino a salvar numerosas vidas. Hoy en día los científicos de datos que trabajan en el ámbito de la medicina hacen algo parecido: utilizan macrodatos, o Big Data, y la nueva tecnología -la computación avanzada- para predecir eventos de deterioro clínico o desarrollar estrategias de medicina personalizada y así ayudar a mejorar el cuidado clínico y salvar vidas.
La ciencia de datos, o data science, tiene como objetivo principal la transformación de datos complejos en conocimiento accionable, o actionable knowledge, es decir, información que se puede usar para lograr un objetivo. En el caso de la medicina, los datos biomédicos (como la historia clínica, los datos fisiológicos, la información biomolecular, etcétera) se analizan usando algoritmos de inteligencia artificial, o machine learning, para generar nuevos conocimientos y traducir esos conocimientos en decisiones clínicas que mejoran la salud, previenen eventos adversos, o reducen los costes sanitarios (véase la figura 1).
Figura 1. La ciencia de datos en medicina: el trayecto desde los datos al impacto clínico.
Reconocimiento de patrones
La identificación de patrones es fundamental en la ciencia de datos, como en cualquier otra área científica. Entender cómo se relacionan los fenómenos naturales es la esencia científica y el científico vive buscando explicar esas relaciones. Cuando a Isaac Newton le cayó la manzana en la cabeza y empezó a concebir el concepto de la gravedad, pronto se dio cuenta de que esta explicaba la relación orbital entre la Luna y la Tierra de manera perfecta. El descubrimiento de ese patrón causó una revolución en el conocimiento científico, pero aún así, en su estado fundamental, se trata de una relación lineal relativamente fácil de calcular: si uno conoce la masa de dos objetos y la distancia que los separa, uno puede calcular la fuerza gravitacional entre ellos. Explicaciones lineales como esa son fáciles de entender y representar de manera matemática, y la ciencia está llena de ese tipo de patrones lineales, los de tipo: “A” afecta a “B” y causa “C”. Desafortunadamente, aunque al ser humano le encanta buscar explicaciones lineales para todos los fenómenos que observa (“A Tomás le dio una neumonía viral porque no toma suficientes vitaminas”), la realidad es que la mayoría de los fenómenos son el resultado de una multitud de factores y de miles de relaciones complejas (en el caso de Tomás: la prevalencia de virus en su comunidad, los contactos con personas infectadas, su predisposición genética, su dieta, etcétera). Esas relaciones complejas no son lineales y a veces son difíciles de concebir si no se tiene toda la información o si la información no está organizada de manera que sea más fácil de asimilar.
Un ejemplo clásico de como conectar datos complejos se puede encontrar durante el brote de cólera en Londres de mediados del siglo XIX. John Snow, un brillante médico (al que no debemos confundir al otro Snow de fama literaria), observó que los distritos del sur de la ciudad sufrían la mayor cantidad de muertes por cólera, pero no sabía si las muertes seguían un patrón más específico que ese. Los distritos del sur eran los más pobres y es posible que esa fuera la explicación de la alta mortalidad. Pero Snow no estaba seguro y decidió recolectar información de distintas fuentes para poner a prueba su hipótesis. Para eso, usó el registro de las defunciones (quién había muerto y cuando), el censo poblacional (con la dirección del domicilio de los fallecidos) y el mapa de la ciudad (con la relación geográfica de todos los domicilios en los distintos barrios). Hoy en día llamaríamos esa información recolectada por Snow una base de datos multidimensional, ya que contiene las dimensiones de cantidad (número de fallecimientos por cólera), tiempo (cuando ocurrieron), lugar (dónde ocurrieron), y relación geográfica (la distancia entre los distintos domicilios). Una vez recolectados los datos, Snow integró esos datos para poder ver la relación entre ellos de manera más fácil. En su caso, Snow decidió anotar todas las muertes en el mapa de los barrios para así poder visualizar la relación geográfica (véase la figura 2).
Figura 2. El mapa de cólera de John Snow. A la izquierda se ve el barrio de Soho en Londres y a la derecha un detalle alrededor de Broad Street. Las barras negras representan el número de muertos en los distintos domicilios.
Al ver el mapa, Snow, que sospechaba que la epidemia se debía a la ingesta de aguas contaminadas, le quitó la manivela a la bomba de agua de Broad Street y -según cuenta la leyenda- puso fin al brote de cólera. Este evento se considera el nacimiento de la epidemiología moderna y uno de los primeros ejemplos de ciencia de datos en medicina. Snow siguió todos los pasos discutidos más arriba: recolectó datos complejos (fallecimientos por cólera, domicilios de los fallecidos, mapas con la ubicación de las bombas de agua), los conectó (en el mapa de la figura 2), generó un nuevo conocimiento y una hipótesis (las muertes se concentraban alrededor de Broad Street y es posible que la bomba de agua de esa calle estuviera contaminada por cólera), tomó una decisión para comprobar su hipótesis (le quitó la manivela a la bomba de agua para que no se pudiera extraer más agua) y esto resultó no solo en una confirmación de su hipótesis sino también en un impacto clínico (reducción de muertes por cólera).
La lupa del siglo XXI: los algoritmos de machine learning
Hoy en día, los datos recolectados por Snow podrían almacenarse fácilmente en un centenar de filas en una hoja de cálculo de Excel y el mapa podría enviarse por email con espacio de sobra. Es decir, no se consideraría un problema de macrodatos. Sin embargo, actualmente se generan aproximadamente 2,500 exabytes de datos biomédicos anuales. Es decir, cada año las ciencias biomédicas generan y digitalizan datos que ocupan el equivalente a 5,000,000,000,000 de discos duros de 500 gigabytes (ó 1,250,000,000,000,000,000,000,000 filas de Excel). Si uno quiere empezar a comprender tan solo una fracción de ese océano de datos, una hoja de cálculo y la capacidad mental de un solo ser humano no van a ser suficientes.
Ahí es dónde entran los algoritmos de machine learning. Mientras que el ser humano medio puede absorber y digerir de cinco a siete datos a la misma vez para tomar una decisión, un algoritmo de machine learning puede procesar miles o millones de datos. Y si la capacidad de los servidores o los procesadores que le dan vida al algoritmo se agotan, simplemente se pueden añadir más. Es más, los algoritmos no están limitados por sesgos humanos como el pensamiento lineal, la representación tridimensional, o los prejuicios cognitivos.
Hay muchos tipos de algoritmos de machine learning pero, por regla general, los dos tipos de algoritmos más comunes son los de aprendizaje supervisado y los de aprendizaje no supervisado (Figura 3). La diferencia entre estos dos grupos de algoritmos es el tipo de aprendizaje automatizado que hacen. En el caso de los algoritmos de aprendizaje supervisado, el objetivo es entender las relaciones entre una serie de datos de base y un evento o resultado. Por ejemplo, el objetivo puede ser aprender la relación entre las características clínicas de distintos pacientes críticos y sus resultados clínicos (si fallecieron o no), como se ve en el ejemplo de la figura 3A. A estos algoritmos se los llama “supervisados” porque al algoritmo se le dice cual es el resultado clínico y así se “supervisa” lo que aprende el algoritmo. Exactamente cómo se aprenden las relaciones entre los datos y el resultado depende del algoritmo en concreto, por ejemplo, se puede usar métodos de regresión (como los algoritmos de Lasso o MARS), o árboles de decisión (como los algoritmos de Random Forest o XGBoost), u otro tipo de algoritmos (Support Vector Machine, Deep Learning, etcétera). Una vez que se hayan aprendido esas relaciones en un problema específico (en nuestro ejemplo, el riesgo de mortalidad en pacientes críticos), el algoritmo produce un modelo matemático. Ese modelo es la representación matemática del patrón que describe la relación entre los datos de base y el resultado final. Para determinar la calidad del modelo y asegurarse de que el modelo haya aprendido las relaciones reales (y no simplemente las relaciones esporádicas llamadas “ruido”) se puede comprobar si el modelo es capaz de predecir correctamente los resultados en nuevos casos con nuevos datos.
Figura 3. Los algoritmos de machine learning en biomedicina se suelen dividir en dos grupos: los de aprendizaje supervisado (ejemplo A) y los de aprendizaje no supervisado (ejemplo B).
Por otro lado, los algoritmos no supervisados tienen como objetivo buscar agrupaciones naturales entre los datos. En este caso no hay supervisión porque no hay un resultado o evento que se tenga que aprender, lo que se aprende son los distintos grupos que se pueden formar con datos de distintas dimensiones. En el ejemplo de la Figura 3B vemos como un algoritmo no supervisado descubre tres grupos más homogéneos entre una población heterogénea de pacientes críticos usando datos de distintas dimensiones (historia clínica, datos fisiológicos, etcétera). Esta información se puede usar, por ejemplo, para explorar las diferencias biológicas entre los distintos grupos y así descubrir nuevas vías patológicas que se puedan usar para desarrollar estrategias de medicina personalizada.
De los modelos al impacto clínico
Como en todas las ciencias, la evidencia empírica es una parte fundamental en la ciencia de datos. La validación y replicación de los modelos (donde se evalúa su precisión y robustez) es el primer paso en el proceso de generación de evidencia en la ciencia de datos, pero aún más importante es la utilidad de los modelos. Por ejemplo, un modelo puede tener una precisión muy elevada para predecir mortalidad y es posible que los mismos resultados se puedan replicar en pacientes de distintos hospitales en distintos países. Pero si el modelo solo es capaz de producir una predicción correcta diez minutos antes de que el paciente fallezca, su utilidad clínica será muy baja. Así mismo, si hay un modelo que es capaz de predecir con alta precisión qué pacientes con infecciones van a desarrollar choque séptico, pero requiere un análisis genético completo, veinte pruebas de laboratorio y varias horas de datos fisiológicos continuos, su utilidad clínica será también bastante baja.
La ciencia de datos en medicina, por tanto, no requiere simplemente recolectar datos complejos y usar algoritmos de machine learning de manera indiscriminada, se trata de desarrollar modelos para resolver problemas clínicos importantes con resultados accionables y de utilidad clínica. Es por eso que los mejores equipos de ciencia de datos son aquellos que tienen representación multidisciplinar, incluyendo los especialistas matemáticos y los especialistas clínicos. Por último, los especialistas en informática médica, que son expertos en la implementación de los sistemas de apoyo a la decisión clínica (o clinical decision support systems o CDS), suelen ser miembros claves en los equipos de ciencia de datos con mayor éxito. Los sistemas de CDS son programas de software que pueden facilitar el uso de los modelos en la vida real y así ayudar a los sanitarios a tomar las decisiones que mejoren la calidad de la asistencia clínica. El desarrollo e implementación de estos programas de CDS no solo cuenta con requerimientos técnicos (por ejemplo, que estos sistemas funcionen en tiempo real con pocos fallos y con alta precisión), también incluye requerimientos humanos (por ejemplo, que el sistema se integre de manera natural con el flujo de trabajo clínico, con pocas interrupciones y pocas falsas alarmas).
Retos y oportunidades
Si uno escucha a un científico de datos hablar de su trabajo, uno puede caer en la tentación de pensar que todos los problemas en medicina serán resueltos por la ciencia de datos. Por supuesto, no hay nada más lejos de la verdad. Si la ciencia de datos tiene un océano de oportunidades, de igual manera tiene montañas de retos y desiertos de incertidumbre. La ciencia de datos en medicina solo puede ser tan buena como su materia prima: los datos biomédicos. A los americanos les gusta la expresión “garbage in, garbage out” que aproximadamente se traduce a “si metes basura, sacas basura”. La mayor dificultad para el científico de datos, pues, se trata de recolectar datos de calidad. Estos no solo deben tener mínimos errores, sino también deben tener suficiente granularidad para representar el problema en cuestión y suficientes dimensiones para cubrir las distintas facetas del problema. Si además los datos son recolectados de manera estandarizada, eso también facilita tremendamente la integración de datos de distintas fuentes. Desafortunadamente, la falta de estandarización de datos en medicina es un gran problema. Por ejemplo, la “presión arterial” puede llamarse “tensión sanguínea” o puede recogerse como “presión sistólica” y “presión diastólica” en distintos hospitales. Aunque esto parezca un problema menor, cuando se trata de grandes bases de datos con datos muy heterogéneos, esta falta de estandarización dificulta mucho la integración y análisis de los datos.
A parte de la calidad y granularidad de los datos, un problema fundamental de la ciencia de datos es que los modelos solo pueden aprender de los datos conocidos. Por ejemplo, si un científico quiere descubrir qué quimioterapia es más efectiva en distintos tipos de cánceres usando una base de datos con cientos de miles de casos clínicos, un algoritmo de machine learning podría resultar muy útil, sin embargo, el algoritmo tan solo podrá descubrir combinaciones favorables con los tipos de quimioterapia que ya existen y hayan sido recolectados en la base de datos.
A pesar de estos retos, la promesa de la ciencia de datos en medicina continúa siendo muy real. Cada año no solo se publican más modelos de machine learning clínicos sino también estudios de implementación y uso de estos modelos en la vida real. Algunos de estos estudios demuestran la promesa de esta tecnología y otros ponen en evidencia lo mucho que todavía tenemos que aprender. En cualquier caso, la mayoría de los expertos coinciden en el mismo punto: la ciencia de datos y la informática médica rápidamente se están convirtiendo en la brújula y el velero que nos ayudarán a navegar el océano digital de la medicina del futuro. Esperemos que no nos dejen a la deriva.
L. Nelson Sánchez-Pinto
Profesor Asistente de Pediatría (Cuidados Intensivos)
Ann & Robert H. Lurie Children’s Hospital of Chicago
Northwestern University
Chicago, Illinois, EEUU
Con agradecimiento especial para Ico Sánchez-Pinto por la ayuda con el texto de introducción y el formato del artículo
Lecturas recomendadas
Para ampliar la información, puede consultar la página de PEDAL (Pediatric Data Science and Analytics – a subgroup of the PALISI network) y la sección "Resource".
Iwashyna TJ, Liu V. What’s so different about big data?. A primer for clinicians trained to think epidemiologically. Ann Am Thorac Soc. 2014;11(7):1130-1135.
Deo RC. Machine learning in medicine. Circulation. 2015;132(20): 1920-1930.
Ghassemi M, Celi LA, Stone DJ. State of the art review: the data revolution in critical care. Crit Care. 2015;19:118.
Suresh S. Big Data and Predictive Analytics: Applications in the Care of Children. Pediatr Clin North Am. 2016 Apr;63(2):357-66.
Sanchez-Pinto LN, Luo Y, Churpek MM. Big data and data science in critical care. Chest 2018;154:1239-1248.
Bennett TD, Callaghan TJ, Feinstein JA, Ghosh D, Lakhani SA, Spaeder MC, Szefler SJ, Kahn MG. Data science for child health. J Pediatr 2019;208:12-22.
Pencina MJ et al. Prediction Models – Development, Evaluation, and Clinical Application. N Engl J Med 2020;382:1583-1586.
Comments