Palabras Clave estadía hospitalaria - aprendizaje de máquinas - artroplastia total de cadera
Introducción
En Chile, la artroplastia total de cadera (ATC) para el tratamiento de artrosis severa está garantizada por ley para pacientes mayores de 65 años.[1 ] Sin embargo, poco se conoce de los resultados de la ATC en este grupo particular de pacientes, pues no existie (por lo que sabemos) ninguna publicación científica nacional que aborde el tema de la estadía hospitalaria, la cual tiene un papel protagónico en la era de la artroplastia basada en valor.
En el mundo y particularmente en EEUU, se ha observado una baja sostenida en la estadía hospitalaria de los pacientes tras ATC, sin aumentar los riesgos.[2 ] Inclusive, se ha probado que la modalidad ambulatoria puede ser exitosa en un grupo selecto de pacientes.[3 ]
[4 ] La estadía hospitalaria para pacientes mayores de 65 años en EEUU (2015-2016) fue en promedio de 1,8 días.[5 ] En Chile, estos datos no han sido publicados.
Varias tácticas se pueden utilizar para disminuir la estadía hospitalaria en casos de ATC, entre ellas los protocolos estandarizados de manejo,[6 ]
[7 ] y otras, que van de la mano con la predicción de las potenciales complicaciones perioperatorias.[8 ]
[9 ] Entre los desafíos de la ATC en nuestro país, hemos descrito la relevancia de mantener nuestro enfoque actualizado y con los mismos estándares que los de los países líderes en el tema.[10 ]
Conforme avanzamos en la crisis global de la pandemia COVID-19, se ha enfatizado el hecho de que las cirugías electivas se realicen con un alta hospitalaria lo más precoz posible, sin comprometer la seguridad del paciente.[11 ]
[12 ] Entre las tareas relevantes que tenemos los cirujanos está el intentar predecir la posibilidad de complicaciones y la duración de la estadía hospitalaria de nuestros pacientes.
El aprendizaje de máquinas (machine learning , en inglés) es una rama de la inteligencia artificial[13 ] entendida como el estudio de la forma en que algoritmos informáticos (es decir, las máquinas) pueden “aprender” relaciones o patrones complejos a partir de datos empíricos, y, por lo tanto, producir modelos matemáticos que vinculan un número grande de covariables a alguna variable que sea objetivo de interés.[14 ]
En el campo médico, entre otras aplicaciones, esto significa poder predecir, a partir de datos extraídos de registros electrónicos especializados, puntajes de riesgo (en forma de regresión y de pronóstico) para ayudar a los médicos a tomar decisiones más eficientes y precisas; por lo tanto, el aprendizaje de máquinas puede ser una herramienta de apoyo en las decisiones clínicas. Específicamente en artroplastía, estudios[15 ]
[16 ]
[17 ] involucrando esta tecnología han ganado momento, y proponen asistencia para resolver complejos problemas que enfrentamos en nuestra práctica.[18 ]
Nuestra hipótesis es la de que, con el proceso de aprendizaje de máquinas, se puede predecir la estadía hospitalaria en pacientes sometidos a ATC, con un doble propósito en la actividad clínica: 1) ayudar a mejorar al grupo con alta probabilidad de estadía corta, disminuyendo aún más su estadía; e 2) identificar al grupo de baja probabilidad de estadía corta, para mejorar su cuidado perioperatorio y finalmente llevarlo al grupo de estadía corta de manera segura.
El objetivo del presente estudio es desarrollar y validar, por el empleo del aprendizaje de máquinas, una herramienta que sea capaz de predecir la estadía hospitalaria de pacientes mayores de 65 años sometidos a ATC por artrosis.
Material y Métodos
Fondos Relacionados
El presente trabajo fue desarrollado gracias a los fondos de investigación de la Sociedad Chilena de Ortopedia y Traumatología, por medio de su concurso de investigación 2020.
Fuente de Datos y Población de Estudio
El presente corresponde a un estudio de registro. Desde la página web del Departamento de Estadísticas e Información en Salud (DEIS) del Ministerio de Salud de Chile,[19 ] se recogieron las bases de datos de egresos hospitalarios de los años 2016, 2017, y 2018. Cada una de estas bases de datos contiene los registros anonimizados de todos los egresos hospitalarios tanto de centros públicos como privados de nuestro país, incluyendo 39 columnas con datos relacionados a cada uno de los egresos hospitalarios individualizados. Cada uno de estos datos contiene características demográficas, del centro hospitalario, de la condición de egreso, del diagnóstico etc. En el período estudiado, se recogieron los datos de 4.944.017 egresos hospitalarios. Considerando las 39 columnas antes mencionadas, el volumen total de datos individuales a discriminar y evaluar fue de 192.816.663.
Considerando que los datos de cada caso en particular son no identificados y provenientes de una base de datos pública (la identificación es un código alfanumérico sin datos que identifiquen cada paciente), el presente estudio no requiere autorización de comité de ética.
A partir de la fuente de datos primaria, se creó una base de datos derivada, que incluía solamente a pacientes de edad ≥ 65 años sometidos a artroplastia (o endoprótesis) total de cadera por artrosis, casos que están cubiertos bajo las Garantías Explicitas en Salud.[1 ] Estos casos fueron seleccionados mediante los códigos del Fondo Nacional de Salud (Fonasa) 2104129 (Endoprótesis total de cadera, no incluye prótesis ) y 2104229 (Endoprótesis total de cadera, incluye prótesis ), que correspondan al diagnóstico M16 (coxartrosis) de la Clasificación Internacional de Enfermedades, 10.ª revisión (CIE-10), con todas sus clasificaciones secundarias. Se incluyeron pacientes de todas las previsiones operados a lo largo de Chile en el período 2016-2018. Se excluyeron procedimientos codificados como 2104129 y 2104229 realizados por diagnóstico de fractura del fémur proximal (diagnóstico S72 en el CIE-10) y los casos que egresaron del hospital categorizados como “fallecidos”. La muestra incluyó todos los casos registrados en nuestro país para el período indicado.
Resultado Clínicamente Relevante (Variable a Predecir)
De acuerdo a la literatura,[20 ] una estadía de más de tres días puede considerarse prolongada en el contexto de una ATC electiva. En nuestro estudio, se definirá estadía corta como aquella menor o igual a tres días, y estadía prolongada , como aquella mayor a tres días, considerando que, para el periodo estudiado, la experiencia en cirugía de ATC ambulatoria era limitada sólo a algunos grupos en nuestro país.[4 ]
Se realizó una predicción de la estadía hospitalaria como una variable binaria, descrita en función de dos clases a partir de los días de hospitalización. Así, la variable a modelar toma dos posibles valores: “estadía corta” o “estadía prolongada”.
Variables Predictoras
De las 39 variables individuales para cada 1 de los egresos hospitalarios del DEIS correspondientes a la población de estudio, se eligieron 21 ([Tabla 1 ]), consideradas relevantes por el grupo de autores al momento de procesar los datos. Los registros de datos estaban completos para cada una de las variables. De ellas, 16 se utilizaron al momento de realizar un proceso predictivo del alta hospitalaria. Además, se incluyó la variable “porcentaje de pobreza comunal” extraída de la base de datos del Ministerio de Desarrollo Social.[21 ] No hubo datos perdidos en el registro utilizado, por lo que no fue necesario usar técnicas de imputación.[22 ] Es importante destacar que la base de datos del DEIS contiene variables recogidas con propósitos epidemiológicos, y no captura suficientes datos a nivel individual de los pacientes, excluyéndose de este modelo variables como comorbilidades, funcionalidad, y detalles quirúrgicos que ciertamente podrían influenciar la estadía hospitalaria.
Tabla 1
Ítem de la base de datos de egresos hospitalarios del DEIS
N°
Nombre de la variable
Descripción
Tipo de dato
Utilizado en Modelo
1
ID_PACIENTE
Identificador único y anónimo del paciente
Texto
Sólo para descartar duplicados
2
ESTABLECIMIENTO_SALUD
Código del establecimiento
Número
Incluido como posible predictor
3
GLOSA_ESTABLECIMIENTO_SALUD
Nombre del establecimiento
Texto
No incluido en modelo
4
PERTENENCIA_ESTABLECIMIENTO_SALUD
Tipo de pertenencia (perteneciente o no perteneciente al Sistema Nacional de Servicios de Salud [SNSS])
Texto
Incluido como posible predictor
5
SEREMI
Código de la Secretaría Regional Ministerial de Salud (SEREMI)
Número
Incluido como posible predictor
6
SERVICIO_DE_SALUD
Código del servicio de salud
Número
Incluido como posible predictor
7
SEXO
Código del sexo biológico del paciente
Número
Incluido como posible predictor
8
FECHA_NACIMIENTO
Fecha de nacimiento del paciente
Fecha
No incluido en el modelo
9
EDAD_CANT
Registro numérico de la edad del paciente al ingreso
Número
Incluido como posible predictor
10
TIPO_EDAD
Unidad de medida de la edad, según modalidad descrita en valores
Número
No incluido en el modelo
11
EDAD_AÑOS
Edad en años del paciente al momento del ingreso
Número
No incluido en el modelo
12
PUEBLO_ORIGINARIO
Código del pueblo originario
Número
No incluido en el modelo
13
PAIS_ORIGEN
Código del país de origen
Número
No incluido en el modelo
14
GLOSA_PAIS_ORIGEN
Glosa del país de origen
Texto
Usado para excluir pacientes extranjeros
15
COMUNA_RESIDENCIA
Código de la comuna de residencia del paciente
Texto
Incluido como posible predictor
16
GLOSA_COMUNA_RESIDENCIA
Nombre de la comuna de residencia
Texto
No incluido en el modelo
17
REGION_RESIDENCIA
Código de la región de residencia del paciente
Texto
Incluido como posible predictor
18
GLOSA_REGION_RESIDENCIA
Nombre de la región de residencia
Texto
No incluido en el modelo
19
PREVISION
Código de la previsión de salud del paciente al momento del ingreso
Número
Incluido como posible predictor
20
BENEFICIARIO
Código de la clase beneficiario de Fonasa
Texto
Incluido como posible predictor
21
MODALIDAD
Código de la modalidad de atención de Fonasa
Número
Incluido como posible predictor
22
PROCEDENCIA
Código de la procedencia del paciente al momento del ingreso
Número
No incluido en el modelo
25
ANO_EGR
Año del egreso
Número
No incluido en el modelo
26
FECHA_EGR
Fecha de egreso
Fecha
No incluido en el modelo
27
AREA_FUNCIONAL_EGRESO
Código del nivel de cuidado o área funcional del que egresó el paciente
Número
Incluido como posible predictor
28
DIAS_ESTAD
Días de estadía total
Número
Variable objetivo
29
CONDICION_EGRESO
Código de la condición al egreso del paciente
Número
Usado para excluir egresos en codición de fallecidos
30
DIAG1
Código de la Clasificación Internacional de Enfermedades, 10.ª revisión (CIE-10), del diagnóstico principal
Texto
Incluido como posible predictor
31
GLOSA_DIAG1
Glosa del diagnóstico principal
Texto
Incluido como posible predictor
32
DIAG2
Código de la causa externa
Texto
No incluido en el modelo
33
GLOSA_DIAG2
Glosa de la causa externa
Texto
No incluido en el modelo
34
INTERV_Q
Código de la intervención quirúrgica
Número
Usado para excluir egresos sin cirugía asociada
35
CODIGO_INTERV_Q_PPAL
Código Fonasa de la intervención quirúrgica principal
Texto
Usado para identificar casos
36
GLOSA INTERV_Q_PPAL
Glosa de la intervención quirúrgica principal
Texto
Incluido como posible predictor
37
PROCED
Código del procedimiento
Número
No incluido en el modelo
38
CODIGO_PROCED_PPAL
Código Fonasa del procedimiento principal
Texto
No incluido en el modelo
39
GLOSA_PROCED_PPAL
Glosa del procedimiento principal
Texto
No incluido en en el modelo
*40
% POBREZA COMUNA
Porcentaje de pobreza de la comuna de origen
Número
Incluido como posible predictor
Preparación de los Datos (Balanceo de Muestra)
Para el correcto procesamiento de las variables nominales, se procedió a transformarlas usando codificación one-hot , es decir, se generaron múltiples columnas dicotómicas que representaban la existencia o no de una característica en particular para cada egreso hospitalario en específico. En términos del procesamiento de las variables continuas, se estandarizó su escala en el rango entre 0 y 1, correspondiendo 0 al mínimo valor en los datos originales, y 1, al máximo para cada uno de ellos. Además, dado que existe una mayor proporción de casos con tres o más días, fue necesario equilibrar la muestra de entrenamiento[23 ] siguiendo un procedimiento de sobremuestreo de la clase subrepresentada.[24 ]
Entrenamiento y Prueba de los Algoritmos de Clasificación
Para el estudio, se probaron diferentes algoritmos y configuraciones de hiperparámetros de estos, disponibles en librerías de código computacional para el lenguaje de programación Python. En particular, se probaron siete algoritmos disponibles en el paquete de sklearn (regresión logística, clasificador de árbol de decisión, máquina de vector de soporte lineal, clasificador bayesiano ingenuo, bosques aleatorios, adaboost , y perceptrón multicapa). Si bien una descripción detallada del funcionamiento de cada algoritmo está fuera del alcance de los objetivos de este artículo, la intuición detrás de dicha selección hace referencia a la compensación entre poder predictivo y la posible capacidad de interpretación y transparencia de los modelos creados (haciendo que la evaluación de los predictores del modelo no estén bajo la influencia de los autores, una vez que han sido integrados al proceso) . En la literatura de aprendizaje de máquinas, es habitual agrupar a los algoritmos si, como estrategia fundamental de modelamiento, ocupan sistemas de ecuaciones matemáticas, o si generan reglas de decisión computacionales, tendiendo éstas últimas a ser más sencillas de interpretar. Los modelos más avanzados, como bosques aleatorios o perceptrón multicapa (un tipo de redes neuronales artificiales), pueden contener miles de reglas de decisión o ecuaciones matemáticas, que tienen por consecuencia potencialmente millones de parámetros a estimar e interpretar. Así, los algoritmos de regresión logística, máquina de vector de soporte, clasificador bayesiano ingenuo, y perceptrón multicapa son basados en sistemas de ecuaciones matemáticas. Por otra parte, los algoritmos de clasificador de árbol de decisión, bosques aleatorios, y adaboost generan un conjunto de reglas de decisión computacionales.
Como se menciona, en la medida que la cantidad de ecuaciones o reglas de decisión generadas por los algoritmos aumenta, es típicamente esperable que el desempeño predictivo del algoritmo mejore. Sin embargo, el aumentar la complejidad del modelo sumando ecuaciones o reglas aumenta también la dificultad de interpretación humana de los modelos creados. Por lo anterior, también es posible agrupar a los algoritmos en “cajas abiertas” o “cajas cerradas”. De acuerdo a esta clasificación, los algoritmos de regresión logística, clasificador de árbol de decisión, máquina de vector de soporte, y clasificador bayesiano ingenuo son considerados más del tipo “cajas abiertas”, pues generan de menos a más ecuaciones según el orden en el que fueron listados, y los algoritmos bosques aleatorios, adaboost , y perceptrón multicapa, como “cajas cerradas”, pues generan de menos a más reglas de decisión según el orden en el que fueron listados.
Además, debido a su buen nivel de desempeño en otras tareas similares de clasificación binaria, se incluyó una familia adicional de algoritmos denominada árboles de potenciación del gradiente, la cual también pertenecería al grupo de “cajas cerradas”, que genera un gran número de reglas computacionales, y que se implementó por medio del paquete XGBoost (una biblioteca de programas de código abierto).
El modelo se entrenó utilizando el 80% de los datos disponibles, y el 20% restante fue reservado para confirmar las capacidades predictivas del modelo. A esta parte de los datos se le denomina tradicionalmente muestra de prueba. De manera adicional, se realizó un proceso de remuestreo, o boostrapping , de cien iteraciones, de manera a poder obtener intervalos de confianza de las cifras de ajuste y desempeño de los modelos seleccionados.
Evaluación y Ajuste de los Modelos
Para evaluar el desempeño de los algoritmos y modelos predictivos, utilizamos su poder de discriminación (cuantificada como el área bajo la curva de característica operativa del receptor [area under the receiver operating characteristic curve , AUC_ROC,[25 ] en inglés]) en los datos.
La métrica de optimización se evaluó y ordenó en un ranking utilizando AUC-ROC, que corresponde a cuan bien un modelo puede distinguir entre dos grupos. El nivel de discriminación se catalogó como excelente (0.9–1), bueno (0.8–0.89), justo (0.7–0.79), pobre (0.6–0.69), y fallido (0.5–0.59).[26 ]
También se reportan otras métricas tradicionales para problemas de clasificación: “exactitud”: razón del número correcto de predicciones sobre el total de muestras; “promedio de precisión”: promedio de exactitud de predicciones basado en el porcentaje de predicciones positivas que son correctas; “precisión”: medida de exactitud de una predicción basada en el porcentaje de predicciones positivas que sean correctas; “recall ”: medidas del porcentaje de predicciones positivas contra posibles positivos en el conjunto de datos de datos; y “F1”: promedio armónico de precisión y recuerdo, con el mejor valor siendo 1 (precisión perfecta), y el peor, 0. Para cada una de las anteriores, además se reportan sus intervalos de confianza estimados con base en el procedimiento de remuestreo.
Reporte del Modelo
En este trabajo, el reporte del modelo utiliza las recomendaciones internacionales para este tipo de estudios,[27 ]
[28 ] con la lista de verificación del informe transparente de un modelo de predicción multivariable para pronóstico o diagnóstico individual (transparent reporting of a multivariable prediction model for individual prognosis or diagnosis , TRIPOD, en inglés).[28 ]
Resultados
Se incluyeron finalmente 8.970 casos ([Figura 1 ]): 5.662 mujeres (63,12%) y 3.308 ( 36,88%) hombres. La edad mediana era de 72 años, con un rango intercuartil de 9 años, y un rango entre 65 y 97 años ([Figura 2 ]).
Fig. 1 Artroplastia total de cadera por artrosis entre 2016 y 2018 (códigos 2104129 y 2104229, con diagnóstico CIE-10: M16 y sus derivativos).
Fig. 2 Pirámide de población según género para los 8.970 casos de ATC primaria por coxartrosis.
La muestra se compone por 6,746 (75,21%) pacientes de Fonasa, 1.599 (17,82%) pacientes de instituciones de salud previsional (Isapres), y 625 (6,97%) pacientes de otras previsiones. De los pacientes FONASA, 286 (4,2%) eran beneficiarios tipo A; 4.801 (71,2%), beneficiarios tipo B; 469 (6,9%), beneficiarios tipo C; y 1.191 (13.3%) beneficiarios tipo D. En este mismo grupo de pacientes FONASA, 5.321 (78,9%) se operaron bajo la modalidad de atención institucional, y 1.425 (21,1%), por la modalidad de libre elección.
Los 4 diagnósticos más frecuentes fueron M169 (6.124 casos; 68.27%), M161 (1.623 casos; 18.09%), M160 (862 casos; 9.61%), y M167 (176 casos; 1.96%).
Las 5 comunas de origen del paciente más frecuentes fueron Las Condes (426 casos; 4,75%), Viña del Mar (365 casos; 4,07%), La Florida (253 casos; 2,82%) , Puente Alto (239 casos; 2,66%), y Santiago (235 casos; 2,62%), sumando entre estas 5 el 16.92% del total de casos en Chile.
Cien centros hospitalarios operaron pacientes de ATC por artrosis en el período estudiado. En total, 5.133 (81,88%) casos se operaron en centros pertenecientes al Sistema Nacional de Servicios de Salud, y 1.136 (18,12%) casos se operaron en centros privados.
La mediana de días de estadía fue 4, con un rango intercuartil de 2 días y un rango entre 1 y 143 días. El histograma de días de estadía se encuentra graficado en la [Figura 3 ].
Fig. 3 Días de estadía.
Los días de estadía categorizados por tipo de hospital y previsión se grafican en la [Figura 4 ].
Fig. 4 Días de estadía por previsión y tipo de centro hospitalario.
En total, 2.968 (33,09%) pacientes presentaron una estadía acortada, y 6.002 (66,91%) presentaron una estadía prolongada.
Desempeño de los Algoritmos de Decisión
Ocho algoritmos fueron evaluados con relación a los datos del entrenamiento y prueba; sin embargo, éstos fueron ordenados en un ranking de acuerdo con su desempeño en la muestra de prueba. Esta última se considera una mejor medida del desempeño del modelo al ser aplicado en escenarios reales. Entre ellos, el algoritmo XGBoost obtuvo el mejor desempeño, con una AUC-ROC promedio de 0,86 (DE: 0,0087). Esto quiere decir que el algoritmo XGBoost confirió el mejor desempeño al discriminar entre estadías hospitalarias corta y prolongada (mayor o menor de tres días). En segundo lugar, observamos que el algoritmo lineal de máquina de vector de soporte obtuvo una AUC-ROC muy cercana de 0,8568 (DE: 0,0086), pero con una DE menor.
En la [Tabla 2 ], se muestran las diferentes métricas de clasificación para cada uno de los algoritmos evaluados. Siguiendo el concepto de exactitud (razón del número correcto de predicciones sobre el total de muestras), el algoritmo XGBoost fue capaz de predecir correctamente el 81,74% de las veces cuando un caso correspondía a una estadía corta o prolongada.
Tabla 2
Resultados en la muestra de entrenamiento
Remuestreo de 100 muestras. Se reporta desviación estandar entre paréntesis
Exactitud total
Recall de clase
0
Recall de clase 1
Precisión de clase 0
Precisión de clase 1
Puntaje f1 0
Puntaje f1 1
Área bajo la curva
XGBoost - árboles de potenciación de gradiente
81,56%
77,44%
86,05%
84,76%
79,24%
80,92%
82,50%
90,46%
(0,86%)
(1,40%)
(1,34%)
(1,20%)
(1,00%)
(0,94%)
(0,85%)
(0,77%)
Máquina de vector de soporte
81,19%
78,76%
83,94%
83,07%
79,81%
80,86%
81,82%
89,55%
(0,38%)
(0,62%)
(0,68%)
(0,57%)
(0,44%)
(0,39%)
(0,39%)
(0,27%)
AdaBoost
79,65%
76,79%
83,11%
81,98%
78,17%
79,30%
80,56%
88,16%
(0,43%)
(0,75%)
(0,93%)
(0,74%)
(0,47%)
(0,41%)
(0,45%)
(0,27%)
Regressión logística
81,13%
78,32%
84,37%
83,37%
79,56%
80,76%
81,89%
89,62%
(0,42%)
(0,61%)
(0,79%)
(0,68%)
(0,44%)
(0,42%)
(0,45%)
(0,27%)
Bosques aleatorios
79,40%
74,91%
83,68%
82,15%
76,96%
78,34%
80,16%
86,99%
(1,15%)
(2,07%)
(1,88%)
(1,62%)
(1,44%)
(1,37%)
(1,20%)
(0,91%)
Red neural - perceptrón multicapa
89,99%
91,03%
88,79%
89,04%
90,84%
90,02%
89,80%
97,19%
(0,50%)
(1,21%)
(0,69%)
(0,57%)
(1,09%)
(0,62%)
(0,54%)
(0,31%)
Árbol de decisión
66,04%
63,32%
68,33%
74,35%
70,46%
61,45%
64,69%
74,05%
(2,33%)
(27,95%)
(25,14%)
(14,06%)
(10,91%)
(13,47%)
(8,31%)
(2,03%)
Bayesiano ingenuo
65,07%
38,05%
94,97%
88,33%
60,56%
53,07%
73,94%
67,51%
(1,60%)
(3,89%)
(0,68%)
(0,89%)
(1,38%)
(3,81%)
(0,89%)
(1,73%)
Resultados en la muestra de prueba
Remuestreo de 100 muestras. Se reporta desviación estandar entre paréntesis
Exactitud total
Recall de clase 0
Recall de clase 1
Precisión de clase 0
Precisión de clase 1
Puntaje f1 0
Puntaje f1 1
Área bajo la curva
XGBoost - árboles de potenciación de gradiente
81,74%
75,62%
80,23%
88,56%
61,97%
81,56%
69,90%
86,01%
(0,87%)
(1,60%)
(2,24%)
(1,19%)
(1,73%)
(0,92%)
(1,31%)
(0,87%)
Máquina de vector de soporte
81,35%
77,21%
78,81%
88,05%
63,12%
82,26%
70,07%
85,68%
(0,37%)
(1,40%)
(1,98%)
(1,08%)
(1,86%)
(0,90%)
(1,48%)
(0,86%)
AdaBoost
79,95%
75,81%
79,98%
88,45%
62,06%
81,63%
69,87%
85,55%
(0,40%)
(1,33%)
(1,81%)
(0,99%)
(1,61%)
(0,83%)
(1,26%)
(0,90%)
Regressión logística
81,34%
76,60%
78,49%
87,81%
62,40%
81,81%
69,51%
85,16%
(0,43%)
(1,33%)
(1,88%)
(1,03%)
(1,73%)
(0,87%)
(1,39%)
(0,90%)
Bosques aleatorios
79,30%
72,70%
77,43%
86,70%
58,43%
79,06%
66,56%
82,32%
(1,23%)
(2,32%)
(2,88%)
(1,54%)
(2,33%)
(1,56%)
(2,04%)
(1,36%)
Red neurals - perceptrón multicapa
89,91%
82,12%
64,44%
82,37%
64,07%
82,24%
64,23%
82,07%
(0,58%)
(1,16%)
(2,43%)
(1,13%)
(1,77%)
(0,81%)
(1,70%)
(0,95%)
Árbol de decisión
65,82%
62,70%
66,65%
83,63%
53,84%
66,05%
54,06%
72,58%
(2,47%)
(28,09%)
(25,86%)
(8,78%)
(12,33%)
(17,75%)
(4,52%)
(2,15%)
Bayesiano ingenuo
66,51%
36,80%
90,04%
88,14%
41,39%
51,81%
56,69%
64,35%
(1,70%)
(4,05%)
(1,36%)
(1,63%)
(1,73%)
(4,14%)
(1,59%)
(1,94%)
Para indagar además respecto de la importancia relativa de las variables explicativas, se reporta en la [Figura 5 ] el puntaje de importancia asignado por el algoritmo a las treinta variables más importantes. En este sentido, destaca el hecho de que la región de residencia, el servicio de salud, el establecimiento de salud donde se operó el paciente, y la modalidad de atención son las variables que más determinan el tiempo de estadía de un paciente.
Fig. 5 Importancia relativa de las 30 variables más importantes del modelo explicativo de estadía hospitalaria.
La [figura 6 ] muestra un árbol de clasificación representativo del algoritmo XGBoost.
Fig. 6 Arbol de clasificaci'on representativo del algoritmo XGBoost.
Discusión
En el presente trabajo, se desarrolló y validó exitosamente un modelo de predicción de estadía hospitalaria en pacientes chilenos mayores de 65 años sometidos a ATC utilizando inteligencia artificial en su modalidad de aprendizaje de máquinas y macrodatos de origen nacional. El algoritmo XGBoost confirió el mejor desempeño predictivo al discriminar cuando la estadía hospitalaria se clasifica en estadía acortada y prolongada (mayor o menor de tres días). Además, se encontró que los cinco factores más importantes en esta predicción, todos de acceso libre en la base de datos ministerial, son la región de residencia , el servicio de salud , el establecimiento de salud , y la modalidad . La exactitud de clasificación del algoritmo es buena.
Según Ramkumar et al.,[29 ] el aprendizaje de máquinas se podría describir como un programa que desarrolla tareas automáticamente desde una fuente de datos sin una programación explícita. Esta tecnología rápidamente se ha incorporado a la medicina, y representa la extensión natural de los métodos estadísticos tradicionales. Específicamente en la literatura de artroplastia, hay varios trabajos recientes que utilizan aprendizaje de máquinas para crear modelos de predicción de estadía hospitalaria y pagos relacionados a las cirugías,[29 ] de probabilidad de complicaciones,[26 ] de satisfacción[30 ] etc. Todos estos trabajos, al igual que el presente, utilizan amplias bases de datos que pueden ser consideradas macrodatos.[31 ]
Nuestro trabajo tiene varias limitaciones y algunos aspectos destacables. La primera limitación es que se trata de un trabajo de registro; por lo tanto, existe la posibilidad de problemas de recolección y codificación que finalmente pudieran alterar los resultados, especialmente considerando que se usan los códigos CIE-10 y Fonasa para identificar los casos estudiados. A pesar de ello, creemos que, por tratarse de una base de datos ministerial, con toda la rigurosidad que ello implica, es lo suficientemente sólida como para sobreponerse a esta limitación. Segundo, ninguno de los trabajos de base de datos captura suficiente información al nivel de pacientes.[32 ] Esto es especialmente importante en nuestro trabajo, considerando que la mayoría de los trabajos realizados en el hemisferio norte que utilizan esta metodología emplean variables a nivel del paciente, incluyendo comorbilidades y, en algunos casos, funcionalidad.[16 ]
[26 ]
[30 ] Consideramos que esta es la principal falencia de nuestro trabajo; sin embargo, la base de datos utilizada es la única que nos permitía acceder libremente a macrodatos a nivel nacional. Pese a esta observación, es necesario destacar que el rol de las caracteristicas individuales del paciente pudiera no ser el más relevante en explicar la estadía hospitalaria en artroplastia electiva. Kang et al.[33 ] demostraron, en una serie de dos mil pacientes, que los principales determinantes de estadía prolongada en artroplastia son sociales: la admisión al hospital el día previo a la cirugía, y el empezar tardíamente con la rehabilitación postoperatoria. Paralelamente, Burn et al.[34 ] demostraron que, si bien los factores individuales de los pacientes son relevantes para explicar la estadía hospitalaria en artroplastía, entre 1997 y 2014 en el Reino Unido, se lograron menores estadías hospitalarias por la mejora en la eficiencia de las practicas, dado que el perfil de los pacientes operados permaneció estable. Reforzando más aún el hecho de que las características individuales de los pacientes son secundarias al explicar la variablidad en el momento del alta hospitalaria, el Cleveland Clinic OME Arthroplasty Group demostró (utilizando macrodatos estadounidenses), en pacientes sometidos a ATC electiva que “mientras los factores relacionados al paciente explican alguna variación en la estadía hospitalaria, los principales responsables son los factores relacionados al procedimiento, especificamente el hospital”[35 ] donde se operó el paciente, teniendo además un rol protagónico el abordaje quirúrgico empleado. Esta evidencia mencionada ayuda a entender los resultados de nuestro trabajo y a sopesar la falta de variables individuales como limitación no crítica de nuestro modelo. Tercero, teniendo en cuenta que la pandemia COVID-19 pudiera haber influenciado la práctica de las ATCs[11 ] en Chile en cuanto a su postoperatorio y su alta hospitalaria más precoz,[12 ]
[36 ] creemos que los datos correspondientes a los años 2016-2018 pueden no ser completamente representativas del escenario que vamos a vivir el año 2021. Sin embargo, los fundamentos de nuestro algoritmo pueden utilizarse para evaluar los resultados de altas hospitalarias tras ATC registrados para el año 2020 y los venideros.
La pregunta que se alza es: ¿tiene este calculador utilidad en nuestro medio? La evaluación de posibilidad de alta precoz o tardía de una cirugía altamente frecuente y garantizada por ley es de total relevancia en políticas públicas. El calcular las diferentes posibilidades de alta precoz que tiene un paciente Fonasa que se opera en el hospital A versus el hospital B, o clínica X, es útil para visualizar la variabilidad que existe en las prácticas. Al momento de generar modelos tipo pagos “paquetizados”, es importante predecir si el paciente operado en el hospital A va a tener una hospitalización más prolongada que en el hospital B. La utilidad del calculador “al lado de la cama” puede ser limitada por la ausencia de macrodatos clínicos de libre acceso en Chile, pero, por otra parte, la utilidad con perspectiva de evaluación de desempeño de instituciones es altísima. Como expusimos en los objetivos del trabajo, la identificación de grupos con alta probabilidad de estadía acortada (ciertos pacientes en algunos hospitales) puede ayudar a éstas a mejorar aún más sus prácticas. En el otro extremo, el identificar centros hospitalarios que, contando con los mismos recursos, no son eficientes en sus estadías hospitalarias, puede ayudarlos a mejorar.
Entre las fortalezas de nuestro trabajo, creemos que la primera y más importante es el logro de un trabajo multidisciplinario entre cuatro expertos, dos de ellos cirujanos y dos ingenieros con educación formal en inteligencia artificial, que lograron por primera vez realizar un trabajo de macrodatos e inteligencia artificial en nuestra especialidad en Chile.
Conclusión
En el presente estudio, se desarrollaron algoritmos de aprendizaje de máquinas basados en macrodatos chilenos de libre acceso, y se logró validar una herramienta que demuestra una adecuada capacidad discriminatoria para predecir la probabilidad de estadía hospitalaria acortada versus prolongada en adultos mayores sometidos a ATC por artrosis.