Validación de criterio de la metodología de empleo del análisis estadístico implicativo en los estudios de causalidad en salud
1.
Universidad de Ciencias Médicas de Santiago de Cuba, Santiago de Cuba, Cuba.,
Universidad de Ciencias Médicas de Santiago de Cuba,
RESUMEN
el diseño de la metodología ASI-IMC permite una correcta aplicación del análisis estadístico implicativo en los estudios de causalidad en salud. Luego surgió la necesidad de validarla.
evaluar la efectividad de la metodología de aplicación del ASI-IMC.
se realizó un estudio observacional analítico prospectivo de tipo casos y controles anidado en una cohorte, cuyo universo de estudio quedó conformado por todas las mujeres mayores de 18 años de edad, con el diagnóstico clínico e histológico de cáncer de mama, procedentes de la provincia de Santiago de Cuba, atendidas en el Hospital Oncológico “Conrado Benítez”, entre 2014 y 2019. Se emplearon como covariables 25 factores pronósticos supuestos. Se aplicó la regresión logística binaria previa verificación del cumplimiento de los supuestos requeridos sobre una muestra de 280 pacientes a razón de un control por caso que constituyó el mismo conjunto de datos al que se aplicó el análisis estadístico implicativo, para luego comparar los resultados de ambas técnicas. Se consideró la regresión como el estándar de oro, para lo cual se estimaron 14 indicadores: sensibilidad, especificidad, valores predictivos, razones de verosimilitud, odds ratio de diagnóstico, entre otros.
fueron identificados, por ambas técnicas estadísticas, como factores de buen pronóstico de mortalidad por cáncer de mama en la población estudiada la determinación de los biomarcadores y de mal pronóstico el estadio avanzado, la metástasis y la quimioterapia. Los indicadores de eficacia arrojaron valores a favor de la técnica evaluada.
se validó de manera satisfactoria la metodología diseñada demostrando ser efectiva para la identificación de factores pronósticos.
Received: 2021 July 8; Accepted: 2022 March 17
Keywords: Palabras clave: análisis estadístico implicativo, factores pronósticos, cáncer de mama, regresión logística.
Keywords: Keywords: implicative statistical analysis, prognostic factors, breast cancer, logistic regression.
Introducción
El análisis estadístico implicativo surgió en los años 80 para resolver problemas de la Didáctica de las matemáticas.1,2) Según se expresa en Sagaró y Zamora,3tras el reconocimiento de las posibilidades de empleo de esta técnica en las investigaciones médicas de causalidad, se propuso a partir de la introducción de nuevos procedimientos una metodología denominada ASI-IMC (análisis estadístico implicativo en las investigaciones médicas de causalidad) y son varias las investigaciones que la han empleado para identificar factores de riesgo y pronósticos.4
Una de las formas de validación de la metodología ASI-IMC fue la comparación con un criterio externo definido como estándar, la cual se presenta en este trabajo. El estándar de oro empleado fue la regresión logística binaria por ser la técnica más empleada en estos estudios desde mediados del siglo XX.
Se escogió para exponer este tipo de validación un estudio de identificación de factores pronósticos de mortalidad por cáncer de mama, ya que esta enfermedad constituye un problema de salud prioritario en el país y en particular en la provincia de Santiago de Cuba, al estar entre las primeras causas de muerte de manera sostenida y con tendencia ascendente desde el 2008, todo lo cual es corroborado por la literatura y otros estudios realizados en la provincia.5
El objetivo de este trabajo es evaluar la efectividad de la metodología de aplicación del ASI y, colateralmente, identificar los factores pronósticos de mortalidad por cáncer de mama en el territorio estudiado.
Métodos
Para evaluar la efectividad de la metodología ASI-IMC se realizó un estudio observacional analítico prospectivo de tipo casos y controles anidado en una cohorte cuyo universo de estudio quedó conformado por todas las mujeres mayores de 18 años de edad con el diagnóstico clínico e histológico de cáncer de mama, procedentes de la provincia de Santiago de Cuba, que fueron atendidas en el Hospital Oncológico “Conrado Benítez”, en el período de junio de 2014 a abril de 2019, constituyendo los casos todas las fallecidas al final del período de estudio y los controles una muestra de las vivas en igual momento.
Se tomó un control por cada caso para una razón 1:1, por lo que se empleó la fórmula de tamaño muestral para casos y controles balanceados que se calculó a partir de los resultados de los estudios pilotos realizados.6,7
La selección de variables se realizó a partir de la revisión de la literatura, consultas a expertos y resultados de los dos estudios pilotos antes mencionados, empleando 25 covariables, relacionadas con la paciente, el tumor, el tratamiento y el diagnóstico, cuya operacionalización se muestra en el Anexo 1.
La recolección del dato primario se realizó mediante la revisión de las historias clínicas de los casos y los controles que integraron la muestra del estudio, los informes de anatomía patológica y otros documentos con información de las variables en estudio. Para este fin, se confeccionó un formulario que recoge la información necesaria (Anexo 2).
Se aplicaron las 5 primeras etapas previstas en la metodología ASI-IMC: análisis exploratorio, transformación de los datos duplicando la variable dependiente, análisis principal con la variable dependiente como principal y como suplementaria, presentación de los resultados e interpretación de los mismos, según se describe en Sagaró y Zamora. 8
Para analizar las potencialidades del ASI-IMC en la identificación de posibles causas se decidió comparar la técnica con un criterio externo. En este caso se consideró como la técnica estándar más empleada para estos fines según la literatura, la regresión logística binaria; por lo que se aplicaron ambas técnicas al mismo conjunto de datos y se compararon sus resultados.
Para la aplicación de la regresión logística binaria se verificó el cumplimiento de los supuestos de la prueba, siendo todas las covariables propuestas monótonas, se eliminaron del modelo las variables correlacionadas biológica o estadísticamente y las consideradas intervinientes.
El diagnóstico de la multicolinealidad se realizó a través del factor de inflación de la varianza, creando nuevas combinaciones siempre que fue posible u omitiendo la variable menos importante según la literatura y los expertos. Se comprobó el ajuste del modelo por la prueba de Hosmer y Lemeshow. Se empleó el método por pasos hacia adelante con razón de verosimilitud ya que fue el que mostró un mejor ajuste de los datos al modelo.
Como criterios para el método por pasos, se tomó una probabilidad de entrada de 0,05 y una de eliminación de 0,10; con un punto de corte de 0,5 y un máximo de 20 iteraciones. Se incluyó la constante en el modelo. Se interpretó la significación de los factores a través de la prueba de Wald y del intervalo de confianza de las razones de ventajas representadas por las exponenciales de los coeficientes de regresión (Exp [βi], donde βi es el coeficiente asociado a la covariable i-ésima) con un 95% de confianza.
Por último, se compararon ambas técnicas considerando su capacidad de “diagnosticar” factores pronósticos. Dada la respuesta dicotómica de estos procedimientos (identifica o no identifica) se construyó una tabla de contingencia de 2x2, en la cual se consideraron como individuos u objetos de estudio a las covariables empleadas en el mismo y como resultado la identificación de la variable como factor causal o no según ambas técnicas. Se calcularon los indicadores de eficacia de una prueba diagnóstica para el ASI como la sensibilidad, la especificidad, los valores predictivos positivo y negativo y las razones de verosimilitud positiva y negativa, el odds ratio de diagnóstico y los índices Phi, de Youden, de Validez y de Kappa, así como sus intervalos de confianza del 95%, según la expresión de Wilson. El índice de Youden se estimó según su forma clásica propuesta en 1950 y según la versión de Chen de 2015. 9
Para el cálculo de dichos intervalos de confianza se programó una función en lenguaje R, teniendo en cuenta que se trabajó con un tamaño de muestra pequeño, representado por una cantidad de variables inferior a 30 y que los programas disponibles emplean fórmulas para su cálculo con aproximación a la distribución normal, no aplicable para muestras pequeñas.
Sistemas informáticos y procesadores estadísticos empleados
Para el procesamiento y presentación de los resultados se emplearon los siguientes sistemas:
- IBM SPSS Statistics 24.0, para obtener el modelo de regresión logística binario.
- R 3.2.0 y el RStudio 1.0.44 como entorno de desarrollo integrado sobre el cual se corrió el R para el cálculo del tamaño de muestra y para la programación de las funciones que calculan los indicadores del desempeño del análisis estadístico implicativo comparado con la regresión logística binaria, teniendo en cuenta que todos los programas que calculan los intervalos de confianza de estos indicadores lo hacen con la aproximación a la normal, válido para muestras grandes y en este caso se necesitó la transformación de Wilson.
Resultados
Antes de aplicar la regresión logística se verificaron los supuestos requeridos para su aplicación, arribando a los siguientes resultados:
- No hubo restricciones en la inclusión de covariables en el modelo, pues a pesar de no encontrarse asociación significativa entre algunas de ellas con la variable dependiente, se tomó en consideración su relevancia clínica y el gran tamaño de la muestra. En el anexo 6, (previamente analizado para conocer las frecuencias de las covariables y su asociación con casos y controles) se muestran los resultados de la prueba de homogeneidad y la estimación del riesgo relativo, con un nivel de confianza del 95%.
- Se pudo verificar que todas las covariables propuestas eran monótonas.
- No se conformaron nuevas variables “dummy” por tratarse de variables dicotómicas.
El diagnóstico de multicolinealidad se presenta en la tabla 1, en ella se aprecian los factores de inflación de la varianza (FIV) con valores inferiores a 10 y las tolerancias (T) con valores superiores a 0,1 para las variables individuales y los autovalores (λ) y los índices de condición (() para cada una de las 25 dimensiones formadas sin incluir la constante en el modelo (todos inferiores a 30), todo lo cual indica ausencia de multicolinealidad. No se exponen las proporciones de la descomposición de la varianza por no encontrarse colinealidad.
El empleo de la regresión logística, según se aprecia en la tabla 2, determinó como factores de mal pronóstico: un estadio avanzado de la enfermedad, la presencia de metástasis y la quimioterapia y como factores de buen pronóstico los biomarcadores.
Variables incluidas en el 4to paso de la regresión logística binaria y sus indicadores (Método hacia adelante Wald)
Las pacientes que se diagnosticaron en estadio avanzado presentaron una probabilidad de fallecer entre 1,59 y 6,59 veces mayor que las que estaban en los primeros estadios. Las pacientes con metástasis presentaron una probabilidad de fallecer, aproximadamente, entre 3,36 y 22,41 veces mayores que las que no tenían metástasis. De igual forma las que recibieron quimioterapia tuvieron entre 1,61 y 6,47 más probabilidades de morir que las que no recibieron dicho tratamiento.
En cambio, la probabilidad de morir disminuyó entre 0,02 y 0,11 veces en las mujeres tratadas según los resultados de los biomarcadores tumorales con respecto a las que no se les realizó esta determinación.
El valor de la constante en el modelo de regresión logística indica que, de no estar presente ninguno de los factores analizados, la probabilidad de sobrevivir es 2,20 veces (1/ 0,455) mayor que la de fallecer. Las salidas del SPSS para la aplicación de la regresión logística se pueden apreciar en el anexo 4.
Análisis comparativo entre ambas técnicas
Ambas técnicas identificaron como factores pronósticos el estadio, la metástasis, la quimioterapia y los biomarcadores, este último de buen pronóstico, el análisis estadístico implicativo identificó, además, el tamaño tumoral como factor de mal pronóstico. Con estos datos se conformó la tabla de 2x2 que se muestra (Tabla 3).
A partir de los datos anteriores fue posible evaluar el desempeño del análisis estadístico implicativo, cuyos indicadores se muestran en la tabla 4 y su interpretación se comenta a continuación.
Al evaluar la técnica del análisis estadístico implicativo como identificador de factores pronósticos en el cáncer de mama, de acuerdo a los indicadores estimados con un 95 % de confianza, se encontró una capacidad para detectar las variables significativamente asociadas al cáncer entre un 51,01 y un 100 %, ya sea como factor de buen o de mal pronóstico.
También demostró una capacidad entre un 77,33 y un 99,15 % para identificar las variables que no constituyen factores pronósticos. Un factor pronóstico identificado por el análisis estadístico implicativo tiene una probabilidad del 80 % de serlo realmente, así mismo, una variable que no constituye un factor pronóstico según esta técnica, tiene una probabilidad del 100 % de no serlo en realidad. La técnica arrojó un porcentaje de falsos positivos entre 0,85 y 22,67 y de falsos negativos entre 0 y 48,99.
El análisis estadístico implicativo clasificó correc tamente entre el 80,46 y 99,29 % de las variables. Con esta técnica es 13,20 veces más probable detectar un factor pronóstico dentro de los verdaderos factores pronósticos que dentro de los que no lo son. Así mismo, es 0.11 veces más probable descartar que un factor sea pronóstico cuando realmente lo es, que descartarlo cuando no lo es. La ganancia promedio de certidumbre neta en la clasificación de un factor pronóstico fue de 0,80. La concordancia entre ambas técnicas y la magnitud de la asociación fueron elevadas (0,86 y 0,87, respectivamente). Con el análisis estadístico implicativo, es 123 veces mayor la posibilidad de identificar un factor como factor pronóstico con respecto a no identificarlo cuando realmente lo es, que la posibilidad de que esto ocurra cuando realmente no lo es.
Discusión
La presencia de metástasis y el avanzado estadio de la enfermedad también fueron identificados como factores de mal pronóstico en el estudio de Pardo, 7 no así en el de Moraga, 6 lo cual pudo estar condicionado por un tamaño de muestra muy inferior al de estos estudios.
En otros estudios como el de Maffuz de 2017, sobre mujeres mexicanas, la mayoría de las diagnosticadas con cáncer de mama presentaron estadios avanzados al momento del diagnóstico (52,9 % de las pacientes). 10
La metástasis es uno de los factores de mal pronóstico más evidenciado en muchas investigaciones, entre las que figuran la de Kim que encontró como el principal factor pronóstico la metástasis en ganglios linfáticos, la de Chávez que estudia la sobrevida de las pacientes con cáncer de mama metastásico y las de Mohar-Betancourt y Wiltzel que valoran la metástasis cerebral. 11-14
Los estudios de Kim y Grassadonia encontraron la quimioterapia neoadyuvante como factor de buen y mal pronóstico, respectivamente, coincidiendo el último con este estudio. 15,16
La regresión, a diferencia de la metodología ASI-IMC no identificó el tamaño del tumor como factor pronóstico, aunque este es bien reconocido como uno de los más importantes factores pronósticos, sobre todo, en el momento del diagnóstico, es por ello que las pesquisas con mamografía han permitido detectar tumores incipientes, prolongándose la supervivencia de las mujeres que padecen la enfermedad. 17,18
Sobre el análisis comparativo entre la regresión logística y el análisis estadístico implicativo, en el presente estudio ambas técnicas logran reconocer los mismos factores de mal pronóstico, pues la quimioterapia también es reconocida por el análisis estadístico implicativo cuando se baja el índice de implicación hasta un 89%, también coinciden en uno de los factores de buen pronóstico. Los indicadores estimados mostraron un desempeño adecuado de la metodología, lo cual coincide con Pardo y Moraga, 5,6 quienes analizaron 22 covariables, casi todas similares, pero mostraron limitaciones con respecto a la identificación de los biomarcadores, lo que es superado en este estudio donde se trabajó con 25 covariables. Pardo detectó una mayor sensibilidad y menor especificidad del análisis estadístico implicativo que Moraga y una mayor eficacia en general. 5,6 El resto de los estudios que emplearon la metodología propuesta con el mismo objetivo, pero en otro tipo de enfermedades también arrojaron resultados aceptables de la eficacia de la misma, tanto para la identificación de factores de riesgo,19 como para la identificación de factores pronósticos de mortalidad por cáncer, 20-24 o pronósticos de otras enfermedades. (25,26
Se concluye el estudio con una evaluación satisfactoria de la efectividad de la metodología de aplicación del ASI en la identificación de posibles factores causales en las investigaciones en salud y a la vez fueron identificados los factores pronósticos de mortalidad por cáncer de mama en la población estudiada.
- Bloom HJ, Richardson WW. Histological grading and prognosis in breast cancer; a study of 1409 cases of which 359 have been followed for 15 years. Br J Cancer. 1957[citado 5 sep 2019];11:359-77. Disponible en: https://www.ncbi.nlm.nih.gov/ pmc/articles/PMC2073885/pdf/brjcancer00376-0041.pdf
- Elston CW. Grading of invasive carcinoma of the breast En: Page DL, Anderson TJ eds. Diagnostic Histopathology of the Breast. 1st ed. Edinburgh: Churchill Livingstone; 1987. pp 300-11.
- Edge S, Byrd DR, Compton CC, Fritz AG, Greene FL, Trotti A, AJCC. Cancer Staging Manual, 7th Ed, New York; 2009.
Codificación en la base de datos:
Se codificó como 1 a las fallecidas, los “Si “y los “Peor”, 0 en caso contrario,
Variables incluidas en el 4to paso de la regresión logística binaria y sus indicadores (Método hacia adelante Wald)
B | Error estándar | Wald | gl | Sig. | Exp(B) | IC 95% | |||
Inferior | Superior | ||||||||
Paso 4d | Estadio | 1,174 | ,363 | 10,442 | 1 | ,001 | 3,235 | 1,587 | 6,594 |
Metástasis | 2,160 | ,484 | 19,898 | 1 | ,000 | 8,673 | 3,357 | 22,407 | |
Quimioterapia | 1,173 | ,354 | 10,963 | 1 | ,001 | 3,230 | 1,614 | 6,467 | |
Biomarcadores | -3,172 | ,502 | 39,861 | 1 | ,000 | ,042 | ,016 | ,112 | |
Constante | -,787 | ,243 | 10,458 | 1 | ,001 | ,455 |
Pruebas ómnibus de coeficientes de modelo | ||||
Chi-cuadrado | gl | Sig, | ||
Paso 4 | Paso | 10,814 | 1 | ,001 |
Bloque | 149,095 | 4 | ,000 | |
Modelo | 149,095 | 4 | ,000 |
Resumen del modelo | |||
---|---|---|---|
Paso | Logaritmo de la verosimilitud -2 | R cuadrado de Cox y Snell | R cuadrado de Nagelkerke |
4 | 239,068b | ,413 | ,550 |
b, La estimación ha terminado en el número de iteración 6 porque las estimaciones de parámetro han cambiado en menos de ,001. |
Tabla de contingencia para la prueba de Hosmer y Lemeshow | ||||||
---|---|---|---|---|---|---|
ESTADO = Viva | ESTADO = Fallecida | Total | ||||
Observado | Esperado | Observado | Esperado | |||
Paso 4 | 1 | 35 | 35,326 | 1 | ,674 | 36 |
2 | 23 | 23,696 | 3 | 2,304 | 26 | |
3 | 41 | 42,601 | 21 | 19,399 | 62 | |
4 | 22 | 18,653 | 18 | 21,347 | 40 | |
5 | 13 | 11,726 | 16 | 17,274 | 29 | |
6 | 4 | 4,430 | 17 | 16,570 | 21 | |
7 | 2 | 2,976 | 39 | 38,024 | 41 | |
8 | 0 | ,591 | 25 | 24,409 | 25 |
1. | |
2. | |
3. | |
4. | |
5. | |
6. | |
7. | |
8. | |
9. | |
10. | |
11. | |
12. | |
13. | |
14. | |
15. | |
16. | |
17. | |
18. | |
19. | |
20. | |
21. | |
22. | |
23. | |
24. | |
25. | |
26. |
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial 4.0 Internacional.