[Discriminant analysis to predict the clinical diagnosis of primary immunodeficiencies: a preliminary report]

Rev Alerg Mex. 2015 Apr-Jun;62(2):125-33.
[Article in Spanish]

Abstract

Background: The features in a clinical history from a patient with suspected primary immunodeficiency (PID) direct the differential diagnosis through pattern recognition. PIDs are a heterogeneous group of more than 250 congenital diseases with increased susceptibility to infection, inflammation, autoimmunity, allergy and malignancy. Linear discriminant analysis (LDA) is a multivariate supervised classification method to sort objects of study into groups by finding linear combinations of a number of variables.

Objective: To identify the features that best explain membership of pediatric PID patients to a group of defect or disease.

Material and method: An analytic cross-sectional study was done with a pre-existing database with clinical and laboratory records from 168 patients with PID, followed at the National Institute of Pediatrics during 1991-2012, it was used to build linear discriminant models that would explain membership of each patient to the different group defects and to the most prevalent PIDs in our registry. After a preliminary run only 30 features were included (4 demographic, 10 clinical, 10 laboratory, 6 germs), with which the training models were developed through a stepwise regression algorithm. We compared the automatic feature selection with a selection made by a human expert, and then assessed the diagnostic usefulness of the resulting models (sensitivity, specificity, prediction accuracy and kappa coefficient), with 95% confidence intervals.

Results: The models incorporated 6 to 14 features to explain membership of PID patients to the five most abundant defect groups (combined, antibody, well-defined, dysregulation and phagocytosis), and to the four most prevalent PID diseases (X-linked agammaglobulinemia, chronic granulomatous disease, common variable immunodeficiency and ataxiatelangiectasia). In practically all cases of feature selection the machine outperformed the human expert. Diagnosis prediction using the equations created had a global accuracy of 83 to 94%, with sensitivity of 60 to 100%, specificity of 83 to 95% and kappa coefficient of 0.37 to 0.76.

Conclusions: In general, the selection of features has clinical plausibility, and the practical advantage of utilizing only clinical attributes, infecting germs and routine lab results (blood cell counts and serum immunoglobulins). The performance of the model as a diagnostic tool was acceptable. The study's main limitations are a limited sample size and a lack of cross validation. This is only the first step in the construction of a machine learning system, with a wider approach that includes a larger database and different methodologies, to assist the clinical diagnosis of primary immunodeficiencies.

Antecedentes: las características clínicas de un paciente con sospecha de inmunodeficiencia primaria orientan el diagnóstico diferencial por medio del reconocimiento de patrones. Las inmunodeficiencias primarias son un grupo heterogéneo de más de 250 enfermedades congénitas con mayor susceptibilidad a padecer infecciones, autoinflamación, autoinmunidad, alergia y cáncer. El análisis discriminante lineal es un método multivariante de clasificación supervisada para agrupar a los sujetos a partir de encontrar combinaciones lineales de un número de variables. Objetivo: identificar las características que mejor explican la pertenencia de pacientes pediátricos con inmunodeficiencias primarias a un grupo de defectos o a una enfermedad. Material y método: estudio analítico transversal en el que a partir de una base de datos preexistente, con registros clínicos y de laboratorio de 168 pacientes con inmunodeficiencia primaria, seguidos en el Instituto Nacional de Pediatría de 1991 a 2012, construimos modelos discriminantes lineales para explicar la pertenencia de cada paciente a los diferentes grupos de defectos y a las inmunodeficiencias primarias más prevalentes en nuestro registro. Luego de una corrida preliminar se incluyeron únicamente las 30 variables (4 demográficas, 10 clínicas, 10 de laboratorio y 6 gérmenes) de mayor peso, a partir de las que se construyeron los modelos de entrenamiento con el algoritmo paso-a-paso (stepwise) hacia atrás, utilizando selección automatizada de variables e incorporación manual “teórica” por un experto humano. Se evaluó la utilidad clínica de los modelos resultantes (sensibilidad, especificidad, exactitud y coeficiente kappa), con intervalos de confianza de 95%. Resultados: los modelos incluyeron 6 a 14 variables para explicar la pertenencia de 168 pacientes con inmunodeficiencias primarias a los cinco grupos más numerosos (combinados, anticuerpos, bien definidos, desregulación y fagocitosis) y las cuatro enfermedades más prevalentes (agammaglobulinemia ligada al cromosoma X, enfermedad granulomatosa crónica, inmunodeficiencia común variable y ataxia-telangiectasia). Prácticamente en todos los casos el desempeño de la máquina fue superior al del experto humano en lo que respecta a la selección de los atributos más pertinentes para incorporar en los modelos. La predicción del diagnóstico con base en las ecuaciones construidas tuvo exactitud global de 83 a 94%, con sensibilidad de 60 a 100%, especificidad de 83 a 95% y coeficiente kappa de 0.37 a 0.76. Conclusiones: la selección de variables, en general, tiene plausibilidad clínica y tiene la ventaja práctica de utilizar solamente atributos clínicos, gérmenes encontrados y estudios de laboratorio de rutina (biometría hemática e inmunoglobulinas séricas). El desempeño del modelo como herramienta de predicción fue aceptable. Las principales limitaciones del estudio incluyen un tamaño de muestra limitado, lo que no permitió que realizáramos validación cruzada en la evaluación. Éste es solamente un primer paso en la construcción de un sistema de aprendizaje automático, con un abordaje más amplio que incluya una base de datos más grande y diferentes metodologías, para asistir el diagnóstico clínico de las inmunodeficiencias primarias.

Keywords: Automatic learning; Clinical diagnosis; Computed-assised; Discriminant analysis; Expert vs machine; Primary immunodeficiencies.

Publication types

  • English Abstract