Generation of Chest X-Ray Image Datasets for Training Deep Neural Networks

Henry Blanco Lores, Jef Vandemeulebroucke

Texto completo:

PDF (English)

Resumen

Deep neural network models represent the main reference for addressing automatic image classification problems. The successful training of this type of models depends on large amounts of labeled images. The current shortfall of labeled images in the radiology domain is a major obstacle for applying deep neural network models to this environment, and it is that the availability of labeled medical images for training this type of models remains insufficient.
In this work, we address this problem through the creation of an “inverted index” of medical images. This is a data structure taken from the field of information retrieval and adapted to the radiology application domain. The fundamental idea is to organize images of an imaging repository, just using the image tags as an index. This way, it is possible to query the inverted index for different sets of anomalies or labels and to efficiently generate a wide variety of image sets for training deep neural network models.
As a use case, we applied this solution to chest X-ray images from the PadChest repository. It was possible to efficiently organize its 160,000 images using an inverted index based on 174 anomalies (labels). Regarding the image access mechanism, provided by the authors of PadChest, the inverted index helped reduce the number of steps required to access images associated with a given anomaly by 10 times. By combining the inverted index with a hierarchy of radiological terms, which interrelates the anomalies present in the repository, it is possible to generate a huge variety of image sets to train deep neural network models for image classification tasks.
Keywords: deep learning; inverted index; medical images classification; convolutional neural networks; dictionary; machine learning; supervised learning; labeled image repositories; generated training datasets; indexing criteria.

RESUMEN
Los modelos de redes neuronales profundas, principal referente para abordar problemas de clasificación automática de imágenes, dependen de grandes cantidades de imágenes etiquetadas para su entrenamiento. Actualmente, esto resulta ser un importante obstáculo para aplicar exitosamente modelos de redes neuronales profundas al entorno radiológico. Y es que la disponibilidad de imágenes médicas etiquetadas para entrenar este tipo de modelos, es aún insuficiente.
En este trabajo, esta problemática es abordada a través de la creación de un índice invertido de imágenes médicas. Esta es una estructura de datos tomada del campo de recuperación de información y adaptada al dominio de aplicación radiológico. La idea fundamental es organizar las imágenes de repositorios imagenológicos, utilizando como índice las etiquetas asociadas a las imágenes. De aquí, la posibilidad de generar eficientemente una amplia variedad de conjuntos de imágenes para entrenar modelos de redes neuronales profundas.
Como caso de uso, aplicamos esta solución a imágenes radiográficas de tórax del repositorio, PadChest. Fue posible organizar sus 160 mil imágenes de forma eficiente a través de un índice invertido, basado en 174 anomalías (etiquetas). Respecto al mecanismo de acceso a las imágenes, brindado por los autores de PadChest, el índice invertido contribuyó a reducir 10 veces la cantidad de pasos necesarios para acceder a imágenes asociadas a una anomalía dada. Al combinar el índice invertido con una jerarquía de términos radiológicos, que interrelaciona las anomalías presentes en el repositorio, es posible generar una enorme variedad de conjuntos de imágenes para entrenar modelos de redes neuronales profundas en tareas de clasificación de imágenes.
Palabras clave: aprendizaje profundo; índice invertido; clasificación de imágenes médicas; redes neuronales convolucionales; diccionario; aprendizaje automático; aprendizaje supervisado; repositorios de imágenes etiquetadas; conjuntos de datos de entrenamiento generados; criterios de indexación.

Palabras clave

deep learning, inverted index, medical images


Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial 4.0 Internacional.