Topic description
Ce projet de doctorat vise à construire un ensemble de données multimodal à grande échelle, longitudinal et enrichi de signaux d'ancrage solides, puis à développer un modèle vision‑langage médical (VLM) compact mais évolutif, dont la structure interne s'aligne étroitement sur les flux de travail des médecins.
La recherche sera organisée autour de deux axes étroitement liés. Le premier porte sur la construction de l'ensemble de données, impliquant la collecte et l'harmonisation de données hospitalières vietnamiennes dé‑identifiées, couvrant les radiographies, scanners (CT), PET, IRM et rapports cliniques, complétées par des ensembles de données publiques soigneusement sélectionnés. Le second axe concerne la méthodologie, en partant de modèles de base de taille modérée et cliniquement performants, dans l'esprit de LLaVA-Med, puis en décomposant le système en modules experts interactifs pour la récupération, la localisation, la segmentation, ...