nnU à vie
Rapports scientifiques volume 13, Numéro d'article : 9381 (2023) Citer cet article
Détails des métriques
Alors que l'enthousiasme suscité par l'apprentissage en profondeur grandit, les médecins praticiens et les organismes de réglementation explorent des moyens d'introduire en toute sécurité la segmentation d'images dans la pratique clinique. Une frontière à surmonter lors de la traduction de recherches prometteuses dans le monde clinique ouvert est le passage de l'apprentissage statique à l'apprentissage continu. L'apprentissage continu, la pratique des modèles de formation tout au long de leur cycle de vie, connaît un intérêt croissant mais en est encore à ses balbutiements dans le domaine de la santé. Nous présentons Lifelong nnU-Net, un cadre standardisé qui place la segmentation continue entre les mains des chercheurs et des cliniciens. Construit au-dessus du nnU-Net, largement considéré comme le segmenteur le plus performant pour de multiples applications médicales, et équipé de tous les modules nécessaires pour former et tester les modèles de manière séquentielle, nous garantissons une large applicabilité et réduisons la barrière à l'évaluation de nouvelles méthodes en continu. mode. Nos résultats de benchmark sur trois cas d'utilisation de segmentation médicale et cinq méthodes d'apprentissage continu donnent une vision globale de l'état actuel du domaine et signifient un premier benchmark reproductible.
Les méthodes d'apprentissage en profondeur pour les cas d'utilisation médicale continuent d'être évaluées dans un cadre statique, où toutes les données disponibles sont mélangées et le modèle est testé sur un sous-ensemble d'échantillons en distribution. Cela repose sur les hypothèses irréalistes selon lesquelles (a) toutes les données de formation sont disponibles dans un emplacement central et (b) les conditions d'acquisition ne changent pas dans le temps après le déploiement clinique1. L'évaluation de cette manière crée un écart considérable entre les performances rapportées des nouvelles méthodes et leur utilité dans la pratique2,3,4, ce qui entrave le déploiement vital d'agents d'apprentissage tout au long de la vie dans des environnements cliniques dynamiques5.
L'apprentissage continu ne néglige pas la dimension temporelle des données et entraîne les modèles de manière séquentielle, comme illustré sur la figure 1. L'objectif est ici de s'adapter à de nouveaux environnements sans perdre en performance sur les conditions d'entraînement et les groupes de matières observés précédemment. Les méthodes d'apprentissage fédéré distribué ont été explorées dans des contextes multicliniques et ne nécessitent pas non plus le partage de données entre les établissements6,7. Cependant, ils ne traitent pas des restrictions temporelles sur la disponibilité des données ni ne fournissent un cadre pour les agents qui s'adaptent en permanence à l'évolution de la dynamique démographique. La formation continue en santé, qui répond à ces préoccupations, suscite un engouement croissant8,9,10,11 et les procédures réglementaires sont activement débattues5,12,13. Actuellement, une nouvelle approbation est requise chaque fois qu'un modèle est adapté pendant le déploiement, mais il existe des initiatives de la FDA et de la Commission européenne pour un protocole réglementaire du cycle de vie qui permet l'utilisation d'algorithmes à adaptation continue14. Ces poursuites peuvent nous conduire à la situation rare où les directives réglementaires sont en place alors que la technologie en est encore à ses balbutiements.
Dans un cadre statique (à gauche), toutes les données d'entraînement sont rassemblées. Les paramètres continus (à droite) prennent en compte le moment de l'acquisition et entraînent le modèle de manière séquentielle.
La littérature technique sur l'apprentissage continu pour des tâches de vision par ordinateur plus simples est en proie à des controverses sur l'absence d'une configuration d'évaluation standardisée15,16,17. Récemment, le projet Avalanche18 est apparu comme une solution à ce problème de classification continue en fournissant une base de code unifiée. Le domaine n'est pas aussi mature pour la segmentation continue, qui attribue une étiquette à chaque pixel de l'image et est sans doute la principale tâche d'IA dans le domaine clinique. Bien que davantage de travaux aient été effectués ces dernières années8,10,19,20,21,22,23, ils ne (1) ne s'appuient pas sur des pipelines de segmentation performants ni (2) n'examinent comment les méthodes populaires sont transférées à la segmentation d'images pour plusieurs benchmarks open source.
Dans ce travail, nous présentons Lifelong nnU-Net, un cadre standardisé pour la formation et l'évaluation des modèles de segmentation dans des contextes continus. Nous construisons notre code au-dessus du pipeline nnU-Net, qui est très populaire et à la pointe de la technologie pour 33 tâches de segmentation médicale - et compétitif pour vingt autres - dans 11 défis internationaux de segmentation biomédicale24. Cela garantit la convivialité et les performances élevées de notre framework étendu. Nos apports sont :
L'introduction d'un cadre d'apprentissage continu open source construit au-dessus du nnU-Net
Une comparaison des performances et de la durée d'exécution pour un entraînement séquentiel dans différents paramètres, et
Implémentations open-source pour cinq méthodes d'apprentissage continu, permettant l'évaluation rapide de l'état de l'art et accélérant le développement de nouvelles approches.
Nos expériences sur des données accessibles au public pour trois problèmes de segmentation différents montrent que :
Aucune des méthodes d'apprentissage continu explorées n'atteint systématiquement un transfert positif vers l'arrière pour la segmentation, ce qui montre le besoin de nouvelles solutions,
Conformément à des recherches antérieures, les méthodes basées sur la répétition affichent le moins d'oubli tout en maintenant la plasticité du modèle, et
La pratique consistant à maintenir des têtes spécifiques à une tâche, courante dans la littérature sur l'apprentissage continu, n'est que peu pertinente pour la segmentation.
L'objectif de Lifelong nnU-Net est de garantir des normes techniques élevées et des résultats reproductibles pendant que la communauté traduit l'apprentissage continu en segmentation d'images médicales. En publiant notre code et nos modèles entraînés pour les ensembles de données open source, nous établissons une référence pour évaluer les futures méthodes d'apprentissage continu sur les modèles de segmentation.
Nous commençons cette section en examinant les résultats des modèles de formation de manière statique avec un ensemble de données. Ensuite, nous explorons l'apprentissage séquentiel et cinq stratégies d'apprentissage continu populaires : la répétition, la consolidation élastique des poids25 (EWC), l'apprentissage sans oubli26 (LwF), la marche riemannienne27 (RW) et la modélisation de l'arrière-plan28 (MiB). Nous considérons par la présente les ensembles de données de chaque anatomie (hippocampe, prostate ou cœur) comme n tâches \(\mathscr {T}_1\), ..., \(\mathscr {T}_n\) et entraînons le modèle de chacune cas d'utilisation séquentiellement avec toutes les tâches respectives.
Nous quantifions les performances de segmentation avec le coefficient de Dice et rapportons le transfert vers l'arrière (BWT), qui mesure le degré d'oubli des tâches plus anciennes, et le transfert vers l'avant (FWT), qui évalue la capacité à apprendre de nouvelles connaissances.
Enfin, nous analysons la différence entre l'utilisation d'architectures à une ou plusieurs têtes, illustrons brièvement l'importance de l'ordonnancement des tâches et fournissons un résumé de nos temps de formation.
Pour mettre en contexte les résultats de l'apprentissage continu, nous observons d'abord les performances de modèles indépendants entraînés uniquement sur un ensemble de données. Celles-ci sont illustrées à la Fig. 2. Sur la diagonale du coin inférieur gauche au coin supérieur droit, nous voyons des évaluations statiques sur les données de distribution. Dans ce cadre, tous les modèles atteignent au moins 86 % de dés.
Performances des modèles entraînés indépendamment sur un seul ensemble de données. Sur la diagonale (en bas à gauche vers en haut à droite), nous trouvons le coefficient de Dice d'évaluation des modèles sur les cas de test de l'ensemble de données utilisé pour la formation. Dans les cellules restantes, nous voyons comment ces modèles sont transférés vers d'autres ensembles de données. Pour les données cardiaques, nous rapportons les performances de segmentation du ventricule droit.
Les matrices inter-tâches nous permettent également de voir l'efficacité de chaque modèle sur les données hors distribution. Ces différences de performances sont dues à la fois à la dissemblance inhérente entre les ensembles de données en termes d'acquisition et de population de patients et à la robustesse du modèle causée par des données d'entraînement plus importantes et plus diversifiées. L'hypothèse est que si un modèle formé sur \(\mathscr {T}_1\) est ensuite formé sur \(\mathscr {T}_2\), la quantité d'oubli pour \(\mathscr {T}_1\) sera plus la distribution des données est similaire et plus les performances initiales du modèle sur \(\mathscr {T}_2\) sont élevées.
Pour la segmentation de la prostate (première carte thermique), I2CVB est une valeur aberrante claire. Dans le cas de l'hippocampe, le modèle entraîné sur HarP est moins performant sur DecathHip et inversement. Alors que le modèle HarP atteint 86% de dés sur Dryad, le modèle Dryad n'atteint que 50% sur HarP. Cela est probablement dû à la taille beaucoup plus grande de HarP (voir le tableau 4). Dans le cas de la segmentation du ventricule droit, le modèle entraîné sur Siemens fonctionne bien sur Philips, mais le modèle Philips n'atteint qu'un dé de 50 % sur les données Siemens, ce qui entraîne probablement moins de variation entre les cas d'entraînement.
Ensuite, nous inspectons les performances lorsque les modèles sont entraînés de manière séquentielle, résumées dans le tableau 1 pour les anatomies de la prostate et de l'hippocampe et dans le tableau 2 pour le cœur. Dans la première ligne, nous rapportons la limite supérieure d'un modèle statique entraîné avec toutes les données d'entraînement mélangées de l'anatomie respective. La ligne suivante montre le résultat de la formation séquentielle d'un modèle de manière triviale, et les autres lignes concernent différentes stratégies d'apprentissage continu qui tentent d'atténuer la quantité d'oubli. Rapporté est le Dice du modèle final après entraînement dans les ordres \(UCL \rightarrow I2CVB \rightarrow ISBI \rightarrow DecathProst\) (prostate), \(HarP \rightarrow Dryad \rightarrow DecathHip\) (hippocampe) et \(Siemens \ flèche droite Philips\) (cardiaque).
Sur toutes les anatomies, la méthode Rehearsal29 (Reh.) est efficace pour prévenir les oublis. Ceci est cohérent avec les recherches précédentes29. Cependant, cette stratégie ne peut pas toujours être utilisée car elle nécessite de stocker des échantillons de tâches précédentes afin de les entrelacer dans la formation future. Cela n'est pas possible dans de nombreux scénarios, où la répétition serait une limite supérieure supplémentaire. Dans ces cas, EWC et MiB réduisent de manière fiable la quantité d'oublis dans les premières tâches. En revanche, LwF et RW ne semblent pas bien se traduire par la tâche de segmentation sémantique. Nous illustrons directement l'oubli en tant que transfert arrière inverse sur la figure 3 (axe y), où nous voyons que EWC (▼), MiB () et Rehearsal (✖) maintiennent des scores de transfert arrière élevés.
Transfert relatif vers l'arrière (axe des y) et vers l'avant (axe des x) pour la segmentation continue de trois cas d'utilisation, moyennés sur toutes les données respectives. Chaque marqueur correspond à un stade d'entraînement et à une structure anatomique. Le transfert vers l'arrière est l'oubli inverse et le transfert vers l'avant mesure la capacité d'adaptation du modèle aux tâches futures. Pour les deux métriques, plus c'est haut, mieux c'est, et des résultats proches de zéro peuvent être attendus de manière réaliste.
Notez cependant que cela se fait souvent au prix d'une perte de plasticité du modèle, réduisant les performances sur les tâches ultérieures. Par exemple, alors que le modèle séquentiel montre un Dice de 91,91 % dans DecathProst (la dernière tâche), il diminue à 87,79 % pour EWC. Pour la segmentation de l'hippocampe, ce comportement est beaucoup plus prononcé. Le Dice sur DecathHip passe de 90,92% à 31,93% pour EWC et 20,75% pour MiB. Pour les données cardiaques, la détérioration des performances sur la tâche initiale de Siemens pour LwF et RW et la perte de plasticité sur les données Philips pour EWC et MiB sont particulièrement visibles pour les classes plus difficiles du myocarde (MI) et du ventricule droit (RV). La perte de plasticité est illustrée par un transfert vers l'avant (axe x) sur la figure 3, où EWC affiche des valeurs négatives tandis que Rehearsal reste proche de zéro.
Nous analysons plus en détail le comportement de la formation séquentielle triviale aux côtés de la méthode de répétition la plus performante et de l'EWC en observant les trajectoires de formation de la Fig. 4.
Trajectoires d'apprentissage pour la segmentation de l'hippocampe et de la prostate, la dernière dans deux ordres différents, à savoir \(UCL \rightarrow I2CVB \rightarrow ISBI \rightarrow DecathProst\) et \(ISBI \rightarrow UCL \rightarrow DecathProst \rightarrow I2CVB\). Les lignes verticales marquent les limites des tâches. Chaque tâche est affichée avec une couleur différente. Nous comparons la formation séquentielle triviale (lignes pleines) à l'EWC (en pointillés) et à la répétition (en pointillés).
Les lignes pleines pour la formation séquentielle représentent principalement une chute rapide après les limites des tâches. La répétition et l'EWC réduisent considérablement le nombre d'oublis. Cependant, la diminution de la plasticité se manifestant par un transfert vers l'avant négatif pour EWC est évidente, les lignes pointillées d'une nouvelle tâche commençant souvent en dessous des équivalents séquentiels, notamment sur la figure 4 pour DecathHip au troisième stade de l'hippocampe.
Pour les expériences sur la prostate dans l'ordre \(UCL \rightarrow I2CVB \rightarrow ISBI \rightarrow DecathProst\), nous remarquons une récupération inattendue pour l'UCL (cyan) après la fin de l'entraînement avec I2CVB (deuxième étape). Cependant, cela est probablement dû aux bonnes performances inhérentes des modèles entraînés avec ISBI et DecathProst sur UCL (voir Fig. 2).
on répète l'expérience dans l'ordre \(ISBI \rightarrow UCL \rightarrow DecathProst \rightarrow I2CVB\), on constate un comportement plus proche de celui observé pour l'hippocampe, où il y a une détérioration continue des performances pour les tâches plus anciennes et une perte de la plasticité du modèle pour EWC se manifeste par une faible performance de démarrage pour la dernière tâche, I2CVB.
Cela montre à quel point l'ordre des tâches est important lorsque l'on compare les méthodes d'apprentissage continu. Idéalement, tous les ordonnancements devraient être pris en compte, mais cela peut être interdit en termes de calcul lors de la formation d'architectures de segmentation en 3 dimensions. Alternativement, les résultats de la distribution statique et des performances inter-tâches doivent être pris en compte. Néanmoins, cela ne peut être fait que pour des études rétrospectives. Prospectivement, l'ordre des tâches est donné et l'utilisateur doit s'entraîner avec les tâches au fur et à mesure qu'elles deviennent disponibles, sans aucune connaissance de leur lien avec les données qui deviendront disponibles plus tard.
La plupart des méthodes d'apprentissage continu permettent d'ajuster la rigidité du modèle à travers certains hyperparamètres. Par exemple, le CEE \(\lambda\) décide dans quelle mesure la divergence par rapport aux états précédents du modèle doit être pénalisée. Un \(\lambda\) plus grand donne la priorité à la préservation des connaissances tandis qu'un \(\lambda\) plus petit permet au modèle de s'adapter plus facilement à la nouvelle distribution.
Malheureusement, contrairement aux paramètres de formation statiques où les hyperparamètres peuvent être réglés avec un ensemble de validation, dans un véritable cadre continu, nous n'avons pas accès aux échantillons des tâches précédentes et aucune information sur les données que le modèle recevra plus tard. Il est donc extrêmement difficile de décider de bons hyperparamètres, et nous devons suivre les directives de la littérature, observer au préalable les trajectoires de perte dans la tâche en cours ou guider nos paramètres à travers les résultats d'autres expériences. C'est la stratégie que nous suivons dans ce travail.
Dans le tableau 2, nous incluons des résultats rétrospectifs sur trois paramètres d'hyperparamètres pour chaque méthode d'apprentissage continu. Ceux-ci incluent les paramètres par défaut utilisés dans le tableau 1 (\(\lambda = 0,4\) pour EWC, \(T = 2\) pour LwF, \(\alpha =0,9\) pour MiB et \(\lambda = 0,4\) pour RW) et d'autres que nous avons jugés raisonnables après analyse de ces résultats. En particulier, nous remarquons qu'un \(\lambda\) inférieur pour EWC et un \(\alpha\) inférieur pour MiB sont bénéfiques, permettant une plus grande plasticité du modèle tout en préservant les connaissances. D'autres paramètres n'ont pas amélioré les résultats pour LwF ou RW.
Nous soulignons que cela ne se traduit pas par de meilleures performances sur les cas d'utilisation de la prostate et de l'hippocampe. En fait, si EWC et MiB diminuent la plasticité des modèles comme on le voit dans le tableau 1, ils ne sont pas trop rigides, car on note aussi quelques oublis (ex pour ISBI, HarP et Dryad). La définition d'hyperparamètres pour un déploiement réel ou des études prospectives est extrêmement difficile et constitue un problème lors de l'application de méthodologies d'apprentissage continu dans des contextes dynamiques réels, car un compromis rigidité/plasticité ne peut pas être sélectionné de manière fiable en observant les résultats sur d'autres cas d'utilisation.
Dans les expériences précédentes, nous avons supposé que le modèle entier était entraîné séquentiellement. L'apprentissage continu est parfois évalué dans un environnement multi-têtes où la dernière couche réseau est maintenue dépendante de la tâche et n'est pas mise à jour après la formation avec sa tâche respective15. Lors de l'inférence, la tête correspondante est utilisée à côté du corps partagé. De plus, il existe deux alternatives en termes de mise à jour du corps : le corps peut rester en plastique et donc être mis à jour au fil du temps ou être figé après la première phase d'entraînement.
Si la priorité des tâches n'est pas connue pour un échantillon lors de l'inférence, elle peut être déduite des caractéristiques de l'image telles que la distribution des valeurs d'intensité ou la capacité d'un auto-encodeur à la reconstruire19,30. Dans ce travail, nous supposons que ces informations sont disponibles.
Dans la figure 5, nous explorons les quatre possibilités d'entraînement ou de gel du corps partagé et de maintien d'une tête indépendante de la tâche. Nous observons que la différence entre le maintien d'une tête par rapport à des têtes séparées (et la sélection de la tête appropriée lors de l'inférence) est minime. En revanche, la pratique de la congélation du corps empêche d'oublier la première tâche Siemens, mais au prix de performances légèrement inférieures sur la deuxième tâche Philips (comme on pouvait s'y attendre en raison de la perte de plasticité). En regardant la Fig. 2, le modèle formé uniquement sur les données Siemens fonctionne assez bien sur Philips. Cela indique que la perte de plasticité pourrait avoir un effet plus important sur les performances pour un corpus de données différent.
Quatre réglages pour l'entraînement et la construction d'un modèle : permettre au modèle de s'adapter et de garder les têtes dépendantes de la tâche (Plastique MH, rose) ou de partager une tête (Plastique LH, orange), de geler le corps après la première tâche et de garder les têtes dépendantes de la tâche (Frozen MH, bleu clair) ou partageant une tête (Frozen LH, vert). Le Dice est rapporté pour trois structures cardiaques.
Dans ce qui suit, nous illustrons visuellement comment l'apprentissage continu affecte l'intégrité des masques de segmentation. Contrairement à la classification des images, les segmentations peuvent donner une indication directe du moment et de la manière dont un modèle échoue. La figure 6 affiche des exemples des ensembles de données UCL et HarP, qui sont les premières tâches pour les cas d'utilisation de la prostate et de l'hippocampe, respectivement.
Les première et deuxième colonnes montrent la vérité terrain et la segmentation produite par le modèle juste après avoir terminé l'entraînement avec la tâche correspondante. D'autres colonnes montrent la prédiction du modèle final avec différentes stratégies d'apprentissage continu. Comme lors de l'entraînement trivial du modèle de manière séquentielle (Seq. à \(\mathscr {T}_n\)), les méthodes LwF et RW produisent des masques de segmentation dispersés avec des composants connectés supplémentaires. EWC maintient l'intégrité de la segmentation de l'hippocampe, mais pas celle de la prostate. Cela est probablement dû à la rigidité accrue du modèle d'hippocampe, qui à son tour entraîne un transfert vers l'avant négatif (voir Fig. 3). La répétition conserve généralement les formes correctes, bien que le masque de la prostate soit plus grand que prévu et comprenne un composant connecté supplémentaire. Enfin, MiB produit avec succès des masques raisonnables dans les deux cas, bien que des segments légèrement inférieurs à la prostate.
Détérioration qualitative des performances de segmentation lors de la formation séquentielle de modèles pour UCL et HarP, pour lesquels nous affichons des cultures de région d'intérêt de vues axiales et des rendus 3D produits avec ITK-SNAP31.
Nos expériences ont été réalisées dans un système avec 8 GPU NVIDIA Tesla T4 (16 Go), 2 processeurs Intel Xeon Silver 4210 et 256 Go de RAM DDR4. Les expériences ont été menées en parallèle, chacune occupant un GPU à l'exception des expériences LwF pour le cas d'utilisation de la prostate, où 2 GPU ont été utilisés en tandem.
Le tableau 3 donne un aperçu des temps de formation nécessaires pour une époque pour chaque méthode et anatomie. Les expériences sur l'hippocampe ont été les plus rapides en raison de la résolution inférieure. MiB nécessite beaucoup plus de temps que la formation séquentielle, et la durée d'une époque LwF augmente considérablement à mesure que la longueur de la séquence de tâches augmente (perceptible pour les expériences sur la prostate à quatre tâches), même si une partie du réseau est gelée.
En particulier pour la segmentation d'images médicales, où les exigences matérielles sont importantes et potentiellement prohibitives, la surcharge de calcul doit être prise en compte lors de la sélection d'une stratégie d'apprentissage continu. En particulier, il peut être judicieux d'éviter les méthodes qui augmentent la durée de chaque époque de manière linéaire avec la longueur de la séquence de tâches.
Dans les environnements cliniques dynamiques, des modèles capables de s'adapter à l'évolution des protocoles d'imagerie et des schémas pathologiques sont nécessaires. Alors que l'importance de l'apprentissage continu pour la segmentation de l'imagerie médicale est reconnue, notre communauté ne dispose pas des normes de rapport et des ensembles de données de référence que les chercheurs utilisent pour la classification des images naturelles.
Avec le Lifelong nnU-Net, nous établissons un cadre pour l'évaluation standardisée de la segmentation continue. Nous étendons le pipeline populaire nnU-Net avec tous les composants nécessaires à la formation et à l'évaluation des architectures de segmentation de manière séquentielle, y compris cinq stratégies d'apprentissage continu populaires et des métriques spécifiques aux paradigmes continus.
Notre évaluation sur trois cas d'utilisation de segmentation différents nous permet d'obtenir des informations précieuses. Conformément aux recherches précédentes29, la répétition donne les meilleurs résultats, diminuant considérablement l'oubli en entrelaçant un sous-ensemble de cas de tâches précédentes dans les données d'entraînement. Dans nos expériences, nous entrelacons un pourcentage fixe des données d'apprentissage passées, mais de nombreuses stratégies existent pour optimiser la mémoire tampon ou répliquer les cas où certaines tâches sont sous-représentées. Bien sûr, une stratégie basée sur les répétitions n'est réalisable que si ces données peuvent être stockées. Pour les scénarios où ce n'est pas le cas en raison de considérations de confidentialité des patients, les méthodes EWC et MiB s'avèrent être des alternatives appropriées, réduisant efficacement l'oubli, mais au prix d'une réduction de la capacité du modèle à s'adapter à de nouvelles tâches. Enfin, les méthodes LwF et RW ne semblent pas bien adaptées à notre configuration. Bien qu'ils puissent être davantage réglés pour permettre une meilleure préservation des connaissances dans les expériences rétrospectives, cela n'est pas faisable pendant le déploiement réel, car la détérioration du modèle sur les tâches précédentes ne peut pas être mesurée.
Une conclusion décevante dans notre étude est qu'aucune méthode n'a entraîné de transfert positif vers l'arrière (BWT). Ceci est clairement illustré sur la figure 3, où l'on voit que même les meilleures méthodes ne parviennent qu'à empêcher l'oubli, atteignant un BWT de zéro. Cela signifie qu'aucune connaissance acquise lors de tâches ultérieures n'améliore les performances lors de tâches antérieures. Par conséquent, le maintien de modèles totalement indépendants et l'utilisation du modèle correspondant lors de l'inférence surpasseraient toutes les méthodes d'apprentissage continu explorées. Nous n'avons également observé que des transferts vers l'avant positifs dans les expériences sur la prostate. Cela signifie que l'entraînement précédent avec des tâches antérieures, puis un réglage fin n'améliorent que très peu les performances par rapport à l'entraînement d'un modèle avec la tâche correspondante à partir de zéro.
De plus, nous avons constaté que la pratique consistant à maintenir des têtes spécifiques à une tâche, courante dans la littérature sur l'apprentissage continu, n'affecte pas de manière significative les performances de segmentation continue dans les images médicales. C'est le cas aussi bien lorsque le corps est gelé après la première étape que lorsqu'il reste plastique. D'autres études devraient envisager de laisser une plus grande partie du réseau spécifique à une tâche.
Nous avons identifié plusieurs limites dans notre étude. Tout d'abord, nous avons limité notre étude à la variante nnU-Net 3D basée sur des patchs à pleine résolution, qui est suggérée pour la plupart des applications. Nous n'avons pas répété nos expériences sur les réseaux tranche par tranche ou 3D sous-échantillonnés. Notre évaluation porte également sur le scénario d'apprentissage de domaine incrémental qui est le plus pertinent dans le contexte de l'imagerie médicale8.
Deuxièmement, à l'heure actuelle, il existe un catalogue limité de méthodes d'apprentissage continu dans le cadre Lifelong nnU-Net. Nous avons cherché à avoir une représentation suffisante des approches individuelles dans différentes stratégies et avons mis en œuvre un mélange de méthodes très populaires mais plus anciennes (répétition simple, EWC et LwF) et d'approches plus récentes (MiB et RW). À l'avenir, nous espérons que ce catalogue grandira à la fois grâce à nos efforts et aux contributions des autres membres de la communauté.
Un cadre efficace pour la segmentation continue des images a les exigences suivantes :
Il possède tous les composants pour obtenir des résultats de segmentation statique de haute qualité et prend en charge les architectures bidimensionnelles et tridimensionnelles (comme le nnU-Net),
Simplifie l'évaluation des scénarios de domaine incrémentiel en s'appuyant sur des formats d'ensembles de données largement acceptés et l'alignement des caractéristiques des étiquettes sur les ensembles de données,
Comprend une logique d'évaluation intégrée qui suit les performances du modèle pour différentes tâches pendant la formation avec des mesures appropriées, et
Prend en charge les solutions d'apprentissage continu de pointe existantes, y compris la formation de modèles multi-têtes qui maintiennent à la fois des paramètres partagés et indépendants des tâches.
Nous commençons cette section en introduisant les trois cas d'utilisation de segmentation que nous explorons, ainsi que notre notation. Nous décrivons ensuite comment nous abordons chacune des exigences énoncées ci-dessus pour garantir que le cadre Lifelong nnU-Net fournit une base solide pour la recherche sur l'apprentissage continu en médecine. Enfin, nous décrivons les méthodes d'apprentissage continu utilisées et détaillons brièvement notre dispositif expérimental.
Nous explorons le problème de la segmentation continue des images pour trois cas d'utilisation très différents. Pour garantir la reproductibilité, nous n'utilisons que des ensembles de données librement disponibles et alignons les caractéristiques des étiquettes selon le processus décrit ci-dessous. Pour chaque anatomie, nous sélectionnons un tableau d'ensembles de données qui agissent comme nos tâches \(\mathscr {T}_1 ... \mathscr {T}_n\). Le tableau 4 donne un aperçu des caractéristiques des données et des étiquettes pour tous les ensembles de données.
Le premier cas d'utilisation que nous abordons est la segmentation de la prostate en IRM pondérée en T2, pour laquelle nous utilisons un corpus de quatre sources de données. Nous utilisons les données fournies dans l'ensemble de données multisite pour le défi de segmentation de l'IRM de la prostate32,33 pour les sites A (ISBI34), C (I2CVB35) et D (UCL36). Enfin, nous utilisons les données fournies dans le cadre du Medical Segmentation Decathlon37 (DecathProst). Certains masques de segmentation contiennent deux étiquettes représentant la zone périphérique et la glande centrale, que nous joignons en une seule étiquette de la prostate pour assurer la cohérence à travers le corpus. La segmentation de la prostate est un problème assez facile, bien que crucial pour déterminer la localisation possible du tissu tumoral précédant une biopsie, et la forme de la prostate varie très peu entre les différents patients. La figure 7 montre des exemples des quatre ensembles de données.
Exemples de tranches pour quatre sujets à partir des ensembles de données de segmentation de la prostate.
La seconde est la segmentation de l'hippocampe en IRM pondérée en T1, pour laquelle nous incluons trois sources de données. Les données du Harmonized Hippocampal Protocol38, ci-après dénommées HarP, contiennent des sujets âgés sains et des patients atteints de la maladie d'Alzheimer. L'ensemble de données Dryad39 compte cinquante patients supplémentaires en bonne santé. Comme troisième source de données, nous utilisons les images fournies dans le cadre du Decathlon de segmentation médicale37 (DecathHip), provenant à la fois d'adultes en bonne santé et de patients schizophrènes. Pour la segmentation de l'hippocampe, on peut s'attendre à des dés de plus de 90 %24. Des tranches d'image exemplaires des trois ensembles de données peuvent être trouvées à la Fig. 8.
Exemples de tranches pour trois sujets à partir des ensembles de données de segmentation de l'hippocampe.
Enfin, nous explorons la segmentation des ventricules gauche et droit (LV et RV) et du myocarde (MI) dans les IRM cardiaques. Nous utilisons les données publiées pour le Multi-Centre, Multi-Vendor & Multi-Disease Cardiac Image Segmentation Challenge (M&Ms)40, qui comprend 75 cas étiquetés acquis avec Siemens et 75 cas acquis avec des scanners Philips. Cela entraîne la difficulté supplémentaire d'être un problème multi-classes, ce qui nous permet d'observer comment les performances des différentes structures anatomiques varient en fonction de la forme et de la taille de la région d'intérêt. Des tranches exemplaires peuvent être observées sur la Fig. 9.
Exemples de tranches pour les sujets des deux ensembles de données cardiaques. Le ventricule gauche (rouge), le myocarde (vert) et le ventricule droit (bleu) sont segmentés.
Nous sélectionnons ces trois paramètres de problème pour assurer la variabilité entre les modalités, la forme et la taille des masques de segmentation et la difficulté de la tâche à accomplir. Bien sûr, notre cadre permet l'évaluation rapide d'autres cas d'utilisation. Pour tous les ensembles de données, nous divisons 20 % des données à des fins de test et maintenons cette répartition dans toutes les expériences. Nous rendons les divisions accessibles au public avec notre code.
Considérons n tâches \(\mathscr {T}_1\), ..., \(\mathscr {T}_n\). Le modèle \(\mathscr {F}_2\) est entraîné uniquement sur les données d'entraînement de la tâche \(\mathscr {T}_2\). Le modèle \(\mathscr {F}_{[1, 2, 3]}\) a été entraîné séquentiellement sur les tâches \(\mathscr {T}_1\), \(\mathscr {T}_2\) et \(\ mathscr {T}_3\), dans cet ordre. \(\mathscr {F}_{\left\{ 1, 2, 3 \right\} }\) est plutôt un modèle statique, entraîné avec des données d'entraînement mélangées provenant des trois tâches. Enfin, nous utilisons \(\mathscr {F}_i(\mathscr {T}_j)\) pour faire référence aux performances du modèle \(\mathscr {F}_i\) appliqué aux données de test de la tâche \(\mathscr {T}_j\).
Très souvent, les ensembles de données de segmentation qui explorent des problèmes similaires ne sont pas uniformes en termes de structure d'étiquette. L'apprentissage continu n'est possible que si les annotations sont cohérentes dans tous les ensembles de données. Par conséquent, avant qu'un modèle puisse être formé de manière continue, une étape de prétraitement cruciale consiste à aligner les caractéristiques de l'étiquette.
Considérons, par exemple, le problème de la segmentation de la prostate. L'ensemble de données \(\mathscr {T}_1\) peut inclure des annotations pour la classe de la prostate, en distinguant les voxels de la prostate (qui prennent la valeur 1 dans le masque de segmentation) de l'arrière-plan marqué de zéros. L'ensemble de données \(\mathscr {T}_2\) peut à la place inclure des annotations pour la glande centrale (étiquette 1) et la zone périphérique (étiquette 2), deux régions qui forment ensemble la prostate. Encore un autre ensemble de données, \(\mathscr {T}_3\), peut inclure des annotations pour la prostate (étiquette 1) et la vessie (étiquette 2). Nous pouvons aligner ces étiquettes pour reprendre la structure de l'ensemble de données A en convertissant les annotations pour les étiquettes 1 et 2 en classe 1 (prostate) dans l'ensemble de données B et en convertissant l'étiquette 2 (vessie) en classe 0 (arrière-plan) pour l'ensemble de données C. Ce processus est visualisé sur la Fig. 10. Bien sûr, un scénario alternatif serait l'apprentissage incrémentiel des étiquettes, où le nombre d'étiquettes augmente avec le temps. Dans ce cas, on conserverait l'étiquette séparée de la vessie dans \(\mathscr {T}_3\).
Alignement des caractéristiques de l'étiquette pour la prostate (fusionnant la glande centrale et la zone périphérique) et l'hippocampe (fusionnant la tête et le corps).
L'alignement de ces caractéristiques est crucial pour obtenir suffisamment de données open source pour une évaluation significative des différents cas d'utilisation. Dans Lifelong nnU-Net, nous avons inclus un script de prétraitement qui exécute facilement ces étapes.
L'alternative naturelle à la formation séquentielle d'un modèle, sous nos contraintes de disponibilité des données, consiste à maintenir un modèle par tâche et à sélectionner le modèle à utiliser pour chaque sujet lors de l'inférence. Cette option garantit qu'aucun oubli ne se produit, bien qu'elle exclue toute possibilité de transfert vers l'arrière et vers l'avant et augmente les besoins en mémoire de manière linéaire avec le nombre de tâches. Plusieurs méthodes d'apprentissage continu adoptent une approche intermédiaire : les premières couches sont partagées, mais les dernières couches restent spécifiques à la tâche25,26. L'intuition est que les modèles multi-têtes permettent aux paramètres antérieurs d'apprendre à partir de nouvelles données tandis que les dernières couches du réseau conservent les informations spécifiques à la tâche.
Nous implémentons ce comportement dans le cadre Lifelong nnU-Net tel que visualisé à la Fig. 11. Pour la première tâche, la formation se déroule comme d'habitude. Avant que la formation n'ait lieu avec la deuxième tâche, la tête du modèle est répliquée. La formation se poursuit ensuite avec le corps partagé et la nouvelle tête. Ce processus est répété pour toutes les tâches. Lors de l'inférence, une tête est sélectionnée pour chaque image et combinée avec le corps partagé. De plus, nous incluons la possibilité de geler le corps partagé après la première étape de formation et de ne mettre à jour que la ou les têtes. Les paramètres qui composent la tête sont déterminés par l'utilisateur. Pour les expériences sur les architectures multi-têtes, nous utilisons seg_outputs comme point de partage.
Pendant la formation, le corps partagé est séquentiellement modifié tandis que la tête du modèle reste spécifique à la tâche. Lors de l'inférence, la tête correspondante est fusionnée avec l'état final du corps partagé pour extraire une prédiction.
Le nnU-Net comprend des méthodes pour la préparation des ensembles de données, la formation et la réalisation d'inférences. La performance sur un ensemble de validation est surveillée avec le coefficient de Dice, qui mesure l'intersection des voxels segmentés pour une classe dans la prédiction A et la délimitation de la vérité terrain B, normalisée par le nombre total de voxels dans cette classe.
Compte tenu des exigences de la formation continue, nous développons cette logique avec :
Un module d'évaluation pour tester tous les ensembles de données d'intérêt, à exécuter après la fin de la formation, et
Le comportement étendu de suivi des performances pendant la formation sur plusieurs ensembles de validation différents. Cela donne à l'utilisateur un aperçu de la façon dont l'entraînement avec n'importe quelle tâche \(\mathscr {T}_i\) affecte progressivement l'entraînement avec la tâche \(\mathscr {T}_j\), et lui permet d'exporter des trajectoires d'entraînement expressives telles que visualisées dans la figure 4.
Ces modifications permettent une validation rapide des paramètres d'apprentissage continu et simplifient la validation sur les données hors distribution sans avoir besoin de stocker tous les états du modèle.
En plus d'observer les performances de segmentation sous la forme du coefficient de Dice, nous explorons les métriques de la recherche en apprentissage continu qui offrent une manière plus intuitive de comprendre les résultats.
L'objectif principal de l'apprentissage continu dans le monde ouvert, où les changements de distribution sont monnaie courante, est d'éviter de surajuster les caractéristiques de l'image dans les derniers lots afin que le modèle final puisse faire face à des échantillons de toutes les sources vues. En plus d'éviter l'oubli catastrophique redouté, le modèle devrait idéalement permettre un transfert en amont et en aval41 et garantir des performances fiables dans tous les groupes de matières.
nous mesurons la différence entre les performances d'un modèle dans la tâche \(\mathscr {T}_i\) juste après l'entraînement avec cette tâche et après l'entraînement avec d'autres tâches. Si le résultat est négatif, cela signifie qu'un oubli s'est produit. Si, au contraire, le résultat est positif, alors la propriété souhaitable du transfert vers l'arrière a été atteinte, par exemple, l'entraînement avec des tâches \(\mathscr {T}_{i+1}\) améliore les performances sur la tâche \(\mathscr {T} _{je}\).
nous calculons à quel point le processus de réglage fin est avantageux pour une certaine tâche, c'est-à-dire la différence entre l'état continu du modèle juste après l'entraînement avec la tâche \(\mathscr {T}_i\) et le modèle \(\mathscr {F}_i\) formé uniquement sur la tâche \(\mathscr {T}_i\). Un résultat positif implique que l'entraînement précédent avec des données d'autres tâches améliore les performances du modèle après un réglage fin, et un résultat négatif signifie que le modèle est incapable de s'adapter à \(\mathscr {T}_i\). Ce deuxième cas peut se produire lors de l'utilisation de certaines méthodes d'apprentissage continu qui réduisent la plasticité du modèle. Bien que d'autres définitions considèrent cette métrique pour toutes les tâches futures, nous nous concentrons sur la tâche correspondante et définissons :
Pour les deux métriques, nous rapportons le changement de performance relatif par rapport au côté droit de la soustraction. Cela nous permet de comparer les performances à travers les anatomies avec différentes difficultés de segmentation.
Nous formons un modèle distinct pour chaque tâche et visualisons les performances de chaque modèle sur les autres tâches (voir Fig. 2). Cela nous aide à estimer la compatibilité entre les tâches, ce qui devrait faciliter l'apprentissage continu.
Nous décrivons brièvement les méthodes que nous comparons dans ce travail. Nous renvoyons le lecteur à notre base de code et à notre documentation pour plus de détails sur l'implémentation.
La forme la plus simple d'apprentissage tout au long de la vie consiste à entrelacer des échantillons de tâches précédentes dans les données de formation. La taille de la mémoire tampon détermine combien de ces échantillons sont stockés. Le framework Lifelong nnU-Net permet à l'utilisateur d'effectuer ce type de formation avec une seule ligne de code, en spécifiant les tâches et la taille de la mémoire tampon. La commande nécessaire est illustrée à la Fig. 12. La répétition est une stratégie très efficace qui garantit constamment de bonnes performances, bien qu'inadmissible dans des contextes qui ne permettent pas le stockage d'échantillons d'apprentissage.
Directive de ligne de commande pour effectuer une formation avec répétition. Un argument de départ facultatif peut également être utilisé pour sélectionner des échantillons de tâches précédentes de manière déterministe.
L'exécution d'autres méthodes se déroule de la même manière, bien qu'avec des hyperparamètres différents.
Les approches basées sur la régularisation évaluent l'importance de chaque paramètre d'entraînement et pénalisent l'écart par rapport à l'état précédent pondéré par l'importance. Le paramètre \(\lambda\) pondère l'ampleur de cette perte de régularisation et la perte cible (dans notre cas pour la segmentation d'image). La principale différence entre les méthodes basées sur la régularisation réside dans la manière dont l'importance est calculée. La méthode EWC populaire25 utilise la matrice d'information de Fisher, qui mesure la distance entre les sorties du modèle et les prédictions codées à chaud.
La méthode LwF26 consiste en trois étapes de formation. (1) Après la phase d'entraînement pour la tâche \(\mathscr {T}_{i}\), et avant de démarrer la tâche \(\mathscr {T}_{i+1}\), les sorties du modèle \(\mathscr { F}_{[i]}^i(\mathscr {T}_{i+1})\) sont enregistrés et une nouvelle tête est créée pour \(\mathscr {T}_{i+1}\). (2) Ensuite, les paramètres partagés sont gelés et seule la nouvelle tête est entraînée. (3) Enfin, le corps commun aux côtés de toutes les têtes est affiné. Les sorties enregistrées dans la première étape sont utilisées pour la formation des têtes précédentes.
Une combinaison de l'EWC précédemment introduit avec les formes Path Integral RW27. La principale différence avec l'EWC est le calcul en ligne de la matrice d'information Fisher pour évaluer l'importance de chaque paramètre. Avec cette modification, la passe avant supplémentaire à la fin de l'entraînement pour obtenir les valeurs de Fisher peut être omise.
La méthode MiB28, spécifiquement développée pour la segmentation sémantique, utilise une perte d'entropie croisée modifiée en combinaison avec un terme de distillation des connaissances. La distillation des connaissances est utilisée pour forcer l'activation du réseau actuel \(\mathscr {F}_{\theta }\) à être similaire au réseau précédent \(\mathscr {F}_{\theta _{i-1 }}\).
Nous formons la version pleine résolution du nnU-Net qui est recommandée pour la plupart des applications24. Il s'agit d'un réseau tridimensionnel basé sur des patchs. Pour chacun de nos trois cas d'utilisation, les modèles sont entraînés avec chaque ensemble de données pendant 250 époques.
Le nnU-Net configure automatiquement les hyperparamètres pour l'architecture du réseau et le processus de formation, tels que le nombre de blocs d'encodage, le taux d'apprentissage et la taille du patch, à partir des données de formation. Il est possible que ces paramètres diffèrent entre les ensembles de données du même cas d'utilisation. Dans notre cadre, nous utilisons toujours la configuration choisie pour le premier jeu de données, ce qui est le choix le plus réaliste car dans un cadre continu réel, seules ces données sont disponibles lors de la construction de l'architecture.
Sauf indication contraire, nous sélectionnons des hyperparamètres utilisés dans des travaux antérieurs ou qui ont montré des trajectoires de perte raisonnables dans des expériences préliminaires avec une fraction des époques. Pour l'expérience cardiaque, nous testons plusieurs paramètres dans le tableau 2. Pour la répétition, nous indiquons le nombre de cas de tâches vues précédemment à inclure dans la tâche actuelle à 25 %. Pour EWC, nous utilisons la valeur par défaut de \(\lambda =0.4\) pour peser le terme de régularisation. Dans le cas de LwF, nous avons fixé la température de distillation des connaissances à 8 pour l'hippocampe et à 64 pour la prostate. Pour RW, \(\lambda =0.4\) pour la régularisation et \(\alpha =0.9\) pour le calcul des valeurs de Fisher sont utilisés. MiB durcit les étiquettes souples avec \(\alpha =0,9\) pour l'hippocampe et \(\alpha =0,75\) pour la prostate.
Nous renvoyons le lecteur à notre base de code et à notre documentation pour plus de détails.
Tous les ensembles de données utilisés dans ce travail sont librement disponibles et les instructions de téléchargement peuvent être trouvées sous les références respectives.
Notre code est disponible sous https://github.com/MECLabTUDA/Lifelong-nnUNet. Sur demande, nous pouvons faciliter l'accès aux modèles formés.
Johnson, C. Identification des problèmes courants dans l'acquisition et le déploiement de projets logiciels à grande échelle et critiques pour la sécurité dans les systèmes de santé américains et britanniques. Saf. Sci. 49, 735–745 (2011).
Article Google Scholar
Yan, W. et al. Le problème de changement de domaine de la segmentation des images médicales et de l'adaptation des fournisseurs par unet-gan. Dans Conférence internationale sur l'informatique médicale et l'intervention assistée par ordinateur, 623–631 (Springer, 2019).
Gonzalez, C. et al. Détecter lorsque les modèles nnu-net pré-formés échouent silencieusement pour la segmentation des lésions pulmonaires covid-19. Dans Conférence internationale sur l'informatique médicale et l'intervention assistée par ordinateur, 304–314 (Springer, 2021).
Liu, X. et al. L'audit algorithmique médical. Lancet Digit Health (2022).
Alimentation, U., Administration, D. et al. Plan d'action sur les logiciels basés sur l'intelligence artificielle / l'apprentissage automatique (ai / ml) en tant que dispositif médical (samd). US Food Drug Admin., White Oak, MD, États-Unis, Tech. Rep. 145022 (2021).
Rieke, N. et al. L'avenir de la santé numérique avec l'apprentissage fédéré. Chiffre NPJ. Méd. 3, 1–7 (2020).
Article Google Scholar
Sheller, MJ et al. Apprentissage fédéré en médecine : faciliter les collaborations multi-institutionnelles sans partager les données des patients. Sci. Rép. 10, 1–12 (2020).
Article Google Scholar
Memmel, M., Gonzalez, C. & Mukhopadhyay, A. Apprentissage continu contradictoire pour la segmentation hippocampique multi-domaine. Dans Domain Adaptation and Representation Transfer, and Affordable Healthcare and AI for Resource Diverse Global Health, 35–45 (Springer, 2021).
Baweja, C., Glocker, B. & Kamnitsas, K. Vers un apprentissage continu en imagerie médicale. prétirage arXiv arXiv:1811.02496 (2018).
Perkonigg, M. et al. Mémoire dynamique pour atténuer l'oubli catastrophique dans l'apprentissage continu avec l'imagerie médicale. Nat. Commun. 12, 1–12 (2021).
Article Google Scholar
Srivastava, S., Yaqub, M., Nandakumar, K., Ge, Z. & Mahapatra, D. Apprentissage incrémental de domaine continu pour la classification des radiographies thoraciques dans les milieux cliniques à faibles ressources. Dans Domain Adaptation and Representation Transfer, and Affordable Healthcare and AI for Resource Diverse Global Health, 226–238 (Springer, 2021).
Vokinger, KN, Feuerriegel, S. & Kesselheim, AS Apprentissage continu dans les dispositifs médicaux : plan d'action de la FDA et au-delà. Lancet Digit Health 3, e337–e338 (2021).
Article CAS PubMed Google Scholar
Lee, CS & Lee, AY Applications cliniques de l'apprentissage automatique en apprentissage continu. Lancet Digit Health 2, e279–e281 (2020).
Article PubMed PubMed Central Google Scholar
Vokinger, KN & Gasser, U. Réglementation de l'IA en médecine aux États-Unis et en Europe. Nat. Mach. Renseignement. 3, 738–739 (2021).
Article PubMed PubMed Central Google Scholar
Prabhu, A., Torr, PH & Dokania, PK Gdumb : Une approche simple qui remet en question nos progrès dans l'apprentissage continu. Dans Conférence européenne sur la vision par ordinateur, 524–540 (Springer, 2020).
Mundt, M., Hong, YW, Pliushch, I. & Ramesh, V. Une vision holistique de l'apprentissage continu avec des réseaux de neurones profonds : les leçons oubliées et le pont vers un apprentissage actif et ouvert dans le monde. prétirage arXiv arXiv:2009.01797 (2020).
Hsu, Y.-C., Liu, Y.-C., Ramasamy, A. & Kira, Z. Réévaluer les scénarios d'apprentissage continu : une catégorisation et des arguments en faveur de bases de référence solides. prétirage arXiv arXiv:1810.12488 (2018).
Lomonaco, V. et al. Avalanche : une bibliothèque de bout en bout pour un apprentissage continu. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, 3600–3610 (2021).
Gonzalez, C., Sakas, G. & Mukhopadhyay, A. Quel est le problème avec l'apprentissage continu dans la segmentation des images médicales ? prétirage arXiv arXiv:2010.11008 (2020).
Michieli, U. & Zanuttigh, P. Techniques d'apprentissage incrémental pour la segmentation sémantique. Dans Actes de la conférence internationale IEEE sur les ateliers de vision par ordinateur (2019).
Cermelli, F., Mancini, M., Bulo, SR, Ricci, E. & Caputo, B. Modélisation de l'arrière-plan de l'apprentissage incrémental dans la segmentation sémantique. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, 9233–9242 (2020).
Nguyen, G. et al. Disséquer l'oubli catastrophique en apprentissage continu par visualisation profonde. prétirage arXiv arXiv:2001.01578 (2020).
Matsumoto, A. & Yanai, K. Apprentissage continu des réseaux de traduction d'images à l'aide de masques de sélection de poids dépendant des tâches. ACPR 2, 129-142 (2019).
Google Scholar
Isensee, F., Jaeger, PF, Kohl, SA, Petersen, J. & Maier-Hein, KH nnu-net : une méthode d'auto-configuration pour la segmentation d'images biomédicales basée sur l'apprentissage en profondeur. Nat. Méthodes 18, 203–211 (2021).
Article CAS PubMed Google Scholar
Kirkpatrick, J. et al. Surmonter l'oubli catastrophique dans les réseaux de neurones. Proc. Natl. Acad. Sci. 114, 3521–3526 (2017).
Article ADS MathSciNet CAS PubMed PubMed Central MATH Google Scholar
Li, Z. & Hoiem, D. Apprendre sans oublier. IEEE Trans. Modèle Anal. Mach. Renseignement. 40, 2935-2947 (2017).
Article PubMed Google Scholar
Chaudhry, A., Dokania, PK, Ajanthan, T. & Torr, PH Marche riemannienne pour l'apprentissage incrémental : comprendre l'oubli et l'intransigeance. Dans Actes de la Conférence européenne sur la vision par ordinateur (ECCV), 532–547 (2018).
Cermelli, F., Mancini, M., Bulo, SR, Ricci, E. & Caputo, B. Modélisation de l'arrière-plan de l'apprentissage incrémental dans la segmentation sémantique. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, 9233–9242 (2020).
Verwimp, E., De Lange, M. & Tuytelaars, T. La répétition a révélé : Les limites et les mérites de revisiter des échantillons dans un apprentissage continu. prétirage arXiv arXiv:2104.07446 (2021).
Aljundi, R., Chakravarty, P. & Tuytelaars, T. Expert gate : Apprentissage tout au long de la vie avec un réseau d'experts. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 3366–3375 (2017).
Yushkevich, PA, Gao, Y. & Gerig, G. Itk-snap : un outil interactif pour la segmentation semi-automatique d'images biomédicales multimodalités. En 2016, 38e conférence internationale annuelle de l'IEEE Engineering in Medicine and Biology Society (EMBC), 3342–3345 (IEEE, 2016).
Liu, Q., Dou, Q., Yu, L. & Heng, PA Ms-net : réseau multisite pour améliorer la segmentation de la prostate avec des données IRM hétérogènes. IEEE Trans. Méd. Imagerie 39, 2713–2724 (2020).
Article PubMed Google Scholar
Liu, Q. Un ensemble de données multi-sites pour la segmentation IRM de la prostate. https://liuquande.github.io/SAML/.
Bloch, NNCI-ISBI et al. Défi : Segmentation automatisée des structures prostatiques. Cancer Imaging Arch.https://doi.org/10.7937/K9/TCIA.2015.zF0vlOPv (2013).
Article Google Scholar
Lemaître, G. et al. Détection et diagnostic assistés par ordinateur du cancer de la prostate basés sur l'IRM mono et multiparamétrique : une revue. Calcul. Biol. Méd. 60, 8-31 (2015).
Article PubMed Google Scholar
Litjens, G. et al. Évaluation des algorithmes de segmentation de la prostate pour l'IRM : le défi PROMISE12. Méd. Image anale. 18, 359–373 (2014).
Article PubMed Google Scholar
Simpson, AL et al. Un grand ensemble de données d'images médicales annotées pour le développement et l'évaluation d'algorithmes de segmentation. CoRRarXiv :abs/1902.09063 (2019).
Boccardi, M. et al. Étiquettes d'entraînement pour la segmentation hippocampique basées sur le protocole hippocampique harmonisé eadc-adni. Démence d'Alzheimer. 11, 175-183 (2015).
Article Google Scholar
Kulaga-Yoskovitz, J. et al. Protocole et ensemble de données de segmentation sous-millimétrique sous-millimétrique multi-contraste 3 tesla de l'hippocampe. Sci. Données 2, 1–9 (2015).
Article Google Scholar
Campello, VM et al. Segmentation cardiaque multicentrique, multifournisseurs et multimaladies : le défi m&ms. IEEE Trans. Méd. Imagerie 40, 3543–3554 (2021).
Article PubMed Google Scholar
Díaz-Rodríguez, N., Lomonaco, V., Filliat, D. & Maltoni, D. N'oubliez pas, il y a plus qu'à oublier : de nouvelles mesures pour l'apprentissage continu. Dans Atelier sur l'apprentissage continu, NeurIPS 2018 (Systèmes de traitement de l'information neuronale (2018).
Télécharger les références
Ce travail a été soutenu par le Bundesministerium für Gesundheit (BMG) allemand avec une subvention EVA-KI [ZMVI1-2520DAT03A].
Financement Open Access activé et organisé par Projekt DEAL.
Université technique de Darmstadt, Karolinenpl. 5, 64289, Darmstadt, Allemagne
Camila González, Amin Ranem & Anirban Mukhopadhyay
Hôpital universitaire de Cologne, Kerpener Str. 62, 50937, Cologne, Allemagne
Daniel Pinto dos Santos
Hôpital universitaire de Francfort, Theodor-Stern-Kai 7, 60590, Francfort, Allemagne
Daniel Pinto dos Santos
Centre médical universitaire de Mayence, Langenbeckstrasse 1, 55131, Mayence, Allemagne
Ahmed Othman
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
CG a conçu les expériences, commencé le développement du cadre et analysé les résultats. AR a mis en œuvre toutes les méthodes et mené les expériences. DS et AO ont motivé et revu la problématique et les expériences d'un point de vue clinique. AM a dirigé le développement de l'étude. Tous les auteurs ont examiné le manuscrit.
Correspondance à Camila González.
Les auteurs ne déclarent aucun intérêt concurrent.
Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.
Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.
Réimpressions et autorisations
González, C., Ranem, A., Pinto dos Santos, D. et al. nnU-Net tout au long de la vie : un cadre pour l'apprentissage médical continu normalisé. Sci Rep 13, 9381 (2023). https://doi.org/10.1038/s41598-023-34484-2
Télécharger la citation
Reçu : 25 octobre 2022
Accepté : 02 mai 2023
Publié: 09 juin 2023
DOI : https://doi.org/10.1038/s41598-023-34484-2
Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :
Désolé, aucun lien partageable n'est actuellement disponible pour cet article.
Fourni par l'initiative de partage de contenu Springer Nature SharedIt
En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.