Active learning for the detection of objects of operational interest in open-source multimedia content - Télécom SudParis Accéder directement au contenu
Thèse Année : 2022

Active learning for the detection of objects of operational interest in open-source multimedia content

Apprentissage actif pour la détection d'objets d'intérêt opérationnel dans les contenus multimédias

Résumé

A profusion of openly accessible content, actors and interactions is targeted by analysts for intelligence, marketing or political purposes. Analysing the immensity of open source data requires automated assistance. Although recent propositions in neural network architectures have demonstrated strong capacities for image and text modalities, their training harnesses massive training datasets, non-existent for the majority of operational classes of interest. To address this issue, active learning takes advantage of the great amounts of unlabelled documents by soliciting from a human oracle the ground-truth labels of the presumed most informative documents, to improve accuracy. Yet, the model's decision-making rationales are opaque and might be unrelated to those of the oracle. Furthermore, with its time-consuming iterative steps, the active learning workflow is detrimental to its real-time performances. Our contributions in this thesis aim to analyse and address these issues at four levels. Firstly, we observe the rationales behind a neural network's decisions. Secondly, we put these rationales into perspective with human rationales. Thirdly, we try and make the neural network align its decision-making rationales with those of a teacher model to simulate the rationales of a human oracle and improve accuracy in what is called active learning with rationales. Finally, we design and exploit an active learning framework to overcome its usual limitations. These studies were conducted with uni-modal text and image data, and multi-modal text and image associations, principally press articles in English and French. Throughout this work's chapters, we address several use cases among which fake news classification, vagueness classification, the detection of lack of contradiction in articles, the detection of arbitrary topics such as demonstrations and violence.
Une profusion de contenus, acteurs et interactions en source ouverte sont ciblées par les analystes à des fins commerciales, politiques ou de renseignement. Analyser l'immensité de ces données requiert une assistance automatisée. Bien que les propositions récentes en matière d'architectures de réseaux de neurones aient montré de fortes capacités envers les modalités image et texte, leur entraînement exploite des jeux de données massifs, inexistant pour la majorité des classes d'intérêt opérationnel. Pour résoudre ce problème, l'apprentissage actif tire parti de la grande quantité de documents non annotés en sollicitant un oracle humain pour obtenir les labels des documents présumés les plus informatifs, afin d'améliorer la précision. Cependant, les justifications derrière les décisions du modèle sont opaques et sans lien avec celles de l'oracle. De plus, à cause de ses longues étapes successives, le déroulement de l'apprentissage actif nuit à ses performances en temps réel. Nos contributions dans cette thèse visent à analyser et résoudre ces problèmes à quatre niveaux. Premièrement, nous observons les justifications derrière les décision d'un réseau de neurones. Deuxièmement, nous mettons ces justifications en perspective avec celles élaborées par des humains. Troisièmement, nous incitons un réseau de neurones à aligner ses justificatifs sur ceux d'un modèle professeur qui simule ceux d'un oracle humain, et améliorons sa précision. Finalement, nous mettons au point et exploitons un système d'apprentissage actif pour surmonter ses limitations usuelles. Ces études ont été menées sur des données uni-modales texte ou image, ou sur des paires multi-modales texte/image, principalement des articles de presse en anglais et en français. À travers les chapitres de cette thèse, nous traitons plusieurs cas d'utilisation parmi lesquels la reconnaissance du vague et des fausses nouvelles, la détection du manque d'avis contradictoires dans les articles et la classification d'articles comme abordant des sujets arbitrairement choisis, tels que les manifestations ou la violence.
Fichier principal
Vignette du fichier
102223_GUELORGET_2022_archivage.pdf (9.5 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03947344 , version 1 (19-01-2023)

Identifiants

  • HAL Id : tel-03947344 , version 1

Citer

Paul Guélorget. Active learning for the detection of objects of operational interest in open-source multimedia content. Machine Learning [cs.LG]. Institut Polytechnique de Paris, 2022. English. ⟨NNT : 2022IPPAS018⟩. ⟨tel-03947344⟩
99 Consultations
95 Téléchargements

Partager

Gmail Facebook X LinkedIn More