NLP et annotation
Annotation LLM-in-the-loop avec fine-tuning itératif de CamemBERT sur plusieurs familles de classifieurs
Pipeline de mise à jour continue
Comment ça fonctionne
Pour chaque tâche, un codebook détaillé définit le concept cible avec des exemples positifs/négatifs et des règles de cas limites. Le LLM (via LLM_Tool) reçoit le codebook comme prompt système et annote des lots de 500 phrases, produisant des étiquettes binaires et des justifications. Cela donne des ensembles silver-standard de 2 000 à 5 000 phrases par tâche, générés à une fraction du coût de l'annotation humaine.
Chaque classifieur CamemBERT est fine-tuné avec une tête de classification séquentielle sur les données annotées. Les modèles sont évalués sur un ensemble de validation. Si les performances sont insuffisantes, le pipeline entre en boucle de renforcement : les prédictions les plus incertaines (proches de la frontière de décision) sont ré-annotées par le LLM avec des prompts plus stricts, l'ensemble est augmenté, et le modèle ré-entraîné. Ce processus itératif converge typiquement en 2 à 3 tours.
Une fois validés, les classifieurs seront appliqués au corpus entier : les phrases de transcriptions et les phrases de commentaires. Chaque phrase recevra une prédiction binaire (0/1) et un score de confiance pour chaque modèle applicable, résultant en de multiples colonnes d'annotation par phrase. L'inférence s'exécutera sur GPU, permettant de traiter le corpus complet en quelques heures.
Cliquez sur chaque carte pour voir les détails
Annoter des millions de phrases pour leur contenu idéologique au niveau de la phrase pose un défi fondamental de scalabilité : l'annotation humaine est le gold standard mais est prohibitivement coûteuse à cette échelle (un estimé de 45 000 heures d'annotateur pour le corpus complet). Notre solution implémente une stratégie LLM-in-the-loop : des modèles de langage génèrent des étiquettes d'entraînement silver-standard sur des sous-ensembles soigneusement échantillonnés, qui sont ensuite utilisés pour fine-tuner des classifieurs CamemBERT légers applicables au corpus entier en quelques heures.
Le pipeline d'annotation est propulsé par LLM_Tool, un framework open-source supportant l'inférence locale et les appels API cloud. Pour chaque tâche de classification, un codebook détaillé définit le concept (ex. « anti-immigration : menace sécuritaire »), fournit des exemples positifs et négatifs, et spécifie les cas limites. Le LLM reçoit le codebook comme prompt système et annote des lots de 500 phrases avec des étiquettes binaires et une brève justification. Les classifieurs CamemBERT sont ensuite fine-tunés sur ces étiquettes. Lorsque les performances sont insuffisantes, une boucle d'apprentissage renforcé est déclenchée : le LLM ré-annote les échantillons les plus incertains, l'ensemble d'entraînement est augmenté, et le classifieur est ré-entraîné.
Exemple concret
Exemple : annotation du classifieur « Anti-immigration : menace sécuritaire »
Le codebook définit le concept comme « cadrer l'immigration comme une menace sécuritaire à travers des références au crime, au terrorisme ou à la sécurité publique ». Le LLM annote un échantillon de phrases, étiquetant certaines comme positives (ex. « l'immigration massive est directement liée à l'explosion de la délinquance ») et d'autres comme négatives (ex. « le taux de chômage a diminué ce trimestre »). Un classifieur CamemBERT est ensuite fine-tuné sur ces étiquettes. Si les performances sont insuffisantes, la boucle de renforcement sélectionne les phrases les plus incertaines, les renvoie au LLM pour ré-annotation avec des prompts plus stricts, et le modèle est ré-entraîné. Ce processus itératif est actuellement en cours pour chaque tâche de classification.
Outils utilisés
Familles de modèles d'annotation
Les classifieurs en cours de développement sont organisés en familles thématiques. Cliquez pour explorer chaque catégorie.
Un premier modèle classe chaque phrase comme politique ou non-politique selon une définition large (actualité, enjeux sociaux, acteurs politiques, rapports de pouvoir, normes sociales). Ce filtrage précède les trois projets d'annotation.
Détection politique
Classification binaire de chaque phrase comme politique ou non-politique.
political_yes
La phrase fait référence à l'actualité, des enjeux sociaux, des acteurs politiques, des rapports de pouvoir ou des normes sociales.
political_no
La phrase relève de la vie privée, du récit personnel ou du divertissement sans portée collective.
Détection du discours de genre et analyse multidimensionnelle : présence du genre, valence (positive, négative, ambivalente), type de rationalité mobilisée et positionnement vis-à-vis de la science.
Genre
Le contenu traite-t-il du genre ? Référence directe ou indirecte aux hommes, femmes, masculinité, féminité, rôles de genre, féminisme, antiféminisme, relations homme-femme, LGBTQ+.
gender_yes
Présence de discours de genre
gender_no
Absence de discours de genre
Valence de genre
Tonalité du discours de genre.
genre_valence_positive
Promeut l'égalité de genre ou remet en question les stéréotypes
genre_valence_negative
Hostilité, critique ou propos dénigrants envers le féminisme ou l'égalité de genre
genre_valence_ambivalent
Apparence égalitaire mais relativise ou limite l'égalité
genre_valence_null
Pas de prise de position évaluative sur le genre
Type de rationalité
Type de rationalité mobilisée dans le discours de genre.
rationality_none
Aucune rationalité justificative
rationality_nature
Arguments biologiques, naturels, évolutionnistes ou religieux-naturels
rationality_liberal
Invocation de l'égalité formelle ou des droits individuels pour nier la domination structurelle
rationality_empirical
Statistiques, données ou « faits » comme justification
rationality_heroic
Posture de vérité courageuse, anti-politiquement correct
Position scientifique
Positionnement vis-à-vis de la science dans le discours de genre.
science_none
Aucune référence à la science
science_pro_science
Valorise les études, experts ou la recherche
science_anti_science
Discrédite le milieu académique ou la recherche
science_ambivalent
Registres pro- et anti-science coexistent
Mesure des idées néo-réactionnaires (NR) centrées sur l'optimisme technologique, le libertarianisme et l'usage de métaphores fictionnelles dans le discours politique, ainsi que les dimensions partagées avec le SIED (égalité et écologie).
Technologie
Optimisme technologique, technocratie et transhumanisme.
techno_optimism_overall
Vision optimiste ou positive du rôle de la technologie et de l'innovation
innovation_as_progress
L'innovation technologique comme moteur de progrès ou solution aux problèmes sociaux
pro_tech_figures
Référence favorable à des figures tech (Musk, Thiel, Altman, Zuckerberg…)
technocracy_over_democracy
La gouvernance technocratique ou experte est plus efficace que la démocratie
deregulation_of_tech
Dérégulation de l'innovation technologique comme nécessaire au progrès
transhumanism
Soutien au transhumanisme, post-humanisme, eugénisme ou augmentation technologique de l'humain
Libertarianisme
Sécession, autonomie individuelle, communautés alternatives et modèle entrepreneurial comme contre-modèle politique.
lib_sec
Soutien à la sécession ou rupture avec la communauté politique nationale
lib_autonomy
Vivre de manière autonome, en dehors des structures étatiques traditionnelles
lib_community
Création de communautés fondées sur leurs propres valeurs et règles
lib_company
Le modèle entrepreneurial comme contre-modèle politique à l'État ou à la démocratie
lib_state
L'État devrait être géré comme une entreprise, selon des critères de performance
Métaphores fictionnelles
Usage de métaphores issues de la fiction populaire pour structurer l'interprétation politique.
metaphor_redpill
Référence à la « pilule rouge », éveil à une vérité cachée, sortie des illusions égalitaires ou démocratiques
metaphor_lotr
Références au Seigneur des Anneaux pour conceptualiser des hiérarchies sociales ou civilisationnelles
metaphor_starwars
Références à Star Wars pour cadrer la lutte politique, l'autorité ou la légitimité
metaphor_cathedral
La Cathédrale comme métaphore des universités, médias ou institutions progressistes formant un système idéologique
Égalité SIED + NR
Rapport à l'égalité, hiérarchies sociales et biologiques.
equality_value
L'égalité comme menace aux valeurs, traditions ou à l'ordre social
equality_identity
L'égalité comme menace à l'identité française ou facteur de dissolution nationale
equality_gender
Les inégalités entre les sexes présentées comme naturelles ou biologiquement fondées
hierarchy_castes
La société décrite en termes de castes ou de hiérarchies sociales naturelles
hierarchy_IQ
Le QI mobilisé comme critère de classement des individus ou des groupes
hierarchy_race
Référence à des inégalités naturelles entre races ou groupes ethniques
equality_utopia
L'égalité décrite comme irréaliste, naïve ou utopique
Écologie SIED + NR
Positionnement écologique : éco-scepticisme, techno-solutionnisme ou écologie civilisationnelle.
eco_eco
La croissance économique est plus importante que la protection environnementale
eco_tech
Les préoccupations écologiques comme obstacles au développement technologique
eco_civ
Les défis climatiques cadrés comme compétition entre civilisations
Score idéologique d'extrême droite (SIED) développé dans Boursier & Lemor (2025), Revue française de science politique. Mesure la présence des catégories d'appartenance idéologique à l'extrême droite (CAIED) — nationalisme, immigration, démocratie, progrès, autorité, tradition — ainsi que les dimensions partagées avec le projet NR (égalité et écologie), à travers leurs sous-dimensions respectives.
Nationalisme
Constructions de la nation et de l'identité nationale.
nation_ethnic
Nation comme communauté ethnique ou culturelle fondée sur les liens du sang ou les ancêtres communs
nation_family
Nation associée à la famille, citoyens comme enfants de la patrie
nation_state
Nation fusionnée avec l'État comme entité unique et inséparable
nation_vital
La nation comme élément essentiel et indépassable de la vie humaine
nation_threat
Nation décrite comme menacée, nécessitant protection ou défense
nation_colonialism
Nostalgie coloniale ou déni des conséquences de la colonisation
Immigration
Cadrage de l'immigration comme menace.
immigration_identity
Menace à l'identité nationale, la culture ou les valeurs françaises/européennes
immigration_security
Association avec la délinquance, la criminalité ou le terrorisme
immigration_women
Menace aux droits des femmes ou à l'égalité de genre
immigration_law
Appel à une législation plus stricte sur l'immigration ou le droit d'asile
Démocratie
Rapport critique à la démocratie comme idéal ou régime politique.
demo_value
La démocratie comme menace aux valeurs, traditions ou à l'identité nationale
demo_sep
Remise en cause de la séparation des pouvoirs, renforcement de l'exécutif
demo_vain
La démocratie décrite comme inefficace, lente ou incapable de bonnes décisions
demo_corrupt
La démocratie comme fondamentalement corrompue ou captée par des intérêts particuliers
demo_beyond
Appel à dépasser ou se révolter contre la démocratie
demo_neg
Soutien aux régimes non-démocratiques (autoritarisme, monarchie, technocratie)
Progrès
Rejet de la modernisation, de la mondialisation et du changement progressiste.
progress_identity
Le progrès comme menace aux valeurs, traditions ou à l'identité nationale
progress_stop
Appel à freiner, limiter ou arrêter le progrès social ou les réformes progressistes
progress_glob
Critique du progrès via la mondialisation ou l'UE comme destruction des identités
Autorité
Obéissance à l'autorité, usage de la force et traditionalisme.
authority_chief
Importance d'un chef fort ou d'une figure providentielle pour protéger la nation
authority_essential
Mesure politique présentée comme essentielle, urgente pour restaurer l'autorité
authority_security
Importance de l'ordre et de la sécurité, lutte contre la délinquance
authority_army
Valorisation de l'armée, la police ou les forces de l'ordre
Tradition
Défense des valeurs traditionnelles et du projet civilisationnel.
tradition_value
Valeurs, coutumes ou identité françaises à préserver et promouvoir
tradition_threat
La tradition ou les valeurs traditionnelles menacées, nécessitant protection
tradition_family
Promotion du modèle familial traditionnel ou critique des transformations familiales
tradition_laicite
La laïcité comme marqueur identitaire national plutôt que principe de neutralité
tradition_civilization
La tradition comme projet civilisationnel de diffusion de valeurs supérieures
Égalité SIED + NR
Rapport à l'égalité, hiérarchies sociales et biologiques.
equality_value
L'égalité comme menace aux valeurs, traditions ou à l'ordre social
equality_identity
L'égalité comme menace à l'identité française ou facteur de dissolution nationale
equality_gender
Les inégalités entre les sexes présentées comme naturelles ou biologiquement fondées
hierarchy_castes
La société décrite en termes de castes ou de hiérarchies sociales naturelles
hierarchy_IQ
Le QI mobilisé comme critère de classement des individus ou des groupes
hierarchy_race
Référence à des inégalités naturelles entre races ou groupes ethniques
equality_utopia
L'égalité décrite comme irréaliste, naïve ou utopique
Écologie SIED + NR
Positionnement écologique : éco-scepticisme, techno-solutionnisme ou écologie civilisationnelle.
eco_eco
La croissance économique est plus importante que la protection environnementale
eco_tech
Les préoccupations écologiques comme obstacles au développement technologique
eco_civ
Les défis climatiques cadrés comme compétition entre civilisations
Schéma de la base de données
Six tables dans un schéma relationnel normalisé, des métadonnées brutes aux annotations NLP au niveau de la phrase.
| # | Table | Description | Échelle |
|---|---|---|---|
| 1 | videos | Une ligne par vidéo : ID, métadonnées de la chaîne, vues, likes, commentaires, tags, durée, date de mise en ligne, orientation politique, pays, genre. | 23,658 rows |
| 2 | comments | Tous les commentaires YouTube avec infos auteur, likes, horodatages, structure de réponses imbriquées et colonne d'analyse JSONB. | 7.6M+ rows |
| 3 | video_transcripts | Transcriptions diarisées complètes avec étiquettes de locuteurs et versions nettoyées du texte. | 20,999 rows |
| 4 | transcription_speakers | Segments individuels de locuteurs issus de la diarisation, ordonnés par position dans chaque vidéo. | 601,348 rows |
| 5 | comments_processed | Commentaires tokenisés au niveau de la phrase avec entités NER (PER, ORG, LOC) et colonnes de prédiction ML. | 9.8M+ rows |
| 6 | transcription_speakers_processed | Segments de locuteurs au niveau de la phrase avec extraction NER et suite complète d'annotations. | 5.3M+ rows |
Observatoire en continu
La base est mise à jour en continu : scan des chaînes, transcription et annotation des vidéos, extraction de commentaires, mise à jour des métadonnées (vues, likes, abonnés). Chaque scan produit un historique longitudinal exploitable via l'API.