Étape 5 de 7

NLP et annotation

Annotation LLM-in-the-loop avec fine-tuning itératif de CamemBERT sur plusieurs familles de classifieurs

Date de dernière mise à jour : 2026-04-04 16:43
2.9M+ Phrases annotées (transcriptions)
7.5M+ Phrases annotées (commentaires)
Flux de données

Pipeline de mise à jour continue

Entrée Phrases + codebooks
Traitement Annotation LLM → fine-tuning CamemBERT → boucle renforcée
Sortie Prédictions par phrase
Méthodologie

Comment ça fonctionne

Pour chaque tâche, un codebook détaillé définit le concept cible avec des exemples positifs/négatifs et des règles de cas limites. Le LLM (via LLM_Tool) reçoit le codebook comme prompt système et annote des lots de 500 phrases, produisant des étiquettes binaires et des justifications. Cela donne des ensembles silver-standard de 2 000 à 5 000 phrases par tâche, générés à une fraction du coût de l'annotation humaine.

Chaque classifieur CamemBERT est fine-tuné avec une tête de classification séquentielle sur les données annotées. Les modèles sont évalués sur un ensemble de validation. Si les performances sont insuffisantes, le pipeline entre en boucle de renforcement : les prédictions les plus incertaines (proches de la frontière de décision) sont ré-annotées par le LLM avec des prompts plus stricts, l'ensemble est augmenté, et le modèle ré-entraîné. Ce processus itératif converge typiquement en 2 à 3 tours.

Une fois validés, les classifieurs seront appliqués au corpus entier : les phrases de transcriptions et les phrases de commentaires. Chaque phrase recevra une prédiction binaire (0/1) et un score de confiance pour chaque modèle applicable, résultant en de multiples colonnes d'annotation par phrase. L'inférence s'exécutera sur GPU, permettant de traiter le corpus complet en quelques heures.

Cliquez sur chaque carte pour voir les détails

Annoter des millions de phrases pour leur contenu idéologique au niveau de la phrase pose un défi fondamental de scalabilité : l'annotation humaine est le gold standard mais est prohibitivement coûteuse à cette échelle (un estimé de 45 000 heures d'annotateur pour le corpus complet). Notre solution implémente une stratégie LLM-in-the-loop : des modèles de langage génèrent des étiquettes d'entraînement silver-standard sur des sous-ensembles soigneusement échantillonnés, qui sont ensuite utilisés pour fine-tuner des classifieurs CamemBERT légers applicables au corpus entier en quelques heures.

Le pipeline d'annotation est propulsé par LLM_Tool, un framework open-source supportant l'inférence locale et les appels API cloud. Pour chaque tâche de classification, un codebook détaillé définit le concept (ex. « anti-immigration : menace sécuritaire »), fournit des exemples positifs et négatifs, et spécifie les cas limites. Le LLM reçoit le codebook comme prompt système et annote des lots de 500 phrases avec des étiquettes binaires et une brève justification. Les classifieurs CamemBERT sont ensuite fine-tunés sur ces étiquettes. Lorsque les performances sont insuffisantes, une boucle d'apprentissage renforcé est déclenchée : le LLM ré-annote les échantillons les plus incertains, l'ensemble d'entraînement est augmenté, et le classifieur est ré-entraîné.

En pratique

Exemple concret

Exemple : annotation du classifieur « Anti-immigration : menace sécuritaire »

Le codebook définit le concept comme « cadrer l'immigration comme une menace sécuritaire à travers des références au crime, au terrorisme ou à la sécurité publique ». Le LLM annote un échantillon de phrases, étiquetant certaines comme positives (ex. « l'immigration massive est directement liée à l'explosion de la délinquance ») et d'autres comme négatives (ex. « le taux de chômage a diminué ce trimestre »). Un classifieur CamemBERT est ensuite fine-tuné sur ces étiquettes. Si les performances sont insuffisantes, la boucle de renforcement sélectionne les phrases les plus incertaines, les renvoie au LLM pour ré-annotation avec des prompts plus stricts, et le modèle est ré-entraîné. Ce processus itératif est actuellement en cours pour chaque tâche de classification.

Stack technique

Outils utilisés

LLM_Tool
CamemBERT
Hugging Face Transformers
scikit-learn
CUDA / GPU
Annotation NLP

Familles de modèles d'annotation

Les classifieurs en cours de développement sont organisés en familles thématiques. Cliquez pour explorer chaque catégorie.

Un premier modèle classe chaque phrase comme politique ou non-politique selon une définition large (actualité, enjeux sociaux, acteurs politiques, rapports de pouvoir, normes sociales). Ce filtrage précède les trois projets d'annotation.

Détection politique

Classification binaire de chaque phrase comme politique ou non-politique.

political_yes La phrase fait référence à l'actualité, des enjeux sociaux, des acteurs politiques, des rapports de pouvoir ou des normes sociales.
political_no La phrase relève de la vie privée, du récit personnel ou du divertissement sans portée collective.

Détection du discours de genre et analyse multidimensionnelle : présence du genre, valence (positive, négative, ambivalente), type de rationalité mobilisée et positionnement vis-à-vis de la science.

Genre

Le contenu traite-t-il du genre ? Référence directe ou indirecte aux hommes, femmes, masculinité, féminité, rôles de genre, féminisme, antiféminisme, relations homme-femme, LGBTQ+.

gender_yes Présence de discours de genre
gender_no Absence de discours de genre

Valence de genre

Tonalité du discours de genre.

genre_valence_positive Promeut l'égalité de genre ou remet en question les stéréotypes
genre_valence_negative Hostilité, critique ou propos dénigrants envers le féminisme ou l'égalité de genre
genre_valence_ambivalent Apparence égalitaire mais relativise ou limite l'égalité
genre_valence_null Pas de prise de position évaluative sur le genre

Type de rationalité

Type de rationalité mobilisée dans le discours de genre.

rationality_none Aucune rationalité justificative
rationality_nature Arguments biologiques, naturels, évolutionnistes ou religieux-naturels
rationality_liberal Invocation de l'égalité formelle ou des droits individuels pour nier la domination structurelle
rationality_empirical Statistiques, données ou « faits » comme justification
rationality_heroic Posture de vérité courageuse, anti-politiquement correct

Position scientifique

Positionnement vis-à-vis de la science dans le discours de genre.

science_none Aucune référence à la science
science_pro_science Valorise les études, experts ou la recherche
science_anti_science Discrédite le milieu académique ou la recherche
science_ambivalent Registres pro- et anti-science coexistent

Mesure des idées néo-réactionnaires (NR) centrées sur l'optimisme technologique, le libertarianisme et l'usage de métaphores fictionnelles dans le discours politique, ainsi que les dimensions partagées avec le SIED (égalité et écologie).

Technologie

Optimisme technologique, technocratie et transhumanisme.

techno_optimism_overall Vision optimiste ou positive du rôle de la technologie et de l'innovation
innovation_as_progress L'innovation technologique comme moteur de progrès ou solution aux problèmes sociaux
pro_tech_figures Référence favorable à des figures tech (Musk, Thiel, Altman, Zuckerberg…)
technocracy_over_democracy La gouvernance technocratique ou experte est plus efficace que la démocratie
deregulation_of_tech Dérégulation de l'innovation technologique comme nécessaire au progrès
transhumanism Soutien au transhumanisme, post-humanisme, eugénisme ou augmentation technologique de l'humain

Libertarianisme

Sécession, autonomie individuelle, communautés alternatives et modèle entrepreneurial comme contre-modèle politique.

lib_sec Soutien à la sécession ou rupture avec la communauté politique nationale
lib_autonomy Vivre de manière autonome, en dehors des structures étatiques traditionnelles
lib_community Création de communautés fondées sur leurs propres valeurs et règles
lib_company Le modèle entrepreneurial comme contre-modèle politique à l'État ou à la démocratie
lib_state L'État devrait être géré comme une entreprise, selon des critères de performance

Métaphores fictionnelles

Usage de métaphores issues de la fiction populaire pour structurer l'interprétation politique.

metaphor_redpill Référence à la « pilule rouge », éveil à une vérité cachée, sortie des illusions égalitaires ou démocratiques
metaphor_lotr Références au Seigneur des Anneaux pour conceptualiser des hiérarchies sociales ou civilisationnelles
metaphor_starwars Références à Star Wars pour cadrer la lutte politique, l'autorité ou la légitimité
metaphor_cathedral La Cathédrale comme métaphore des universités, médias ou institutions progressistes formant un système idéologique

Égalité SIED + NR

Rapport à l'égalité, hiérarchies sociales et biologiques.

equality_value L'égalité comme menace aux valeurs, traditions ou à l'ordre social
equality_identity L'égalité comme menace à l'identité française ou facteur de dissolution nationale
equality_gender Les inégalités entre les sexes présentées comme naturelles ou biologiquement fondées
hierarchy_castes La société décrite en termes de castes ou de hiérarchies sociales naturelles
hierarchy_IQ Le QI mobilisé comme critère de classement des individus ou des groupes
hierarchy_race Référence à des inégalités naturelles entre races ou groupes ethniques
equality_utopia L'égalité décrite comme irréaliste, naïve ou utopique

Écologie SIED + NR

Positionnement écologique : éco-scepticisme, techno-solutionnisme ou écologie civilisationnelle.

eco_eco La croissance économique est plus importante que la protection environnementale
eco_tech Les préoccupations écologiques comme obstacles au développement technologique
eco_civ Les défis climatiques cadrés comme compétition entre civilisations

Score idéologique d'extrême droite (SIED) développé dans Boursier & Lemor (2025), Revue française de science politique. Mesure la présence des catégories d'appartenance idéologique à l'extrême droite (CAIED) — nationalisme, immigration, démocratie, progrès, autorité, tradition — ainsi que les dimensions partagées avec le projet NR (égalité et écologie), à travers leurs sous-dimensions respectives.

Nationalisme

Constructions de la nation et de l'identité nationale.

nation_ethnic Nation comme communauté ethnique ou culturelle fondée sur les liens du sang ou les ancêtres communs
nation_family Nation associée à la famille, citoyens comme enfants de la patrie
nation_state Nation fusionnée avec l'État comme entité unique et inséparable
nation_vital La nation comme élément essentiel et indépassable de la vie humaine
nation_threat Nation décrite comme menacée, nécessitant protection ou défense
nation_colonialism Nostalgie coloniale ou déni des conséquences de la colonisation

Immigration

Cadrage de l'immigration comme menace.

immigration_identity Menace à l'identité nationale, la culture ou les valeurs françaises/européennes
immigration_security Association avec la délinquance, la criminalité ou le terrorisme
immigration_women Menace aux droits des femmes ou à l'égalité de genre
immigration_law Appel à une législation plus stricte sur l'immigration ou le droit d'asile

Démocratie

Rapport critique à la démocratie comme idéal ou régime politique.

demo_value La démocratie comme menace aux valeurs, traditions ou à l'identité nationale
demo_sep Remise en cause de la séparation des pouvoirs, renforcement de l'exécutif
demo_vain La démocratie décrite comme inefficace, lente ou incapable de bonnes décisions
demo_corrupt La démocratie comme fondamentalement corrompue ou captée par des intérêts particuliers
demo_beyond Appel à dépasser ou se révolter contre la démocratie
demo_neg Soutien aux régimes non-démocratiques (autoritarisme, monarchie, technocratie)

Progrès

Rejet de la modernisation, de la mondialisation et du changement progressiste.

progress_identity Le progrès comme menace aux valeurs, traditions ou à l'identité nationale
progress_stop Appel à freiner, limiter ou arrêter le progrès social ou les réformes progressistes
progress_glob Critique du progrès via la mondialisation ou l'UE comme destruction des identités

Autorité

Obéissance à l'autorité, usage de la force et traditionalisme.

authority_chief Importance d'un chef fort ou d'une figure providentielle pour protéger la nation
authority_essential Mesure politique présentée comme essentielle, urgente pour restaurer l'autorité
authority_security Importance de l'ordre et de la sécurité, lutte contre la délinquance
authority_army Valorisation de l'armée, la police ou les forces de l'ordre

Tradition

Défense des valeurs traditionnelles et du projet civilisationnel.

tradition_value Valeurs, coutumes ou identité françaises à préserver et promouvoir
tradition_threat La tradition ou les valeurs traditionnelles menacées, nécessitant protection
tradition_family Promotion du modèle familial traditionnel ou critique des transformations familiales
tradition_laicite La laïcité comme marqueur identitaire national plutôt que principe de neutralité
tradition_civilization La tradition comme projet civilisationnel de diffusion de valeurs supérieures

Égalité SIED + NR

Rapport à l'égalité, hiérarchies sociales et biologiques.

equality_value L'égalité comme menace aux valeurs, traditions ou à l'ordre social
equality_identity L'égalité comme menace à l'identité française ou facteur de dissolution nationale
equality_gender Les inégalités entre les sexes présentées comme naturelles ou biologiquement fondées
hierarchy_castes La société décrite en termes de castes ou de hiérarchies sociales naturelles
hierarchy_IQ Le QI mobilisé comme critère de classement des individus ou des groupes
hierarchy_race Référence à des inégalités naturelles entre races ou groupes ethniques
equality_utopia L'égalité décrite comme irréaliste, naïve ou utopique

Écologie SIED + NR

Positionnement écologique : éco-scepticisme, techno-solutionnisme ou écologie civilisationnelle.

eco_eco La croissance économique est plus importante que la protection environnementale
eco_tech Les préoccupations écologiques comme obstacles au développement technologique
eco_civ Les défis climatiques cadrés comme compétition entre civilisations
Architecture des données

Schéma de la base de données

Six tables dans un schéma relationnel normalisé, des métadonnées brutes aux annotations NLP au niveau de la phrase.

# Table Description Échelle
1 videos Une ligne par vidéo : ID, métadonnées de la chaîne, vues, likes, commentaires, tags, durée, date de mise en ligne, orientation politique, pays, genre. 23,658 rows
2 comments Tous les commentaires YouTube avec infos auteur, likes, horodatages, structure de réponses imbriquées et colonne d'analyse JSONB. 7.6M+ rows
3 video_transcripts Transcriptions diarisées complètes avec étiquettes de locuteurs et versions nettoyées du texte. 20,999 rows
4 transcription_speakers Segments individuels de locuteurs issus de la diarisation, ordonnés par position dans chaque vidéo. 601,348 rows
5 comments_processed Commentaires tokenisés au niveau de la phrase avec entités NER (PER, ORG, LOC) et colonnes de prédiction ML. 9.8M+ rows
6 transcription_speakers_processed Segments de locuteurs au niveau de la phrase avec extraction NER et suite complète d'annotations. 5.3M+ rows

Observatoire en continu

La base est mise à jour en continu : scan des chaînes, transcription et annotation des vidéos, extraction de commentaires, mise à jour des métadonnées (vues, likes, abonnés). Chaque scan produit un historique longitudinal exploitable via l'API.

Date de dernière mise à jour : 2026-04-04 16:43
Aujourd'hui
vidéos transcrites
commentaires extraits
Depuis janvier
vidéos transcrites
commentaires extraits
vidéos détectées
métadonnées mises à jour
chaînes scannées
Contacter l'équipe
Une question sur les données, l'API ou le projet ? Envoyez-nous un message.
Proposer une chaîne ou fonctionnalité
Aidez-nous à enrichir le corpus YOUPOL. Proposez une chaîne YouTube politique que nous devrions suivre, ou une fonctionnalité.