Sélection des chaînes
Identification de chaînes politiques francophones basée sur les métriques d'audience
Pipeline de mise à jour continue
Comment ça fonctionne
Les liens de chaînes YouTube sont collectés en identifiant spécifiquement les chaînes reconnues pour leur contenu politique francophone et leur rôle dans l'écosystème des créateurs de contenu politique sur YouTube. Les métriques d'audience (nombre de vues, d'abonnés) servent de critères pour évaluer la portée et l'influence de chaque chaîne.
Chaque chaîne est classifiée selon deux dimensions : orientation politique (extrême droite, gauche, manosphère, complotisme) et pays d'origine (France, Québec). Le corpus couvre l'ensemble du spectre politique, des créateurs de niche aux influenceurs politiques majeurs, permettant une analyse comparative entre les deux écosystèmes francophones.
Cliquez sur chaque carte pour voir les détails
La première étape du pipeline consiste à collecter les vidéos à partir de liens de chaînes YouTube spécifiquement identifiées pour leur contenu politique francophone et leur rôle dans l'écosystème des créateurs de contenu politique sur YouTube. Le corpus cible les principaux créateurs de contenu politique (Finlayson, 2022) couvrant l'ensemble du spectre politique français et québécois, de l'extrême gauche à l'extrême droite (Riedl et al., 2021).
La sélection des chaînes s'appuie sur des métriques d'audience telles que le nombre de vues et d'abonnés, permettant d'évaluer le rôle et l'influence de chaque chaîne dans l'écosystème. Les chaînes retenues sont classifiées selon leur orientation politique (extrême droite, gauche, manosphère, complotisme) et leur pays d'origine (France, Québec). Le corpus résultant est distinctif par son échelle, sa granularité (incluant la diarisation des locuteurs) et surtout sa capacité à permettre l'analyse longitudinale et computationnelle du contenu vidéo — là où les études précédentes se limitaient aux titres (Boursier, 2022, 2024).
Outils utilisés
Schéma de la base de données
Six tables dans un schéma relationnel normalisé, des métadonnées brutes aux annotations NLP au niveau de la phrase.
| # | Table | Description | Échelle |
|---|---|---|---|
| 1 | videos | Une ligne par vidéo : ID, métadonnées de la chaîne, vues, likes, commentaires, tags, durée, date de mise en ligne, orientation politique, pays, genre. | 23,658 rows |
| 2 | comments | Tous les commentaires YouTube avec infos auteur, likes, horodatages, structure de réponses imbriquées et colonne d'analyse JSONB. | 7.6M+ rows |
| 3 | video_transcripts | Transcriptions diarisées complètes avec étiquettes de locuteurs et versions nettoyées du texte. | 20,998 rows |
| 4 | transcription_speakers | Segments individuels de locuteurs issus de la diarisation, ordonnés par position dans chaque vidéo. | 601,346 rows |
| 5 | comments_processed | Commentaires tokenisés au niveau de la phrase avec entités NER (PER, ORG, LOC) et colonnes de prédiction ML. | 9.8M+ rows |
| 6 | transcription_speakers_processed | Segments de locuteurs au niveau de la phrase avec extraction NER et suite complète d'annotations. | 5.3M+ rows |
Observatoire en continu
La base est mise à jour en continu : scan des chaînes, transcription et annotation des vidéos, extraction de commentaires, mise à jour des métadonnées (vues, likes, abonnés). Chaque scan produit un historique longitudinal exploitable via l'API.