Le pipeline YOUPOL
Un pipeline en sept phases transformant les données brutes de YouTube en une base de données prête pour la recherche en science politique computationnelle.
YOUPOL (Lemor & Boursier, 2025) est une base de données textuelle compilant les transcriptions de plus de 23,658 vidéos d'influenceurs politiques francophones sur YouTube depuis 2006. Le corpus cible spécifiquement les principaux créateurs de contenu politique couvrant l'ensemble du spectre politique français et québécois, de l'extrême gauche à l'extrême droite. Nous mettons la base à jour en continu : nos 67 chaînes sont régulièrement scannées pour détecter et collecter les nouvelles vidéos, transcriptions et commentaires.
La base de données se distingue par son échelle (23,658+ vidéos, 7.6M+ commentaires), sa granularité (diarisation des locuteurs, annotation NLP au niveau de la phrase), et surtout sa capacité à analyser longitudinalement et computationnellement le contenu vidéo, là où les études précédentes se concentraient uniquement sur les titres ou les métadonnées.
Pipeline de collecte et traitement continu
Cliquez sur une étape pour explorer sa méthodologie, ses outils et ses statistiques clés.
Observatoire en continu
La base est mise à jour en continu : scan des chaînes, transcription et annotation des vidéos, extraction de commentaires, mise à jour des métadonnées (vues, likes, abonnés). Chaque scan produit un historique longitudinal exploitable via l'API.
Sélection des chaînes
Plus de 60 chaînes YouTube politiques francophones identifiées en France et au Québec.
Collecte des données
Vidéos, commentaires et métadonnées collectés en continu via un pipeline automatisé.
Séparation vocale
Séparation de sources par Demucs pour isoler les voix des pistes audio.
Transcription et diarisation
Transcriptions étiquetées par locuteur produites via diarisation et reconnaissance vocale.
NLP et annotation
Des classifieurs CamemBERT détectent l'idéologie, le discours haineux et la rhétorique au niveau de la phrase.
Base de données et analyse
Schéma PostgreSQL normalisé alimentant NER, réseaux et analyses de régression.
Observatoire continu
Infrastructure distribuée de machines collaboratives assurant la collecte et le traitement en continu.
Originalité et intérêt scientifique
YOUPOL est la première base de données francophone permettant l'analyse longitudinale du discours politique sur YouTube au niveau du contenu tout en incluant toutes les métadonnées de chaque vidéo. Elle facilite une grande variété d'analyses sur la diffusion des idées politiques (en particulier celles de l'extrême droite) et leur évolution dans le temps et à travers le spectre politique.
Deux projets de recherche en cours sont liés à cette base de données : (1) l'étude des déterminants des commentaires haineux en fonction du contenu vidéo et de la diffusion du discours d'extrême droite ; et (2) l'examen de l'impact des arguments scientifiques sur les commentaires selon l'orientation politique des chaînes.
Références clés
Boursier, T. (2022). White Supremacism on YouTube. In Temporalities of Diversity. Waxmann.
Boursier, T. (2024). La banalisation du supremacisme blanc sur YouTube. Politique et societes, 42(1).
Carter, E. (2018). Right-wing extremism/radicalism. Journal of Political Ideologies, 23(2).
Finlayson, A. (2022). YouTube and Political Ideologies. Political Studies, 70(1).
Riedl, M. et al. (2021). The Rise of Political Influencers. Frontiers in Communication, 6.
Stephan, G. (2024). Faire carriere dans les medias de reinformation. Politiques de communication, 22(1).
Voirol, O. & Martini, E. (2023). La fabrique discursive de la haine. Reseaux, 241(5).