Les données

La base de données YOUPOL

Une base de données PostgreSQL complète de 24,676 vidéos provenant de 67 chaînes couvrant le contenu politique francophone de YouTube en France et au Québec, avec transcriptions, métadonnées, commentaires et annotations NLP.

0%
24,676
Vidéos en base
27,802
Sur les plateformes*
67
Chaînes
1.12 Md
Vues couvertes
7,601,616
Commentaires
20,983
Transcriptions
600,336
Segments locuteurs
2006–2026
Période couverte

* Vidéos détectées sur YouTube et TikTok, y compris celles en attente de traitement.

Observatoire en continu

La base est mise à jour en continu : scan des chaînes, transcription et annotation des vidéos, extraction de commentaires, mise à jour des métadonnées (vues, likes, abonnés). Chaque scan produit un historique longitudinal exploitable via l'API.

Date de dernière mise à jour : 2026-04-04 13:06
Aujourd'hui
vidéos transcrites
commentaires extraits
Depuis janvier
vidéos transcrites
commentaires extraits
vidéos détectées
métadonnées mises à jour
chaînes scannées
Accéder à l'API

Vidéos par année

Nombre total de vidéos mises en ligne par année, depuis 2006

Vidéos par orientation politique

Répartition selon les quatre orientations

Vidéos par pays

France vs. Québec

Vues par orientation politique dans le temps

Diagramme en aires empilées des vues totales par année, groupées par orientation

Commentaires par année

Commentaires totaux sur les vidéos mises en ligne chaque année

Durée moyenne par orientation

Durée moyenne des vidéos en minutes

Détection de contenu politique dans le temps

Volume mensuel de phrases et proportion classée comme politique (niveau phrase)

Rechercher dans
ex: « immigration » dans Contenu trouve toutes les vidéos qui en parlent
Orientation
Pays
Genre
Vues
Durée
Taux politique ?
Période

La base de données est organisée en 6 tables relationnelles stockées dans PostgreSQL. Les données brutes (vidéos, commentaires, transcriptions) sont liées aux annotations NLP au niveau de la phrase via des tables traitées.

1. videos

Table principale ; une ligne par vidéo. Contient les métadonnées de la chaîne, les métriques d'engagement, la date de mise en ligne, l'orientation politique, le pays et le genre du créateur. 23,658 rows.

ColonneTypeDescription
video_idVARCHAR (PK)Identifiant YouTube de la vidéo
channel_nameVARCHARNom de la chaîne YouTube
titleTEXTTitre de la vidéo
upload_dateDATEDate de publication de la vidéo
durationINTEGERDurée de la vidéo en secondes
view_countBIGINTNombre total de vues
like_countINTEGERNombre total de likes
comment_countINTEGERNombre total de commentaires
tagsJSONBTags de la vidéo en tableau JSON
ideasVARCHAROrientation politique (Far_right, Left, Masc, Comp)
countryVARCHARPays d'origine (FR, QC)
genderVARCHARGenre du créateur de la chaîne (H, F, Mixte)

2. comments

Tous les commentaires YouTube avec informations sur l'auteur, nombre de likes, horodatages et structure de réponses imbriquées. 7,601,616 rows.

ColonneTypeDescription
comment_idVARCHAR (PK)Identifiant unique du commentaire
video_idVARCHAR (FK)Référence à la vidéo
authorVARCHARNom de l'auteur du commentaire
textTEXTTexte du commentaire
like_countINTEGERNombre de likes sur le commentaire
published_atTIMESTAMPDate de publication du commentaire
parent_idVARCHARID du commentaire parent (pour les réponses)

3. video_transcripts

Transcriptions diarisées complètes avec étiquettes de locuteurs et versions nettoyées du texte. 20,983 rows.

ColonneTypeDescription
transcript_idSERIAL (PK)Identifiant auto-incrémenté
video_idVARCHAR (FK)Référence à la vidéo
raw_transcriptTEXTTranscription diarisée complète avec étiquettes de locuteurs
cleaned_transcriptTEXTVersion nettoyée sans étiquettes de locuteurs
languageVARCHARCode de langue détecté

4. transcription_speakers

Segments individuels de locuteurs issus de la diarisation, ordonnés par position dans chaque vidéo. 600,336 rows.

ColonneTypeDescription
segment_idSERIAL (PK)Identifiant auto-incrémenté
video_idVARCHAR (FK)Référence à la vidéo
speakerVARCHARÉtiquette du locuteur (SPEAKER_00, SPEAKER_01, etc.)
textTEXTSegment de parole transcrit
segment_orderINTEGERPosition dans la séquence de la vidéo
start_timeFLOATTemps de début du segment en secondes
end_timeFLOATTemps de fin du segment en secondes

5. comments_processed

Commentaires tokenisés au niveau de la phrase avec reconnaissance d'entités nommées (PER, ORG, LOC) stockées en JSONB, plus les colonnes de prédiction des modèles CamemBERT. 7,601,616+ rows.

ColonneTypeDescription
idSERIAL (PK)Identifiant auto-incrémenté
comment_idVARCHAR (FK)Identifiant unique du commentaire
sentenceTEXTPhrase individuelle extraite du commentaire
sentence_orderINTEGERPosition de la phrase dans le commentaire
entitiesJSONBSortie NER : {PER: [], ORG: [], LOC: []}
[model]_predictionBOOLEANPrédiction binaire de chaque classifieur
[model]_confidenceFLOATScore de confiance pour chaque prédiction

6. transcription_speakers_processed

Segments de locuteurs tokenisés au niveau de la phrase avec NER et annotations de discours haineux / rhétorique scientifique des classifieurs CamemBERT. 600,336+ rows.

ColonneTypeDescription
idSERIAL (PK)Identifiant auto-incrémenté
segment_idVARCHAR (FK)Référence au segment de locuteur
sentenceTEXTPhrase individuelle du segment
sentence_orderINTEGERPosition de la phrase dans le segment
entitiesJSONBSortie NER : {PER: [], ORG: [], LOC: []}
[model]_predictionBOOLEANPrédiction binaire de chaque classifieur
[model]_confidenceFLOATScore de confiance pour chaque prédiction
Contacter l'équipe
Une question sur les données, l'API ou le projet ? Envoyez-nous un message.
Proposer une chaîne ou fonctionnalité
Aidez-nous à enrichir le corpus YOUPOL. Proposez une chaîne YouTube politique que nous devrions suivre, ou une fonctionnalité.