Étape 7 de 7

Observatoire continu

Mise à jour en temps réel : la base de données est alimentée en continu par un réseau de machines collaboratives

Date de dernière mise à jour : 2026-04-04 16:39
24,676 Vidéos dans la base
20,998 Vidéos transcrites
7.6M+ Commentaires
33,746 Instantanés de métadonnées
2,305 Vidéos supprimées détectées
Aujourd'hui
vidéos transcrites
commentaires extraits
Depuis janvier
vidéos transcrites
commentaires extraits
vidéos détectées
métadonnées mises à jour
chaînes scannées
Flux de données

Pipeline de mise à jour continue

Entrée Chaînes YouTube surveillées
Traitement Scanner + workers distribués open source
Sortie Base de données mise à jour en continu
Méthodologie

Comment ça fonctionne

Le scanner parcourt régulièrement toutes les chaînes pour détecter les nouvelles vidéos. Les métadonnées sont enregistrées à chaque passage, créant un historique longitudinal des vues, likes et abonnés.

Les machines des collaborateurs se connectent à la base centrale via un tunnel SSH sécurisé et réclament des tâches de transcription de façon atomique (SELECT FOR UPDATE SKIP LOCKED). Plusieurs machines travaillent en parallèle sans conflit.

Les commentaires sont extraits en continu pour les nouvelles vidéos transcrites et périodiquement pour les vidéos existantes. Les commentaires supprimés sont détectés et documentés.

Les vidéos supprimées, privatisées ou issues de chaînes clôturées sont automatiquement détectées lors des scans de métadonnées et documentées dans la base avec la raison de suppression.

Cliquez sur chaque carte pour voir les détails

Le corpus YouPol n'est pas un ensemble de données statique : c'est un observatoire vivant du contenu politique francophone sur YouTube. Le pipeline est conçu pour fonctionner en continu, détectant automatiquement les nouvelles vidéos, extrayant les commentaires et enregistrant les changements de métadonnées au fil du temps.

L'infrastructure de traitement repose sur un réseau de machines des collaborateurs du projet, connectées via un système de workers distribués open source (youpol-worker-node). Chaque machine détecte automatiquement ses ressources (processeur, mémoire, GPU) et réclame des tâches de façon atomique auprès de la base de données centrale. Les collaborateurs peuvent rendre leur machine disponible à tout moment via un simple bouton dans la barre de menu.

Le système enregistre un historique longitudinal complet : chaque scan de métadonnées produit un instantané des vues, likes et abonnés de chaque vidéo. Les commentaires supprimés ou les vidéos privatisées sont automatiquement détectés et documentés. Cette architecture permet l'analyse de la dynamique temporelle du corpus.

Stack technique

Outils utilisés

youpol-worker-node (open source)
PostgreSQL
PostgREST
yt-dlp
Architecture des données

Schéma de la base de données

Six tables dans un schéma relationnel normalisé, des métadonnées brutes aux annotations NLP au niveau de la phrase.

# Table Description Échelle
1 videos Une ligne par vidéo : ID, métadonnées de la chaîne, vues, likes, commentaires, tags, durée, date de mise en ligne, orientation politique, pays, genre. 23,658 rows
2 comments Tous les commentaires YouTube avec infos auteur, likes, horodatages, structure de réponses imbriquées et colonne d'analyse JSONB. 7.6M+ rows
3 video_transcripts Transcriptions diarisées complètes avec étiquettes de locuteurs et versions nettoyées du texte. 20,998 rows
4 transcription_speakers Segments individuels de locuteurs issus de la diarisation, ordonnés par position dans chaque vidéo. 601,346 rows
5 comments_processed Commentaires tokenisés au niveau de la phrase avec entités NER (PER, ORG, LOC) et colonnes de prédiction ML. 9.8M+ rows
6 transcription_speakers_processed Segments de locuteurs au niveau de la phrase avec extraction NER et suite complète d'annotations. 5.3M+ rows

Observatoire en continu

La base est mise à jour en continu : scan des chaînes, transcription et annotation des vidéos, extraction de commentaires, mise à jour des métadonnées (vues, likes, abonnés). Chaque scan produit un historique longitudinal exploitable via l'API.

Date de dernière mise à jour : 2026-04-04 16:39
Aujourd'hui
vidéos transcrites
commentaires extraits
Depuis janvier
vidéos transcrites
commentaires extraits
vidéos détectées
métadonnées mises à jour
chaînes scannées
Contacter l'équipe
Une question sur les données, l'API ou le projet ? Envoyez-nous un message.
Proposer une chaîne ou fonctionnalité
Aidez-nous à enrichir le corpus YOUPOL. Proposez une chaîne YouTube politique que nous devrions suivre, ou une fonctionnalité.