Observatoire continu
Mise à jour en temps réel : la base de données est alimentée en continu par un réseau de machines collaboratives
Pipeline de mise à jour continue
Comment ça fonctionne
Le scanner parcourt régulièrement toutes les chaînes pour détecter les nouvelles vidéos. Les métadonnées sont enregistrées à chaque passage, créant un historique longitudinal des vues, likes et abonnés.
Les machines des collaborateurs se connectent à la base centrale via un tunnel SSH sécurisé et réclament des tâches de transcription de façon atomique (SELECT FOR UPDATE SKIP LOCKED). Plusieurs machines travaillent en parallèle sans conflit.
Les commentaires sont extraits en continu pour les nouvelles vidéos transcrites et périodiquement pour les vidéos existantes. Les commentaires supprimés sont détectés et documentés.
Les vidéos supprimées, privatisées ou issues de chaînes clôturées sont automatiquement détectées lors des scans de métadonnées et documentées dans la base avec la raison de suppression.
Cliquez sur chaque carte pour voir les détails
Le corpus YouPol n'est pas un ensemble de données statique : c'est un observatoire vivant du contenu politique francophone sur YouTube. Le pipeline est conçu pour fonctionner en continu, détectant automatiquement les nouvelles vidéos, extrayant les commentaires et enregistrant les changements de métadonnées au fil du temps.
L'infrastructure de traitement repose sur un réseau de machines des collaborateurs du projet, connectées via un système de workers distribués open source (youpol-worker-node). Chaque machine détecte automatiquement ses ressources (processeur, mémoire, GPU) et réclame des tâches de façon atomique auprès de la base de données centrale. Les collaborateurs peuvent rendre leur machine disponible à tout moment via un simple bouton dans la barre de menu.
Le système enregistre un historique longitudinal complet : chaque scan de métadonnées produit un instantané des vues, likes et abonnés de chaque vidéo. Les commentaires supprimés ou les vidéos privatisées sont automatiquement détectés et documentés. Cette architecture permet l'analyse de la dynamique temporelle du corpus.
Outils utilisés
Schéma de la base de données
Six tables dans un schéma relationnel normalisé, des métadonnées brutes aux annotations NLP au niveau de la phrase.
| # | Table | Description | Échelle |
|---|---|---|---|
| 1 | videos | Une ligne par vidéo : ID, métadonnées de la chaîne, vues, likes, commentaires, tags, durée, date de mise en ligne, orientation politique, pays, genre. | 23,658 rows |
| 2 | comments | Tous les commentaires YouTube avec infos auteur, likes, horodatages, structure de réponses imbriquées et colonne d'analyse JSONB. | 7.6M+ rows |
| 3 | video_transcripts | Transcriptions diarisées complètes avec étiquettes de locuteurs et versions nettoyées du texte. | 20,998 rows |
| 4 | transcription_speakers | Segments individuels de locuteurs issus de la diarisation, ordonnés par position dans chaque vidéo. | 601,346 rows |
| 5 | comments_processed | Commentaires tokenisés au niveau de la phrase avec entités NER (PER, ORG, LOC) et colonnes de prédiction ML. | 9.8M+ rows |
| 6 | transcription_speakers_processed | Segments de locuteurs au niveau de la phrase avec extraction NER et suite complète d'annotations. | 5.3M+ rows |
Observatoire en continu
La base est mise à jour en continu : scan des chaînes, transcription et annotation des vidéos, extraction de commentaires, mise à jour des métadonnées (vues, likes, abonnés). Chaque scan produit un historique longitudinal exploitable via l'API.