Prétraitement audio
Séparation de sources vocales par Demucs (htdemucs)
Pipeline de mise à jour continue
Comment ça fonctionne
Chaque fichier audio est traité par le modèle htdemucs pour la séparation de sources. Le signal est décomposé en quatre stems (voix, basse, batterie, autre). Seul le stem vocal est conservé pour les étapes suivantes.
La séparation vocale est exécutée sur le réseau de machines collaboratives avec accélération GPU. Le traitement est parallélisé entre les différents nœuds de calcul disponibles.
Cliquez sur chaque carte pour voir les détails
Les pistes audio extraites des vidéos sont traitées par le modèle de séparation de sources Demucs (modèle htdemucs). Demucs décompose le signal audio en quatre composantes (voix, basse, batterie, autre) et seul le stem vocal est conservé. Cette étape élimine la musique de fond, les jingles et les bruits parasites, améliorant significativement la qualité de la reconnaissance vocale ultérieure.
Le traitement est effectué en continu sur le réseau de machines des collaborateurs, avec accélération GPU. Chaque vidéo est traitée automatiquement dès sa détection par le scanner.
Outils utilisés
Schéma de la base de données
Six tables dans un schéma relationnel normalisé, des métadonnées brutes aux annotations NLP au niveau de la phrase.
| # | Table | Description | Échelle |
|---|---|---|---|
| 1 | videos | Une ligne par vidéo : ID, métadonnées de la chaîne, vues, likes, commentaires, tags, durée, date de mise en ligne, orientation politique, pays, genre. | 23,658 rows |
| 2 | comments | Tous les commentaires YouTube avec infos auteur, likes, horodatages, structure de réponses imbriquées et colonne d'analyse JSONB. | 7.6M+ rows |
| 3 | video_transcripts | Transcriptions diarisées complètes avec étiquettes de locuteurs et versions nettoyées du texte. | 20,997 rows |
| 4 | transcription_speakers | Segments individuels de locuteurs issus de la diarisation, ordonnés par position dans chaque vidéo. | 601,345 rows |
| 5 | comments_processed | Commentaires tokenisés au niveau de la phrase avec entités NER (PER, ORG, LOC) et colonnes de prédiction ML. | 9.8M+ rows |
| 6 | transcription_speakers_processed | Segments de locuteurs au niveau de la phrase avec extraction NER et suite complète d'annotations. | 5.3M+ rows |
Observatoire en continu
La base est mise à jour en continu : scan des chaînes, transcription et annotation des vidéos, extraction de commentaires, mise à jour des métadonnées (vues, likes, abonnés). Chaque scan produit un historique longitudinal exploitable via l'API.