Étape 3 de 7

Prétraitement audio

Séparation de sources vocales par Demucs (htdemucs)

Date de dernière mise à jour : 2026-04-04 16:27
4 Stems séparés
20,997 Vidéos traitées
Flux de données

Pipeline de mise à jour continue

Entrée Audio brut
Traitement Demucs htdemucs (séparation vocale GPU)
Sortie Pistes vocales isolées
Méthodologie

Comment ça fonctionne

Chaque fichier audio est traité par le modèle htdemucs pour la séparation de sources. Le signal est décomposé en quatre stems (voix, basse, batterie, autre). Seul le stem vocal est conservé pour les étapes suivantes.

La séparation vocale est exécutée sur le réseau de machines collaboratives avec accélération GPU. Le traitement est parallélisé entre les différents nœuds de calcul disponibles.

Cliquez sur chaque carte pour voir les détails

Les pistes audio extraites des vidéos sont traitées par le modèle de séparation de sources Demucs (modèle htdemucs). Demucs décompose le signal audio en quatre composantes (voix, basse, batterie, autre) et seul le stem vocal est conservé. Cette étape élimine la musique de fond, les jingles et les bruits parasites, améliorant significativement la qualité de la reconnaissance vocale ultérieure.

Le traitement est effectué en continu sur le réseau de machines des collaborateurs, avec accélération GPU. Chaque vidéo est traitée automatiquement dès sa détection par le scanner.

Stack technique

Outils utilisés

Demucs (htdemucs)
PyTorch
Architecture des données

Schéma de la base de données

Six tables dans un schéma relationnel normalisé, des métadonnées brutes aux annotations NLP au niveau de la phrase.

# Table Description Échelle
1 videos Une ligne par vidéo : ID, métadonnées de la chaîne, vues, likes, commentaires, tags, durée, date de mise en ligne, orientation politique, pays, genre. 23,658 rows
2 comments Tous les commentaires YouTube avec infos auteur, likes, horodatages, structure de réponses imbriquées et colonne d'analyse JSONB. 7.6M+ rows
3 video_transcripts Transcriptions diarisées complètes avec étiquettes de locuteurs et versions nettoyées du texte. 20,997 rows
4 transcription_speakers Segments individuels de locuteurs issus de la diarisation, ordonnés par position dans chaque vidéo. 601,345 rows
5 comments_processed Commentaires tokenisés au niveau de la phrase avec entités NER (PER, ORG, LOC) et colonnes de prédiction ML. 9.8M+ rows
6 transcription_speakers_processed Segments de locuteurs au niveau de la phrase avec extraction NER et suite complète d'annotations. 5.3M+ rows

Observatoire en continu

La base est mise à jour en continu : scan des chaînes, transcription et annotation des vidéos, extraction de commentaires, mise à jour des métadonnées (vues, likes, abonnés). Chaque scan produit un historique longitudinal exploitable via l'API.

Date de dernière mise à jour : 2026-04-04 16:27
Aujourd'hui
vidéos transcrites
commentaires extraits
Depuis janvier
vidéos transcrites
commentaires extraits
vidéos détectées
métadonnées mises à jour
chaînes scannées
Contacter l'équipe
Une question sur les données, l'API ou le projet ? Envoyez-nous un message.
Proposer une chaîne ou fonctionnalité
Aidez-nous à enrichir le corpus YOUPOL. Proposez une chaîne YouTube politique que nous devrions suivre, ou une fonctionnalité.