Depuis 2021, Brut a lancé sa propre plateforme d'analyse de données et une équipe de dataops dédiée, afin de diffuser une culture de la donnée dans toute l'entreprise. Né en 2016, le média vidéo publie ses documentaires, interviews, contenus d'information uniquement sur les médias sociaux, auprès d'une audience âgée de 18 à 35 ans. Avant 2021, Brut n'exploitait que de façon très sporadique et empirique le potentiel de données disponibles sur ses audiences et leur comportement. 

« Le dataops n'est pas un outil, a clarifié Clément Baccar, data engineer chez Brut à l'occasion de la conférence Big Data & IA à Paris. C'est un cadre méthodologique destiné à fluidifier les projets data parfois longs à mettre en oeuvre et à faire passer à l'échelle une plateforme data comme la nôtre, par itérations. » L'objectif est de rendre un nouveau produit ou une nouvelle fonction immédiatement disponible auprès de l'utilisateur final. Comme le devops, le dataops repose en particulier sur une automatisation maximale des processus. Les deux méthodes ont des bases communes comme l'intégration, le déploiement et les tests en continu, mais le dataops se différencie de toute évidence avec des besoins spécifiques liés... à la donnée. Collecte, transformation, observabilité et surveillance de la qualité, sans oublier conception de modèles d'IA et de data science. « Il faut penser l'ensemble du cycle de vie de la data dès le départ », insiste Clément Baccar.

La complexité et l'hétérogénéité des données des médias sociaux

L'un des défis auquel Brut fait face pour automatiser ses processus provient des données issues des médias sociaux dans lesquelles il puise et qui sont loin d'être homogènes. « Nous avons 80 comptes sur une dizaine de médias sociaux, sur lesquels nous postons 5000 publications par mois avec 1,2 milliard de vues mensuelles, confirme Lore-Pascale Alechou-Tacite, également data engineer chez Brut. Ils évoluent tous et diffèrent tous les uns des autres. » Les différences concernent bien sûr le type de données disponibles, mais aussi le modèle de collecte par API. « Parfois, celles-ci sont gratuites, parfois elles sont payantes comme sur Twitter (devenu X). Certains médias imposent aussi des quotas de requêtes. On peut être autorisés à envoyer 10 requêtes par période de 15 minutes ou 100 suivant le média. La maturité de l'API et de la data varie aussi. Celle de Facebook existe depuis 2010 alors que celle de TikTok Business a tout juste un an. Autre différence, Facebook compte une vue par publication à partir de 3 secondes de consultation, quand TikTok décompte dès le premier clic. »

Clément Baccar et Lore-Pascale Alechou-Tacite, data engineers, appartiennnent à l'équipe dataops mise en place par le média vidéo Brut en 2022 pour doper sa culture data. (Big Data & IA Paris - Photo ED)

À ces défis liés aux sources des données proprement dites s'ajoutent les exigences propres de Brut. « Nous publions en continu, mais nous avons aussi des pics d'activité, lors d'un événement culturel ou sportif ou pendant les vacances, par exemple, précise ainsi Lore-Pascale Alechou-Tacite. Les journalistes et les équipes commerciales ont besoin du reach des publications sur le Festival de Cannes en temps réel, pour les partenaires ou la publicité programmatique sur YouTube, etc. » La rédaction comme les équipes commerciales ont aussi besoin de social listening sur les commentaires destinés à Netflix ou de connaître le type de contenu idéal pour TikTok.

Une communication indispensable entre métiers et équipes data

Dans ce double contexte, les équipes data de Brut ont dû rendre disponible ces données auprès des ingénieurs data. Elles ont développé des ETL et des templates d'ETL pour chaque média social. La donnée brute est ingérée dans Big Query, puis transformée dans des pipelines DBT pour évaluer la qualité et la fraîcheur de ces données ou les éventuels manques. Une fois transformées, elles sont également stockées dans Big Query pour que les équipes data puissent leur appliquer des modèles d'IA. Ces données alimentent le social listening interne de Brut, son algorithme de recommandation, le contenu média qu'il publie, les insights et le Repost Suggestion Engine. Ce dernier indique le pourcentage d'intérêt de republication de chaque vidéo du catalogue. Enfin, la plate-forme data de Brut est gérée sur GCP, entièrement en serverless. Tous les services data sont, par ailleurs, dockerisés dans Google Cloud Build afin d'être facilement reproduits dans tous les environnements du média. Cela permet aussi d'ingérer rapidement la data d'un éventuel nouveau média social.

Le projet a été développé et déployé en un an et demi avec une équipe de 15 personnes. « Si vous voulez mettre en place un cadre dataops efficace, explique ainsi François Vivarelli, data product manager, il faut que toutes les équipes communiquent bien sans friction. Cela demande plusieurs types de démarches : une gestion d'incidents, un déploiement par petits pas avec des incréments quotidiens, du peer reviewing et du peer coding, une surveillance de la charge mentale sur le processus incident et la participation des métiers, en l'occurrence les journalistes, les équipes commerciales et la production. »