TEST 15 JOURS

Comment mind RH a utilisé l’IA générative pour mesurer les progrès du télétravail dans les accords d’entreprise

Il y a quelques jours, nous avons publié une grande enquête sur l'évolution du nombre de jours de télétravail octroyés par les grands groupes français dans les accords d'entreprise. Découvrez les coulisses de ce comparatif inédit, où nous détaillons comment nous avons utilisé des API publiques pour collecter 225 accords et exploré les capacités de l’IA générative pour analyser ces données.

Par Sara Chaouki. Publié le 21 juin 2024 à 15h27 - Mis à jour le 21 juin 2024 à 15h38

Début juin, nous avons publié une analyse de 225 accords de télétravail signés entre 2020 et 2023. Il apparaît que si le nombre d’accords a connu une hausse importante en 2021, il a nettement ralenti en 2022 et 2023. Mais le rythme de deux jours par semaine demeure la norme (2,28 jours en moyenne), en hausse l’année dernière avec 2,46 jours. Un résultat qui contraste avec certaines déclarations récente de dirigeants de grands groupes français, mettant en avant les conséquences négatives du travail à distance. Des disparités importantes existent entre secteurs d’activité : certains offrent jusqu’à 3,07 jours de télétravail par semaine contre 1,57 ailleurs.

Pour objectiver notre analyse, nous avons choisi d’étudier les accords d’entreprise et de quantifier le nombre maximal de jours de télétravail accordés. Cela nous a conduit à interroger l’API publique de Légifrance (une interface de programmation qui facilite l’accès et le traitement automatisé des données), pour sélectionner les accords des plus grandes entreprises françaises. En utilisant les capacités d’OpenAI, notamment via ChatGPT, nous avons exploré les forces et les limites de l’IA générative dans l’extraction et l’analyse de données complexes. Notre étude approfondie des pratiques de télétravail dans ces grandes entreprises et leurs filiales a abouti à la publication d’un dossier, paru le 6 juin 2024 sur mind RH, exposant en détail la méthodologie et les techniques employées pour parvenir à ces conclusions.

Établir la liste des entreprises

Notre premier objectif a été de constituer une base de données fiable et exhaustive des accords de télétravail de grands groupes signés en France. Il nous a d’abord fallu définir une liste des entreprises dont nous voulions récupérer les accords. Car nous ne souhaitions pas analyser ceux de l’ensemble des sociétés françaises mais nous concentrer sur celles dont les pratiques sont susceptibles de faire référence auprès des spécialistes des entités où les relations sociales sont développées, qui constituent l’essentiel du lectorat de mind RH. Pour cela, nous avons interrogé la base de données Sirene, un service public en Open Data qui fournit de précieuses informations sur l’ensemble des entreprises de l’Hexagone (raison sociale, activité, tranche d’effectif…).

Un ensemble d’environ 500 grandes entreprises a été extrait en se fondant sur le critère des effectifs. Puis nous l’avons filtré en excluant les services publics, les groupes hospitaliers, les fondations et les branches régionales de groupes nationaux, en utilisant les filtres proposés par la base de données. Nous avons ensuite exclu manuellement les filiales restantes non pertinentes. Au bout de ce processus, nous disposions d’une base de données de 179 entités.

Récupérer les accords d’entreprises de la liste

La deuxième étape a consisté à récupérer les accords eux-mêmes. Nous avons pour cela interrogé l’API Légifrance, mise à disposition par la Direction de l’information légale et administrative (DILA) sur la plateforme gouvernementale Piste. Un script Python que nous avons développé parcourt notre liste de 179 entreprises, et interroge cette API via la requête “/search afin de récupérer tous les accords de télétravail signés par chacune d’elles entre le 1er janvier 2020 et le 31 décembre 2023.

Pour chaque accord, l’API Légifrance nous donne huit informations : 

ID : un identifiant unique permettant de distinguer chaque accord
Titre : le nom de l’accord
Raison sociale de l’entreprise : le nom de l’entreprise signataire
IDCC : ID de la convention collective de l’entreprise
Date de signature : la date à laquelle l’accord a été signé
Date de diffusion : la date à laquelle l’accord a été rendu public sur Légifrance
Référence : la référence de la version de l’accord sur Légifrance
Thème : la thématique sur laquelle l’accord porte (le télétravail, donc, mais aussi, l’aménagement du temps de travail, la couverture complémentaire santé-maladie ou encore l’égalité salariale femmes/hommes)

Un tableau de données de 9 200 lignes – une pour chaque accord – et huit colonnes – une pour chaque information associée aux accords, structure ensuite toutes ces informations. Enfin, nous avons filtré cette base sur la colonne “Thème”, ne conservant que ceux qui portaient sur le télétravail. Cela a permis de réduire le nombre d’accords analysés à 369.

Récupérer le contenu des accords

Nous n’en avions pas encore fini avec l’API de Légifrance, car pour mener notre analyse à terme, il nous fallait récupérer le contenu des accords eux-mêmes. Pour cela, nous avons développé une seconde fonction Python qui parcourt la liste des 369 codes d’indentification (ID) afin de les obtenir auprès de Légifrance. Pour chaque ID, la requête “consult/acco” nous a permis d’obtenir quatre informations supplémentaires : le SIRET de l’entreprise (nous n’avions jusque là que des raisons sociales), son secteur, la nature du texte (s’il s’agit d’un accord ou d’un avenant venant modifier un accord), et bien sûr le texte intégral. 

Cette démarche nous a permis d’obtenir un deuxième tableau de données de 369 lignes et cinq colonnes, que nous avons fusionné avec le précédent grâce aux identifiants des accords. 

IA générative

Une fois ces textes récupérés, nous souhaitions en extraire le nombre de jours de télétravail accordés aux salariés. Un obstacle de taille s’est alors présenté : l’hétérogénéité des formats et l’absence de structures standardisées. Les accords, des textes longs qui ont généralement une structure claire, sont parfois révisés par des avenants très courts. Chaque entreprise a opté pour son propre style et sa propre organisation des textes en parties et sous-parties. Au sein d’une même entreprise, ces parties et sous-parties évoluent souvent d’un accord à l’autre. Cela complexifie considérablement l’extraction automatique d’informations, même avec des techniques d’intelligence artificielle fondées sur le traitement du langage naturel (NLP). 

Nous nous sommes alors tournés vers l’IA générative pour mettre à notre profit les capacités des grands modèles de langage (LLM) à synthétiser des documents et répondre à des questions sur le nombre maximum de jours de télétravail dans chaque accord. Plus précisément, nous nous sommes appuyés sur l’API d’OpenAI et son modèle GPT-4-Turbo. Pour ce faire, nous avons divisé notre tableau d’accords en plusieurs batchs de 50 chacun. Nous avons développé une fonction Python nommée “ask_question” pour héberger notre prompt et une fonction “process_dataframe” pour traiter chaque lot. Cela nous a permis de générer un troisième tableau de données regroupant les informations initiales des accords, les synthèses produites par le LLM et le nombre de jours maximum de télétravail accordés aux salariés.

La vérification

Les LLM étant des modèles probabilistes, il leur arrive d’être sujets à des “hallucinations”, malgré toutes les précautions prises dans les prompts. L’analyse des synthèses et des chiffres produits ne pouvait donc commencer avant une étape de validation. Pour cela, nous avons mis en place un process afin que les journalistes de mind RH et de la cellule datajournalisme puissent détecter et corriger les anomalies et erreurs dans les synthèses, et celles dans l’extraction du nombre jours de télétravail maximum produites par le LLM. Cette étape nous a aussi permis d’identifier les cas particuliers d’accords à exclure du panel, dont ceux liés à la pandémie de covid-19, ceux portant sur l’égalité professionnelle et le handicap, ceux concernant les aidants, etc. Ces accords, ne relevant pas de notre champ d’analyse principal (salariés en CDI à temps plein), ont été retirés du corpus de données.

Analyse

Certains accords prévoient des jours de télétravail fixes par semaine, d’autres par mois, d’autres encore par année. Ces jours fixes sont parfois complétés de jours flottants, attribués par mois ou par année. Cela aboutit à une grande diversité de situations. Pour être en mesure de comparer tous les accords, nous avons élaboré un calcul visant à normaliser le nombre de jours de télétravail maximum accordés sur la base d’une semaine de cinq jours travaillés. Afin de neutraliser les week-ends, jours fériés et jours de congé, nous avons retenu le nombre de 213 jours travaillés effectifs en 2022, en moyenne, indiqué par la dernière étude de l’INSEE sur la durée et l’organisation du travail. Cela correspond à 17,75 jours travaillés par mois.. 

Le nombre de jours de télétravail par semaine normalisé (TSN) est ainsi calculé à partir du nombre de jours de télétravail par semaine (TS), du nombre de jours de télétravail par mois (TM) et du nombre de jours de télétravail par an (TA).

Notre comparatif public des grands groupes français est inédit : seuls le cabinet Sia Partners et la Dares, service d’études du ministère du Travail (sans préciser le nombre de jours) avaient étudié les accords dédiés, mais pour l’ensemble des entreprises, en 2022.

Besoin d’informations complémentaires ?

Contactez

le service d’études à la demande de mind

  • Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

À lire

Étude mind RH - Les grands groupes français n’ont pas réduit le droit au télétravail depuis 2020

France : la flexibilité reste une priorité pour les salariés (étude)