Accueil > Services bancaires > Comment les banques s’adaptent pour garder le contrôle sur l’IA et la data Comment les banques s’adaptent pour garder le contrôle sur l’IA et la data Innover sur la data et l'IA sans céder sur le contrôle et la confiance, c’est ce que s’efforcent de réaliser Crédit Mutuel Arkéa et BPCE au travers de leurs choix en matière d’infrastructures et de développement. Rencontre avec David Courté, responsable du service data architecture chez Crédit Mutuel Arkéa, et Florian Caringi, manager big data & data architecture chez BPCE. Par Christophe Auffray. Publié le 13 mars 2024 à 17h51 - Mis à jour le 17 avril 2024 à 15h26 Ressources Les points clés Afin de réduire le vendor lock-in et de permettre la réversibilité, de grands groupes bancaires français adoptent des approches hybrides sur l’intelligence artificielle. Les changements d’architecture nécessitent plus de compétences d’industrialisation et de sécurité, et moins de pure administration des serveurs, estime-t-on chez BPCE. Le mouvement d’hybridation nécessite des adaptations sur le plan humain. Un centre de compétences cloud a ainsi été mis sur pied chez Crédit Mutuel Arkéa. L’innovation en termes de plateforme et de cas d’usage, notamment dans le domaine de l’IA générative, n’est-elle possible qu’en confiant les clés aux hyperscalers et en s’exposant à un risque de dépendance technologique ? Ce n’est pas une fatalité, mais un choix stratégique, estiment deux experts du secteur. Historiquement, au sein du Crédit Mutuel Arkéa, le système d’information s’appuyait essentiellement sur des solutions on-premise. Le groupe bancaire mutualiste intègre à présent des composants Google Cloud. “Le cloud public doit être vu comme une extension de notre SI”, décrit David Courté, responsable du service data architecture. Du cloud public, mais pas en fermant les yeux Afin de réduire le “vendor lock-in” et de permettre la réversibilité, l’entreprise “se limite volontairement sur le choix des composants disponibles et mis à disposition des utilisateurs.” Et cela vaut aussi pour l’intelligence artificielle, notamment générative. “Nous privilégions des modèles développés en interne, que nous hébergeons par exemple sur les services d’inférence de Google afin de rester en maîtrise de nos algorithmes et applications. Cependant, nous ne nous interdisons pas pour autant l’utilisation de modèles sur étagère”, détaille l’expert IT du Crédit Mutuel Arkéa. Chez BPCE, deux environnements coexistent également. Dans l’univers corporate functions & CIB, qui intègre notamment Natixis, le groupe exploite une architecture on-premise. Cet historique a été “hybridé”, par exemple pour y embarquer des services cloud, dont PowerBI de Microsoft. Sur l’IA, des outils de l’éditeur américain, dont Azure, sont aussi déployés. Du côté de la banque de détail de BPCE, une évolution est en cours “avec une transformation par le biais d’un move to cloud sur GCP [Google Cloud Platform, Ndlr], plutôt pour la partie analytics et data science”, confie Florian Caringi, manager big data & data architecture. Faire cohabiter des environnements hybrides n’est pas sans complexité. Pour la banque de financement et d’investissement, l’on-premise constitue la norme. Pour faire évoluer son socle, le groupe dispose d’une forte expertise interne, en particulier sur Hadoop. “Historiquement, nous sommes plutôt dans le milieu Hadoop, on-prem et big data. Mais l’équipe a évolué sous deux casquettes, GCP et big data, en faisant proxy au maximum”, explique le représentant de BPCE. Des compétences et plateformes IT qui s’inspirent du cloud Les évolutions en termes de compétences et d’organisation concernent tout particulièrement les équipes infrastructure historique, et à présent aussi celles en charge de la sécurité. “Le volet GCP au sein du groupe, c’est finalement beaucoup d’architecture réseau, de validation et d’industrialisation”, estime Florian Caringi. “Le DevOps exige une grande dose d’industrialisation pour accélérer le développement et la mise en place de services sécurisés”, poursuit-il. Mais le fossé en termes de compétences n’est pas nécessairement si important entre les environnements big data et cloud. Ceux-ci partagent des technologies, dont Spark ou Airflow. “Ces changements d’architecture nécessitent plus de compétences d’industrialisation et de sécurité, et moins de pure administration des serveurs. Mais les métiers IT s’adaptent positivement et la montée en compétences s’effectue assez rapidement”, juge le manager big data & data architecture. L’expertise interne sur le big data permet en outre de faire évoluer les technologies déployées et hybridées pour répondre aux attentes des métiers. Pour le souligner, la plateforme big data s’est d’ailleurs muée en plateforme data. Une terminologie à la connotation moins purement tech et qui traduit aussi ses capacités d’interopérabilité. “Les collaborateurs souhaitent un accès simplifié aux données de l’organisation. Les outils du cloud public comme BigQuery offrent des temps de latence très courts. Les utilisateurs attendent des performances équivalentes quel que soit l’environnement sous-jacent”, souligne Florian Caringi Des usages qui transforment la plateforme data BPCE fait donc évoluer la stack technique et les fonctionnalités pour la partie corporate functions & CIB. Cette adaptation est aussi clé pour prévenir le développement du “shadow IT” et du “shadow data”. En tant que “proxy owner”, Florian Caringi maintient un dialogue permanent avec les utilisateurs de la plateforme pour recueillir le besoin. “La plateforme doit être vue comme un produit data”, analyse-t-il. Et en tant que produit, il répond donc aux attentes de son marché. Ce mode de fonctionnement est permis par une gouvernance et un modèle économique mutualisés impliquant toutes les parties. Les nouveaux investissements réalisés doivent ainsi répondre à cet enjeu de mutualisation. Le Crédit Mutuel Arkéa a aussi beaucoup investi dans Hadoop depuis 2009 avec un cluster comptant environ 200 nœuds. “Mais les usages ont réellement évolué. Notre plateforme, conçue à l’origine pour du batch, a commencé à montrer des faiblesses dès lors que les métiers ont exprimé des attentes vers plus de temps réel et d’analytics. Migrer 200 nœuds dans le cloud public ne se fait pas d’un claquement de doigts”, pointe David Courté. La banque a dès lors opté pour une solution intermédiaire avec du GCP – avant le lancement de S3NS, une offre dite de cloud de confiance, commercialisée par Google et Thales. “C’était les seuls alors à nous proposer du chiffrement avec un tiers de confiance, Thales en l’occurrence”, détaille-t-il. Des expérimentations sur Google Cloud ont démarré en 2017 sur des données non sensibles. A partir de 2023, le recours aux services de cloud public s’est nettement accru. Les données restent principalement hébergées en on-premise. Elles sont progressivement migrées, au gré des cas d’usage, et en fonction de la classification des données. Les services cloud consommés au cas par cas Dans le même temps, l’entreprise décommissionne “les gros applicatifs Hadoop, ceux dont les traitements nécessitent plusieurs heures, voire plusieurs jours”, rapporte David Courté. Pour les gains de performance et de tarification, Crédit Mutuel Arkéa exploite ainsi BigQuery. Les usages sont soumis à des problématiques réglementaires et SSI (sécurité des systèmes d’information). “Ces facteurs déterminent si nous devons partir sur le cloud public ou rester on-prem”, résume le spécialiste. Du cloud public certes, mais encadré et/ou maîtrisé, c’est ainsi que Maxime Havez, le chief data officer du Crédit Mutuel Arkéa, présente l’approche adoptée sur la plateforme data. Pour y parvenir, le groupe “ne s’autorise pas à consommer l’intégralité des services disponibles auprès de Google.” Sont automatiquement exclus les services managés incompatibles avec du chiffrement. “Il s’agit aussi d’éviter de se retrouver en situation de vendor lock-in.” Illustration avec BigQuery, certes “un excellent produit”. L’entreprise choisit délibérément de limiter les usages de cette brique. “Nous pourrions partir sur du BigQuery ML, très puissant, mais sans réel équivalent chez la concurrence et encore moins en on-premise”, justifie David Courté. La règle consiste donc à se limiter à des services “transposables ailleurs” ou pouvant être rapatriés en interne. Crédit Mutuel Arkéa appliquent ainsi les principes de portabilité et de réversibilité. Pour conserver la maîtrise, la banque développe en outre “un socle applicatif, que nous avons pour ambition de rendre open source, complètement agnostique de la plateforme. Il nous permet de déployer des applications en on-prem avec Hive, sur AWS avec Redshift ou sur GCP en utilisant BigQuery.” Une maîtrise de l’IT hybride qui intègre le FinOps L’hybridation on-prem/cloud public a bien sûr aussi des impacts en termes de compétences et d’organisation. Mais pour répondre à ces enjeux, le data office met en avant son rattachement à la DSI. “Cela nous permet de disposer d’une vision globale des différentes compétences IT”, considère le responsable architecture data. Des évolutions sont cependant à prévoir. “Nos experts Hadoop ont conscience de la nécessité de faire évoluer notre modèle existant. Ils sont assez impliqués dans sa transformation. Sur le cloud, de nouvelles compétences sont apparues. La supervision de services managés et la gestion des accès réseau ne se gèrent pas comme se gère un cluster Hadoop”, reconnaît David Courté. Les métiers de l’IT se modifient pour s’aligner sur l’hybridation du SI. Une spécificité est à noter : l’apparition du métier FinOps, qui s’accompagne d’actions de sensibilisation auprès des utilisateurs pour les sensibiliser à la facturation à l’usage et aux coûts du cloud public. “Chaque action sur un cloud public, c’est des euros. Cela peut faire peur. Nous sommes là pour rassurer et cadrer les usages.” Le mouvement d’hybridation, sur un plan humain, est donc engagé. L’entreprise a mis sur pied un centre de compétences cloud. Celui-ci assure le pilotage “de l’open stack interne, un cloud privé hébergeant notamment des applications Web.” Le centre de compétences a donc aussi la responsabilité du cloud public. Quant au data office, il remplit un rôle “de coordination, faisant le lien entre les équipes IT et les différents cas d’usage métiers.” Ce rôle, le data office le joue aussi sur l’IA générative ou GenAI. Dans ce domaine aussi, le Crédit Mutuel Arkéa a fait un choix revendiqué en faveur de la maîtrise et de la souveraineté. “Nous nous sommes basés sur notre expérience sur l’IA plus conventionnelle. Nous avons de l’IA en production depuis 2018 avec du Machine Learning et du Deep Learning. Quand le LLM a commencé à émerger, nous disposions de compétences en interne pour mener des benchmarks. En collaboration avec la conformité et les risques opérationnels au sein du groupe, nous avons aussi travaillé à la définition d’un cadre d’utilisation”, avance David Courté. L’usage de ChatGPT n’est pas interdit pour les collaborateurs. Néanmoins, son utilisation est encadrée. En parallèle, sont développés des modèles d’IAGen applicables à des cas d’usages bancaires et IT “sans les travers des modèles dont nous ne maîtrisons pas le dataset d’entraînement.” De l’open source réentraîné sur l’IA générative L’offre de marché s’est considérablement étoffée en un an, intégrant en particulier des modèles plus spécialisés et de taille plus réduite. C’est ainsi le cas de Bloomz, le modèle de fondation open source retenu à l’issue d’un protocole de sélection et sur lequel s’est appuyé Crédit Mutuel Arkéa pour ses développements en IA générative. Ce premier modèle maison est né des travaux du groupe de travail mis en place courant 2023. Trois tailles différentes ont été déclinées pour couvrir les besoins identifiés. Ces modèles, axés texte, ont ensuite été soumis à du fine-tuning afin de les spécialiser. Le groupe a aussi conçu un modèle de vectorisation, essentiel pour la recherche documentaire et l’analyse sémantique. Les deux modèles développés ont été mis à disposition en open source sur Hugging Face. Le recours à des solutions propriétaires et/ou sur étagère n’est pas exclu définitivement pour autant. Le make est ainsi privilégié au buy, qui présente des risques en termes de dépendance technologique, de chiffrement, de souveraineté des données, mais aussi d’impact environnemental. Les grands modèles de langage (LLM) sont en effet très gourmands en ressources. “Nous ne nous fermons pas de porte. Dans le contexte actuel, il nous paraissait plus intéressant de partir sur de l’open source, que nous avons réentraîné et allégé. Le modèle est optimisé pour le français et utilise trois fois moins de paramètres que le modèle d’origine”, précise David Courté. Les LLM, une commodité qui peut coûter cher Des cas d’usage adaptés à son modèle interne, l’entreprise n’en manque pas. Elle en a ainsi identifié une quarantaine au niveau groupe. OpenAI sur Azure pourrait à l’avenir faire son entrée dans le catalogue de LLM. D’ailleurs, un composant d’anonymisation permettrait de désensibiliser les données avant leur transfert à un tel modèle. L’expert de la banque ne veut pas opposer les deux mondes. Il souligne d’ailleurs que le réentraînement, qui a nécessité 4 cartes graphiques Nvidia A100 et 300 heures de calcul, “n’aurait pas été possible sur notre infrastructure on-prem à date.” Du côté de BPCE, l’IA n’est pas non plus une nouveauté. “De nombreux algorithmes, notamment de NLP, sont déjà connectés à la plateforme. Les LLM que nous souhaiterions en interne, plutôt spécialisés bancaire, seraient des modèles open source que nous aimerions entraîner”, commente Florian Caringi. En termes de politique, le groupe a décidé d’interdire l’utilisation de ChatGPT dans sa version grand public, optant pour OpenAI sur un socle privé Microsoft. Cette ouverture, la banque souhaite toutefois l’accompagner de formation des utilisateurs et ne pas la généraliser. L’optique est ainsi d’identifier clairement les ROI et les bonnes applications. Car les usages ont un coût bien réel. A quand un “FinOps LLM” ? Sur les compétences IT, l’IAGen n’introduit pas de bouleversement à ce stade. “Les sachants sur l’IA générative sont les mêmes que sur l’IA traditionnelle. Sur la partie déploiement, les technologies ont changé, mais les grands principes restent les mêmes. De nouveaux métiers apparaissent, comme par exemple celui de prompt engineer, mais pour le moment nous n’avons pas modifié l’organisation des équipes”, réagit David Courté. Christophe Auffray big dataintelligence artificielle Besoin d’informations complémentaires ? Contactez le service d’études à la demande de mind À lire Comment Société Générale gère les coûts et la culture du cloud Le Crédit Mutuel Arkéa publie en open source un modèle d’IA générative Comment Alteryx a aidé la Caisse d’Épargne Hauts de France à prendre en main ses données Comment Quinten a aidé la Caisse d’Epargne Rhône-Alpes à utiliser le big data pour améliorer sa relation client