Novartis unifie ses pratiques en matière de données et d’analyse

Suite à la fusion de Ciba-Geiga et Sandoz, Novartis est un poids lourd de l’industrie pharmaceutique. En 2021, le groupe employant 110 000 salariés dans le monde a réalisé un chiffre d’affaires de 51 milliards de dollars. Il a noté qu’il avait dépensé un peu plus de 9 milliards de dollars en recherche et développement.

Recherche de médicaments, essais cliniques, production, logistique… Toutes ces activités chez Novartis génèrent des données. Beaucoup de données.

Dans le groupe IS, les données dédiées à la recherche et au développement occupent à elles seules plus de 20 pétaoctets d’espace de stockage.

Cette réalité n’est pas nouvelle. Et le groupe continue de développer son infrastructure.

De grands projets à fédérer

Depuis 2015, la société a commencé à construire une plateforme d’analyse dédiée à ses essais cliniques. En 2016, elle lance le programme Nerve Live. Il s’agit d’un « centre de commandement » dédié au recrutement de patients inscrits dans environ 500 essais cliniques par an. Il comprend, entre autres, le module SENSE.

C’est une « tour de contrôle » qui renseigne sur l’état des essais cliniques et permet d’identifier les problèmes et d’éviter les risques de dépassement de budget ou de retard. D’autres outils analytiques avancés permettent de gérer les ressources humaines, de simuler les résultats d’un essai ou encore de gérer l’approvisionnement en traitements nécessaires à son déroulement.

” [Ce sont] une défense principale qui nous a permis de reporter et d’atténuer le risque pour nos essais cliniques pendant la pandémie mondiale, avec un impact limité sur nos opérations et nos calendriers », a déclaré le groupe sur son site Internet.

En 2018, cette plateforme reposait sur un lac de données déployé en interne. C’était avant que Novartis ne développe l’architecture hybride. Nerve Live s’appuie désormais sur des serveurs locaux pour recevoir des données connectées à un cloud privé.

Après cela, Novartis a développé le programme data42, une plateforme conçue pour analyser et examiner les données historiques de ses essais cliniques. Celui-ci repose sur une architecture combinant des clusters HPC avec des instances AWS.

En février 2022, les données42 étaient utilisées par environ 700 chercheurs dans trois entités de Novartis. Plus d’un pétaoctet de données provenant de plus de 3 000 systèmes sources y ont été reçus. La plateforme rassemble pas moins de trois mille essais cliniques impliquant environ 900 000 patients.

En 2021, Novartis, en partenariat avec Microsoft, a déployé une suite de science des données pour étudier les formules utilisées lors des premières étapes de fabrication de traitements expérimentaux.

Cette utilisation massive des données ne se limite pas à la recherche. Depuis 2015, les historiens et une vingtaine d’ERP des usines du groupe remontent leurs données sur le système local Hadoop.

Novartis a constaté que son système HDFS ne prenait pas bien en charge la mise à l’échelle. En 2019, il a donc décidé de migrer ses données vers les instances Amazon S3 et EBS. Depuis lors, Novartis combine les données historiques de ses usines avec les données des capteurs IoT équipés du service AWS IoT Greengrass. Les données industrielles sont introduites dans la plateforme d’analyse en temps réel SpotOn, qui sera déployée sur 18 sites de production en 2021.

En Chine, Novartis déploie une application appelée AI Nurse en collaboration avec Tencent. Il traite du pronostic et du suivi des maladies cardiovasculaires. Plus de 5 000 professionnels de santé l’utilisent pour accompagner 300 000 patients dans 1 000 hôpitaux.

La Formule 1, une plateforme pour 2000 data scientists

Novartis ne voulait pas que ces initiatives restent isolées. En 2019, le groupe a lancé le programme F1 pour la Formule 1.

Le groupe pharmaceutique a alors l’idée de créer une plateforme mondiale qui connecterait toutes les données de l’entreprise à des fins analytiques. Selon Loïc Giraud, Global Head of Digital Delivery chez Novartis, le dispositif intègre aujourd’hui “la quasi-totalité des données internes de l’entreprise”.

“Nous disposons d’une plate-forme d’analyse mondiale à laquelle nous connectons plus de 80 sources de données majeures.”

Loïc GiraudResponsable mondial de la livraison numérique, Novartis

“Nous avons une plate-forme d’analyse mondiale que nous connectons à plus de 80 principales sources de données”, déclare-t-il. “Il est utilisé pour la recherche, les essais cliniques, la fabrication – qui comprend la production, la logistique, les ventes et le marketing – ainsi que les fonctions support : achats et gestion des ressources humaines”.

Étant donné que les processus de l’entreprise, de la recherche à la commercialisation des médicaments, sont interconnectés, une configuration d’architecture modulaire a été convenue. Il devait accueillir les projets des 2 000 data scientists du groupe.

“La plateforme est une architecture multi-cloud et multi-produits”, précise Loïc Giraud. Il est déployé dans plusieurs régions cloud AWS et Azure en Europe, aux États-Unis et en Chine. Selon une offre d’emploi du groupe publiée en février 2022, Novartis augmenterait son empreinte sur AWS de 200 % et de 1 500 % sur Microsoft Azure.

Cette plateforme est divisée en trois ensembles : il y a une “zone d’atterrissage” où les données et ses modèles sont reçus avant d’être harmonisés, unifiés et intégrés dans le MDM. Les données sont donc soumises aux règles commerciales de Novartis.

Les données peuvent être transférées dans un espace dédié au “raffinement”, c’est-à-dire au traitement des données et à l’analyse prédictive et prescriptive. Enfin, ces données préparées ou analysées sont transférées vers des applications de BI, d’IA ou de machine learning.

Une « place de marché » transversale permet aux entreprises, et notamment aux data scientists, de rechercher des ensembles de données, des ressources ou tout autre actif auquel elles ont accès. La place de marché joue le rôle d’une solution de gestion des données à l’échelle du groupe et intègre des capacités de gestion des données, de catalogage, de contrôle de la qualité et d’exploration de données.

L’objectif est de concevoir des ensembles de données réutilisables qui peuvent être croisés pour convenir à différents cas d’utilisation. Aujourd’hui, plus de 1 500 actifs sont disponibles sur la plateforme.

De même, l’équipe DevSecOps est responsable du développement et du maintien de la plateforme dans un état opérationnel. L’accès aux données et le provisionnement de l’infrastructure ont été largement automatisés.

Après un premier lancement en production au troisième trimestre 2020, la plateforme héberge désormais plus de 300 cas d’usage. « Les besoins internes sont exponentiels, précise Loïc Giraud.

Comment Novartis parie sur Snowflake

L’un des cas d’usage concerne plus spécifiquement les activités commerciales américaines du groupe ciblant les pharmacies et les médecins. Ralenties par un environnement SI morose et vieillissant, les équipes ont dû déployer des efforts importants pour lancer et suivre de nouvelles campagnes d’information. Les outils d’analyse n’étaient plus adaptés, tandis que les lancements de nouveaux médicaments devenaient de plus en plus difficiles à prévoir.

C’était l’un des premiers cas d’usage envisagés lors du lancement de l’initiative Formule 1 fin 2019. L’apparition de la pandémie de COVID-19 a bouleversé les habitudes de ses vendeurs, habitués à rencontrer les directeurs de pharmacie et les médecins. Les processus commerciaux doivent évoluer pour continuer à informer les professionnels de la santé aux États-Unis. L’un des objectifs était d’améliorer la segmentation de ces populations afin d’affiner les campagnes d’information.

“Le lancement de l’échange de données a changé beaucoup de choses pour nous.”

Loïc GiraudResponsable mondial de la livraison numérique, Novartis

La même année, Snowflake a annoncé le lancement de sa plateforme de partage de données, Data Exchange. C’est l’un des arguments qui a finalement convaincu les gestionnaires de plateformes de choisir un entrepôt de données multi-cloud.

“Le lancement de l’échange de données a changé beaucoup de choses pour nous”, confirme Loïc Giraud.

En plus des efforts de marketing pour accroître la notoriété des médicaments de Novartis, cette capacité d’échange de données a élargi les opportunités commerciales et accéléré un certain nombre de processus, de la recherche à la commercialisation des molécules.

Novartis a donc revu la manière dont il accède aux données externes de partenaires comme IQVIA et Symphony Health. “Nous avons été l’un des premiers acteurs de Big Pharma à vraiment miser sur le système de partage de données Snowflake”, a déclaré Ed Scura, responsable de l’architecture de solutions chez Novartis, lors d’une session au Snowflake Summit 2022. où il nous fallait auparavant plusieurs semaines pour récupérer les données. , maintenant cela ne prend que quelques jours.”

En matière d’analyse, Novartis souhaitait que ses équipes aient une expérience intégrée. Ça tombe bien : le système au cœur de Data Exchange permet de partager des jeux de données avec un simple lien URL. Il fallait aussi que la réunion ait la qualité des données provenant de centaines de flux. “Nous avons mis en place des centaines de contrôles de qualité avant même que les données n’arrivent entre les mains des data scientists et des analystes”, explique Ed Scura. Pour cela, la plateforme en charge du programme F1 a combiné un framework développé en interne, des jobs Matilion ETL et Apache Spark fourni par Databricks.

Les ateliers analytiques sont formés par une combinaison d’Amazon SageMaker, Dataiku et R Maker, entre autres.

Les entreprises peuvent accéder à certaines analyses via les applications Qlik Sense. « Nous sommes le plus gros consommateur de Qlik Sense. Nous avons 60 000 utilisateurs et plus de 500 applications Qlik », informe Loïc Giraud.

Il n’est pas rare de voir des plateformes d’analyse qui combinent des sources de données internes et externes. De plus, Novartis a déployé 300 flux de données – à la fois des flux ETL Matillion et des travaux Spark sur Databricks pour alimenter son entrepôt de données Snowflake. Ces flux sont connectés à une base de données orientée graphes – AWS Neptune – afin de les amener sur le marché intérieur.

Le cas d’utilisation à lui seul implique un pétaoctet de niveau de données mis à la disposition de plus de 1 000 utilisateurs aux États-Unis.

Selon Loïc Giraud, un autre critère de sélection qui a motivé le déploiement de Snowflake est la performance. Le groupe pharmaceutique a pu tester Snowflake en 2017.

Après avoir migré ses données de Hadoop vers AWS, Novartis s’est rendu compte qu’Amazon RedShift ne répondait pas aux besoins de traitement de la rémunération de sa force de vente. “Cela a pris beaucoup de temps. Les tests que nous avons menés avec Snowflake nous ont convaincus : nous n’avions jamais vu ce niveau de performance”, explique Loïc Giraud. L’entrepôt de données cloud a ensuite été élargi pour inclure d’autres cas d’utilisation. “Nous avons commencé par l’analytique, mais nous avons constaté que Snowflake peut être utilisé à tous les niveaux », ajoute-t-il.

Nouveaux cas d’utilisation en développement

Chez Novartis, Snowflake devient ainsi la place de marché privilégiée pour l’échange de données. L’entrepôt est l’une des couches permettant d’agréger les données nécessaires à la force de vente, à la R&D et au maintien des politiques RSE, mais il pourrait également supporter de nouveaux cas d’usage.

En effet, Loïc Giraud salue l’arrivée des tables hybrides, un mécanisme introduit par Snowflake pour traiter les transactions depuis un entrepôt de données. De même, la prise en charge récente des données non structurées, du langage de programmation Python et d’Apache Iceberg pourrait accroître l’utilisation de cette technologie.

Novartis poursuit ainsi le déploiement de Snowflake dans la région EMEA et souhaite que le fournisseur renforce sa présence en Chine.

Parallèlement, le groupe pharmaceutique explore d’autres technologies, dont les jumeaux numériques et la blockchain.

Novartis est membre du consortium européen PharmaLedger. L’organisation développe une blockchain conçue pour le partage, la transparence et l’intégrité des données de la chaîne d’approvisionnement, des essais cliniques et de santé.

Leave a Comment