L’open source pour la modélisation des projets de ML

Le 14 janvier 2025 dans Général, Informatique, Open Source, Tout par Becks Simpson

De l'étude de faisabilité d'un projet de ML à la mise en production, partie 4 : exploiter les ressources existantes

*(Source : ArtemisDiana – stock.adobe.com)*

L’apprentissage automatique (ML) peut apparaître comme un outil compliqué et chronophage pour mener des recherches innovantes in situ, mais en réalité, c’est souvent tout le contraire qui se produit lorsqu’il s’agit de constituer une étude de faisabilité (POC). L’objectif d’une POC est de démontrer rapidement qu’une application ou une idée est réalisable avec le ML. Or, il n’est pas toujours nécessaire de partir de zéro pour cela. Plutôt que d'entraîner le modèle ou de produire quelque chose de complètement nouveau, il est généralement possible d’exploiter des ressources tierces ou open source existantes.

Dans cette série d’articles de blog sur la mise en œuvre de la POC d'un projet de ML, nous avons déjà abordé la traduction des objectifs métier en métriques de ML, la création d’un ensemble de données spécifique au projet et la structuration de l’environnement d’expérimentation. Dans le présent article, nous allons à présent examiner comment ces étapes vont nous aider à développer le modèle de la POC. La révision de la feuille de route initiale du projet nous apprendra comment aborder le développement et en particulier de savoir à quels moments exploiter les nombreuses ressources constamment mises à jour qui sont disponibles dans l’écosystème de ML. Enfin, cet article décrit aussi quelques-uns des principaux outils, progiciels et hubs de modèles pré-entraînés couramment utilisés pour constituer une POC de ML réussie.

Réviser la feuille de route

Pour développer un modèle suffisamment performant pour être considéré comme une POC réussie, il convient d’examiner la feuille de route initiale qui a été élaborée lors de la traduction des objectifs en métriques. Une feuille de route commence généralement par des modèles prêts à l’emploi ou des modèles mis à disposition par l’intermédiaire d’une interface de programmation d’application (API) tierce – tout du moins si le cadre opérationnel le permet. Ensuite, la feuille de route passe à des architectures ou à des modèles pré-entraînés qui peuvent être ajustés (fine-tuning) ou ré-entraînés pour la tâche particulière, avant de terminer par les modèles qui doivent être mis en œuvre à partir de zéro avec des régimes d'entraînement possiblement plus complexes. Heureusement, avec la croissance de l’écosystème du ML, de nombreux outils, ressources, bibliothèques de logiciels et même des articles de recherche open source comprenant des référentiels de code sont désormais disponibles et peuvent être modifiés à chaque étape selon les besoins du projet.

Tirer parti des ressources existantes

Justifier de façon convaincante l’utilisation du ML pour une application particulière ne requiert pas de commencer à partir de zéro, ni même de procéder à l'entraînement d’un modèle de ML si d’autres moyens permettent d’en démontrer la performance. C’est pourquoi il est vivement recommandé d’utiliser dans la mesure du possible des outils existants et des modèles pré-entraînés. Dans tous les domaines du ML (vision par ordinateur, prédiction de séries chronologiques, régression, traitement du langage naturel ou TLN, etc.), divers progiciels et modèles tiers et open source ainsi que plusieurs services payants sont disponibles pour démarrer la POC d'un projet de ML. Toutes ces solutions varient en termes de facilité d’utilisation, d’expertise nécessaire pour les exploiter ou les intégrer, de quantité de données requises et de flexibilité ou de personnalisation pour de nouvelles tâches. En revanche, la plupart d’entre elles seront compatibles avec l’environnement d’expérimentation que vous aurez créé en suivant les étapes précédemment décrites de la constitution d’une POC.

Les options « préfabriquées »

Pour faire simple, plus un outil ou un modèle est « prépackagé », moins il se montrera flexible au moment de le ré-entraîner pour de nouvelles tâches. Cela ne pose toutefois pas de problème majeur dans le cas d’une tâche peu complexe avec peu de paramètres personnalisés ou qui ne nécessite qu’un faible volume de données. Par exemple, les modèles de vision par ordinateur utilisés pour la détection d’objets sont généralement disponibles auprès de fournisseurs de services cloud comme Cloud Vision de Google ou Rekognition d’Amazon Web Services. Si ce type de modèle est censé faire parfaitement l’affaire pour identifier des objets courants comme des produits sur un tapis roulant ou dans un entrepôt, il montrera rapidement ses limites dans des tâches très spécifiques comme la détection de défauts s’il ne dispose pas de davantage de données ou s’il ne peut pas être ajusté, pour autant que les services le permettent.

Généralement entraînés à l’aide de millions de points de données, ces modèles de base sont fournis avec des API, ce qui les rend plus simples d’utilisation tout en offrant de bonnes performances dans une variété de tâches. Ce type de modèles est généralement mis à disposition par des fournisseurs de services cloud (pour les différents domaines du ML comme le TLN ou la vision par ordinateur), mais d’autres entreprises en fournissent également. Par exemple, OpenAI propose de grands modèles de langage (LLM) comme GPT-4 pour le TLN ou Whisper pour la reconnaissance vocale. Grâce à ces outils, l’utilisateur est dispensé de développer une infrastructure pour l'entraînement et d’héberger le modèle pour une utilisation ultérieure. De plus, le fait d’utiliser ces outils permet de s’assurer que l’ensemble de données de la POC contient un volume de données suffisant pour l’exécution de la tâche.

Les options « fait maison »

Si jamais ces types d’outils précompilés et prépackagés ne conviennent pas pour réaliser la POC, s’ils sont trop chers ou si leur utilisation est interdite pour des raisons de confidentialité ou d’utilisation du réseau, d’autres options sont encore envisageables. Ces options peuvent toutefois exiger de l’utilisateur un niveau d’expertise plus élevé, qu’il doive développer une infrastructure ou qu’il dispose d’un plus grand volume de données pour l'entraînement du modèle. Plusieurs grands fournisseurs de logiciels dans l’écosystème du ML proposent des modèles pré-entraînés qui peuvent être téléchargés à partir de hubs open source. Ils s’accompagnent de code supplémentaire permettant de les réutiliser et de les recycler pour différentes tâches.

Hugging Face est l’une de ces plates-formes open source parmi les plus populaires. On y trouve pour tous les domaines des modèles qui peuvent être gratuitement réutilisés, une documentation d’architecture sur le fonctionnement des modèles et des extraits de code montrant comment les utiliser et les modifier. Une autre plate-forme très fréquentée est le TensorFlow Hub de Google, mais nous pouvons aussi citer Meta et Microsoft qui ont elles aussi publié plusieurs modèles open source. En fonction de la taille du modèle choisi et de l’ampleur des modifications qui doivent être apportées, il peut s’avérer nécessaire de le ré-entraîner entièrement, de le former à partir de zéro ou de créer une infrastructure supplémentaire (voire de procéder à une expertise de l’ingénierie de ML). Les utilisateurs ambitieux pourront aussi trouver leur bonheur dans arXiv, une bibliothèque ouverte et fréquemment mise à jour qui compile des articles universitaires consacrés aux nouvelles approches dans le domaine du ML. Ces articles mentionnent souvent les référentiels de code utilisés pour démontrer la reproductibilité de la recherche.

Conclusion

Au moment d’aborder le développement du ML dans le cadre de la constitution d’une POC, il importe de réviser la feuille de route initiale qui a été créée lors des étapes de génération des métriques de ML et des spécifications du projet. Il existe des ressources pour chacune des étapes de cette feuille de route : des modèles tiers faciles à utiliser (mais peut-être moins flexibles ou performants) comme des progiciels plus complexes mais adaptables selon les besoins. Heureusement, l’écosystème du ML est un système mature et il existe aujourd’hui plusieurs logiciels de qualité qui peuvent être facilement déployés et connectés afin de couvrir tous les aspects du cycle de vie du développement du projet de ML, y compris avec des modèles plus récents comme les LLM.

Nous avons jusqu’ici abordé dans cette série d’articles de blog les quatre premières étapes importantes pour réussir un projet de ML, à savoir : établir des objectifs et les traduire en métriques, préparer l’ensemble de données, créer un environnement de développement afin de garantir la fiabilité et, comme nous venons de la voir dans le présent article, développer le modèle de la POC. Continuez à suivre cette série d’articles pour découvrir les étapes suivantes du processus de développement de la POC d'un projet de ML et de mise en production des résultats obtenus. Les articles suivants fourniront les règles importantes à suivre lors du passage de la POC telle qu’elle a été développée au cours de cette étape à une version prête à être mise en production. Vous y trouverez également quelques conseils sur les points à anticiper et à surveiller après le déploiement et plus particulièrement en ce qui concerne la mise à jour du modèle.

« Retour

Becks Simpson

Publications liées

Des voisins qui s’entraident

Amazon Sidewalk est une technologie de réseau sans fil longue portée et à faible bande passante développée par Amazon. Sa raison d’être est l’extension de la connectivité des appareils intelligents au-delà des limites de la maison ou de la propriété où ils sont installés.
Comment les microréseaux pourraient transformer nos systèmes électriques

Dans cet article, nous allons voir de quelle façon les microréseaux s’intègrent dans le paysage des technologies de réseau intelligent, mais nous nous intéresserons aussi à leur capacité à transformer nos systèmes électriques, à intégrer des sources d’énergie renouvelables et à ouvrir la voie à un avenir plus durable. Pour conclure, nous vous livrerons quelques considérations sur la voie à suivre pour voir ces solutions innovantes se généraliser partout dans le monde.
Optimisation des logiciels pour les microprocesseurs ARM multi-cœurs

Optimisation des performances de microprocesseurs ARM.
L’open source pour la modélisation des projets de ML

L’apprentissage automatique (ML) peut apparaître comme un outil compliqué et chronophage pour mener des recherches innovantes in situ, mais en réalité, c’est souvent tout le contraire qui se produit lorsqu’il s’agit de constituer une étude de faisabilité (POC).
Un environnement d'expérimentation robuste pour réussir

Réaliser l'étude de faisabilité (POC, pour « Proof of Concept ») d'un projet d’apprentissage automatique (ML, pour « Machine Learning ») peut ressembler à un processus profondément expérimental et décousu qui réclame davantage d’attention pour sa mise en place que pour assurer sa solidité à long terme.
Adapter Ethernet pour accélérer l'adoption de l'industrie 4.0

Dans les années 70, l'« industrie 3.0 » était le nom du changement de paradigme dans l'industrie manufacturière qui a adopté les technologies de l'information pour stimuler l'automatisation et améliorer la productivité, la précision et la flexibilité. Avec le développement de l'industrie 4.0, l'automatisation à grande échelle de l’industrie grâce aux technologies intelligentes, à la communication de machine à machine (M2M) et à l'apprentissage automatique (machine learning, ML), est devenue réalité.

Tags : IA, Machine Learning

Mouser Blog | France

Le blog officiel de Mouser Electronics

De l'étude de faisabilité d'un projet de ML à la mise en production, partie 4 : exploiter les ressources existantes

Réviser la feuille de route

Tirer parti des ressources existantes

Les options « préfabriquées »

Les options « fait maison »

Conclusion

Recherche de blog

Catégories du blog

Auteurs invités

Tous les auteurs

Articles archivés

Tags des articles

Bureau du Service Client

Société

Ressources

Assistance

Retrouvez-nous sur

Mouser Blog | France

Le blog officiel de Mouser Electronics

De l'étude de faisabilité d'un projet de ML à la mise en production, partie 4 : exploiter les ressources existantes

Réviser la feuille de route

Tirer parti des ressources existantes

Les options « préfabriquées »

Les options « fait maison »

Conclusion

Publications liées

Des voisins qui s’entraident

Comment les microréseaux pourraient transformer nos systèmes électriques

Optimisation des logiciels pour les microprocesseurs ARM multi-cœurs

L’open source pour la modélisation des projets de ML

Un environnement d'expérimentation robuste pour réussir

Adapter Ethernet pour accélérer l'adoption de l'industrie 4.0

Recherche de blog

Catégories du blog

Auteurs invités

Tous les auteurs

Articles archivés

Tags des articles

Bureau du Service Client

Société

Ressources

Assistance

Retrouvez-nous sur