Snowflake étend la programmabilité pour favoriser la prise en charge de l’IA et du ML et le développement de pipelines de streaming

Chez Snowflake, nous aidons les data scientists, les data engineers et les développeurs d’applications à accélérer et à optimiser la conception dans le Data Cloud. Ainsi, à l’occasion de notre conférence annuelle destinée aux utilisateurs, le Snowflake Summit 2023, nous avons dévoilé de nouvelles fonctionnalités qui étendent encore la programmabilité des données dans Snowflake dans le langage de votre choix, sans compromis en termes de gouvernance.
Cette conférence a été particulièrement marquée par toutes les innovations qui améliorent et étendent les bibliothèques et les environnements d’exécution Snowpark, que les développeurs peuvent utiliser pour déployer et traiter le code non-SQL avec encore plus de facilité et de sécurité. Pour simplifier encore plus le traitement des données avec des UDF Snowpark Python et des procédures stockées, nous avons ajouté la prise en charge de Python 3.9 et 3.10, ainsi que des données non structurées, désormais en public preview. En outre, pour améliorer la sécurité et la gouvernance du code dans Snowflake, nous avons également ajouté des listes blanches et des listes noires granulaires pour les packages Python, en private preview. L’intégration sécurisée avec des API et des points de terminaison est désormais possible avec un accès réseau externe, dès maintenant en private preview. Des fonctionnalités de sécurité sont incluses pour permettre l’accès au réseau uniquement aux emplacements spécifiés par les utilisateurs.
Il ne s’agit là que de quelques-unes des innovations Snowpark uniques de Snowflake, qui continuent d’étendre la portée et les possibilités de programmabilité dans le Data Cloud, afin de permettre à nos clients de :
- Simplifier, accélérer et adapter des flux de travail d’IA/de ML de bout en bout
- Étendre les capacités de streaming
- Améliorer l’observabilité et l’expérience DevOps
Simplifier, accélérer et adapter des flux de travail d’IA/de ML de bout en bout

Le flux de travail d’IA/de ML peut être globalement divisé en trois étapes pour les modèles : le développement, les opérations et la consommation. Ce processus de bout en bout nécessite la collaboration de nombreuses équipes dédiées aux données, à l’ingénierie et aux processus métier, afin de maximiser la valeur des informations extraites par l’IA. Cependant, comme la plupart de ces équipes utilisent différentes technologies et différents langages de programmation, des copies de ces données sont transférées dans des environnements silotés. Par conséquent, la plupart des organisations peinent à systématiser et à adapter l’ensemble de ce flux de travail.
Afin de soutenir un ensemble bien plus vaste de capacités de développement, nous avons lancé Snowpark Container Services (en private preview), pour permettre aux développeurs de déployer, gérer et adapter facilement les modèles en conteneur à l’aide d’une infrastructure sécurisée gérée par Snowflake, proposant des options matérielles configurables (processeurs graphiques, par exemple). Grâce à ce nouvel environnement d’exécution Snowpark, les utilisateurs n’ont plus besoin d’effectuer des opérations complexes pour gérer et maintenir les calculs et les clusters pour les conteneurs, ni d’exposer les données gouvernées à des risques de sécurité en les transférant en dehors de leur compte Snowflake. Le gain de flexibilité ainsi obtenu autour des langages de programmation (p. ex. R) et du matériel (comme les processeurs graphiques) permet d’accélérer le développement et le déploiement d’applications sophistiquées, comme des LLM et des notebooks hébergés via des applications natives Snowflake. Parmi les autres innovations Snowpark pour rationaliser le développement, les opérations et la consommation d’IA/de ML, figurent :
API ML Modeling Snowpark pour accélérer le feature engineering et simplifier l’entraînement de modèles d’IA/de ML
Les API ML Snowpark, qui comprennent l’API ML Modeling (public preview) et l’API ML Operations (private preview), facilitent le développement et le déploiement du ML de bout en bout dans Snowflake. Du point de vue du développement, l’API ML Modeling Snowpark dimensionne le feature engineering et simplifie l’entraînement de modèles dans Snowflake.
L’API ML Modeling Snowpark permet la mise en œuvre du traitement de type Sklearn de manière native sur les données dans Snowflake, sans avoir à créer de procédures stockées et en tirant parti de la parallélisation.
Cette API permet également aux data scientists d’entraîner des modèles avec des API familières directement sur les données dans Snowpark, en utilisant Sklearn et XGBoost de manière native sur les données sans importation via des procédures stockées, afin de fluidifier l’expérience utilisateur.
Snowpark Model Registry pour conserver et gouverner tous les modèles d’IA/de ML de l’entreprise
Après le développement d’un modèle, les data scientists peuvent aussi déployer en toute transparence ce modèle dans Snowflake avec l’API ML Operations Snowpark, qui inclut Snowpark Model Registry (private preview). Cet outil fournit un référentiel unifié pour les modèles de machine learning d’une entreprise, afin de rationaliser et d’adapter les opérations connexes (MLOps).
Ce référentiel permet une publication et une recherche centralisées de modèles, afin de favoriser la collaboration dans le cadre de la transmission des expériences fructueuses réalisées par les data scientists aux ML engineers, en vue de leur déploiement en production en tant que modèles sur l’infrastructure Snowflake.
Streamlit in Snowflake pour concrétiser les données et les modèles sous forme d’applications interactives
Streamlit in Snowflake (prochainement en public preview) permet de concrétiser les données et les modèles ML sous forme d’applications interactives conçues avec Python. Cet outil associe la bibliothèque open-source conviviale et riche en composants de Streamlit pour le développement d’applications avec l’évolutivité, la fiabilité, la sécurité et la gouvernance de la plateforme Snowflake.
Streamlit apporte aux data scientists et aux développeurs Python la possibilité de transformer rapidement des données et des modèles en applications professionnelles interactives.
Des pipelines de streaming simplifiés dans Snowflake
Nous étendons nos capacités de streaming avec les Dynamic Tables (public preview). Les Dynamic Tables simplifient considérablement les pipelines de données en continu, pour transformer à la fois les données de streaming et par lots. Les pipelines de données de streaming deviennent aussi simples que des instructions Create Table as Select (CTAS). En association avec Snowpipe Streaming (prochainement disponible pour tous nos clients), Snowflake élimine les barrières entre les systèmes de streaming et par lots, facilitant plus que jamais les pipelines de streaming.
Une Dynamic Table est une nouvelle table définie comme une requête et qui maintient en permanence le résultat de cette requête sous la forme d’une table. Ces tables peuvent regrouper et agréger des objets provenant de plusieurs sources et mettre à jour les résultats de manière incrémentielle au fur et à mesure que ces sources évoluent. Avec les Dynamic Tables, les clients formulent une requête en précisant la fréquence des mises à jour, puis Snowflake matérialise automatiquement les résultats. Ainsi, le précalcul des données est automatisé, et ne constitue plus une étape manuelle à la charge d’un data engineer.
Amélioration de l’observabilité et de l’expérience des développeurs de bout en bout
Pour faciliter et accélérer la conception d’applications, de pipelines et de modèles de ML de bout en bout, nous nous efforçons de fournir aux développeurs des capacités et des expériences qui leur sont familières, afin de les aider à travailler plus efficacement. Pour ce faire, nous avons lancé lors du Snowflake Summit un ensemble de capacités DevOps et d’observabilité, afin de fournir aux développeurs des outils permettant une conception collaborative, des tests simplifiés, un dépannage plus rapide, des opérations stables et une meilleure productivité globale.
Cet ensemble inclut des fonctionnalités telles que l’intégration Git (private preview), qui assure une intégration facile du code d’application avec git et le flux de travail git. Ainsi, les utilisateurs peuvent consulter, exécuter, modifier et partager des ressources existantes dans un référentiel Git, directement dans Snowflake.
Nous avons également annoncé le lancement en private preview de Snowflake CLI. Snowflake CLI est une interface de ligne de commande open-source, explicitement conçue pour les workloads centrés sur les applications dans Snowflake. Les développeurs peuvent utiliser des commandes simples pour créer, gérer, mettre à jour et afficher des applications exécutées dans Snowflake sur des workloads tels que Streamlit, Native App, Snowpark Containers ou encore Snowpark.
Avec la journalisation et le traçage grâce aux tables d’événements (public preview), vous pouvez explorer les journaux issus de Snowflake et d’ailleurs pour résoudre les problèmes à l’aide du moteur de Snowflake. Ainsi, le code est plus facile à déboguer dans Snowflake.
Toutes ces fonctionnalités se complètent harmonieusement dans le cycle de vie de développement de logiciels et des DevOps dans Snowflake, pour les applications comme pour les données, afin d’offrir aux développeurs des flux de travail plus productifs.
Et maintenant?
Snowflake rapproche l’IA générative des données, en aidant nos clients à exécuter en toute sécurité des LLM sur des données d’entreprise, en fournissant des IU et des fonctions intégrées basées sur l’IA, et bien plus encore. Regardez notre démo du ML au Snowflake Summit pour découvrir son fonctionnement.
En savoir plus:
- Faites vos premiers pas avec le Data Engineering et le ML grâce à Snowpark for Python en suivant ce guide de démarrage rapide.
- Essayez Snowpark dans les feuilles de calcul Snowflake Python (public preview) en suivant ce guide de démarrage rapide.
- Restez au courant des dernières actualités et annonces de Snowflake sur LinkedIn et Twitter.