PapAI, une plate-forme française d’apprentissage fondée sur Spark

12/10/2020
logo Datategy

La start-up française Datategy a annoncé il y a quelques jours le lancement de PapAI. nouvelle plate-forme de gestion des données permet aux entreprises de déployer des modèles de prédiction et se fonde sur la technologie Apache Spark pour la parallélisation des calculs.

Développée depuis le mois de mars, PapAI est une collection d’outils qui permettent, à partir d’un besoin spécifique, de constituer des modèles de prédiction à base d’apprentissage automatique (machine learning) alimentés par les données du client, sans que celui-ci n’ait besoin de programmer les algorithmes lui-même. La solution peut être déployée sur site ou dans le nuage.
La valeur ajoutée de PapAI réside dans la simplification du flux de travail, divisé décline en cinq étapes : l’intégration des données, leur harmonisation, leur analyse, le déploiement d’un modèle de prédiction et la visualisation.

Intégration des données

 PapAI peut récupérer différentes sources de données, des fichiers textes, Excel ou CSV aux bases de données entières en passant par des interfaces de programmation (API). Ces dernières peuvent être codées dans tous les langages. Les données sont intégrées dans la plate-forme soit par les data scientists du client, soit par les équipes de Datategy. Une fréquence de rafraîchissement est alors déterminée.

La plateforme réalise une analyse sémantique des données, permettant par exemple de déterminer si une suite de chiffre correspond à des codes postaux, des coordonnées ou des montants financiers. Dès lors, une harmonisation et une détection d’anomalies peuvent être réalisées.

L’analyse des données

La plateforme permet de détecter des corrélations entre les différentes données et d’éliminer les données inutiles pour faciliter le travail de modélisation de la prédiction. C’est là qu’intervient l’usage de Spark, moteur de calcul distribué open source, permettant le traitement en parallèle de quantités énormes de données. PapAI s’appuie ici sur les librairies de parallélisation de traitements de Spark pour réduire drastiquement les temps de calcul.

Déploiement des modèles de prédiction

Le cœur de PapAI est bien ici, dans sa capacité à prototyper des modèles de prédiction sans aucune intervention dans le code. Plusieurs options sont offertes au client : classement, régression, clustering avec différentes familles d’algorithme (réseaux neuronaux et arbre de décision etc.). Chaque modèle peut-être rapidement évalué avec des mécanismes croisés en quelques minutes pour connaître son degré de vitesse et de précision. Là encore, l’open source est à la manœuvre, puisque tous les modèles open source disponibles sont proposés sur la plateforme.

Des grands comptes déjà utilisateurs

L’histoire de Datategy étant liée au secteur de transport, ce sont avant tout des opérateurs du secteur qui sont les premiers utilisateurs de PapAI. On ne s’étonnera pas de voir la SNCF figurer parmi les premiers clients de la plateforme. On trouvera aussi : un consortium constitué de la métropole de Dijon et de plusieurs industriels (Suez, Bouygues…) et Divia, l’opérateur de transport de la ville de Dijon, les aéroports de Dubaï et un tribunal de commerce.

Toujours dans une optique de simplification, une seconde version de PapAI devrait voir le jour au début de l’année 2021 permettant notamment l’accès gratuit aux étudiants dans une version simplifiée.

 

Source : datategy.net

comments powered by Disqus
top