FastAPI et exposition de services IA
9 projets "data science" sur 10 ne finissent pas en production. Une des raisons est la difficulté ainsi que le manque de normes pour passer d'un notebook à un produit fonctionnel réellement utile. Dans ce tuto nous allons voir, à travers un cas simple, comment utiliser fastAPI pour créer une API permettant d'exposer des services IA, qui pourra ensuite être requêtée depuis n'importe quelle brique logicielle, en HTTP. Plus précisément, nous allons ici récupérer des données d'utilisations d'un logiciel présent sur un parc de machines, stockées dans elasticsearch, que nous allons raffiner afin d'en extraire des sessions (clustering selon l'axe du temps uniquement).
Erreurs et manipulations en temps d'épidémie
Le sujet polarise énormément, je vais donc essayer de m'en tenir au fond pour tenter d'y voir plus clair parmi plusieurs erreurs ou manipulations que j'ai pu voir ces derniers temps. En particulier, un article a récemment été publié sur le blog de mediapart (il n'engage donc pas la rédaction). Il a été rédigé par Laurent Mucchielli, directeur de recherche au CRNS en sociologie, qui s'exprime donc en dehors de son domaine de compétence. D'autres auteurs, visiblement issus du monde scientifique et de la recherche (en pharmacie, médecine, informatique), ont co-signé l'article. A première vue, on peut donc se dire qu'on va avoir à faire à de la vraie connaissance scientifique. Voyons plus en détail.
Clustering: présentation de HDBSCAN
Le clustering est une tâche qui consiste à automatiquement grouper des objets similaires. On cherche à minimiser la distance inter-groupement et à maximiser la distance entre les groupements (les definitions varient légèrement selon les papiers cependant). Les algorithmes de clustering sont très utiles pour faire de l'analyse de données exploratoire, c'est à dire pour étudier un dataset et le faire parler sans connaissance à priori dessus.
Analyse propagation COVID-19 au 14/03/2020
J'ai voulu analyser la propagation du COVID-19 en modélisant le phénomène avec une simple loi exponentielle. Le nombre de personnes atteintes est probablement d'un facteur 1000 au dessus du nombre de cas diagnostiqués.
Applied Data Science: Subgroup Discovery on Mushrooms
My last publication was on Subgroup Discovery for Sequences. However, in Data Science community, a lot of people are not aware of what "Subgroup Discovery" or "Pattern Mining" is. So let's have a quick pratical example on how to use it in a practical exemple: knowing if Mushrooms are poisonous.
TDD en python pour débutants
J'ai fait une activité de découverte du Test-Driven Development. Ca servira peut-être à d'autres personnes, notamment des profs pour le nouveau programme d'informatique au Lycée, donc je le met en accès libre ici.
SAX: Piecewise Aggregate Approximation
We have a series of n numbers that we want to divide into w slots. We want to compute the mean of each slot, how do we proceed when n is not divisible by w ? This is called a Piecewise Aggregate Approximation (PAA).
L'énigme des deux enfants
Je suis tombé sur l'énigme des deux enfants, proposé par science4all.