J'aide ceux qui se forment à la #datascience, au #machinelearning, et à l'#ia. Pour cela, j'écris ici des threads, et des articles sur mon blog (très bientôt)
Hello,
pour vous y retrouver plus facilement, j'ai rangé ici les Tweets qui donnent accès aux différents threads publiés.
Au programme : tout plein de choses sur le #MachineLearning, la #data, la #datascience, l'#IA et la programmation #Python.
Merci pour vos Like ou vos RT !
Un thread de @svpino qui décrit comment XGboost gère les valeurs manquantes
A retenir : les missing values sont gérées et il n'est pas nécessaire de les remplacer par une valeur par défaut (moyenne par ex)
Une vidéo qui explique dans les détails XGBoost
https://t.co/wqdwu1kC1l
You need to do something with missing values.
Or maybe you don't. It depends on the algorithm you are using.
This is crucial for any data scientist or machine learning engineer:
1 of 9
Une excellente vidéo qui montre que la profusion des data combinée avec des algos de plus en plus puissants peuvent faire un cocktail détonnant - voire effrayant
J'attends vos réactions ...
Est ce possible de trouver l’identité d’inconnus dans la rue en quelques minutes à partir des donnés personnelles public qu’ils laissent traîner et de modèles d’#IA ?
Dans la nouvelle vidéo YouTube, je fais cette expérience dans la rue : https://t.co/6AOx54e0EI
(A partager 🙏)
@DFintelligence Excellente vidéo ! Good job !
Le point de départ étant le service payant qui fournit le nom d'une personne à partir d'une photo, il serait intéressant de savoir comment ils collectent les données et quelles sont les mesures à prendre si on ne veut pas faire partie de leur data
Everyone knows they need to replace missing values in their dataset.
Most people, however, miss one critical step.
Here is what you aren't doing and how you can fix it:
1 of 9
Using inplace=True violates one of my Pandas rules: do not use inplace=True
Why not?
🙍 It makes it hard to chain operations
🙍 It makes it hard to read code
🙍 Most inplace operations are not "inplace"
🙍 It will probably be deprecated
@svpino Interesting approach!
Is there something similar for regression and/or traditional data?
Something like adding some noise to create n augmented data to infer. And get the result with the mean of the n outputs for example?
I'm sure you've used data augmentation before.
Most people think of data augmentation as a technique to improve their model during training.
This is true, but they are missing something.
Here's a brilliant approach to improve the predictions of your model:
1 of 9
Ce type d'avancée est EXTRA-ORDINAIRE !
La tech qui rapproche les humains, quelque soit leur langue
Le champ des possibles grâce à l'IA s'agrandit encore ...
"No Language Left Behind."
An open-source language translation system from FAIR capable of translating 200 languages between each other.
50 billion parameters.
The code and models are made available today as part of the Fairseq package.
Github: https://t.co/1m581UAfpo
1/n
How does @Netflix uses #MachineLearning in their products and services 🤖 ?
Netflix uses machine learning algorithms to predict the viewer patterns and understand when there will be general increases and decreases in viewers of spikes in viewing a certain movie or show.
Un de mes algorithmes préférés en #NLP car il est aussi simple qu'il est puissant
Et nous ne serions pas où nous en sommes maintenant en NLP sans ces algos transformant intelligemment les mots en vecteurs
Bonne lecture !
Et n'hésitez pas à partager/liker. Ca encourage !
1. Aujourd'hui on va revoir nos grands classiques en #MachineLearning dans le domaine du #NLP
Nous allons revoir dans le détail comment transformer des mots en vecteurs, grâce à l'algorithme #word2vec#skipGram
Ready?
🔽🔽 Thread
Les INDEX sous #Pandas sont souvent incompris et mal utilisés
Ils sont pourtant d'une grande aide, surtout si on a besoin de performance avec des dataframes volumineux
L'idée principale est qu'ils vous apporteront de la performance s'ils sont UNIQUES
> Illustration
@svpino Good point!
I don't count anymore the # of tutos giving this very very bad advice
Remind me the courses telling that the Coefficient of determination (R2 of Pearson) is necessary between 1 and 0... Make me mad !
Good point!
Cette erreur, on l'a tous faite
Et elle peut avoir des conséquences désastreuses en production !
Donc :
- d'abord on split les données
- et ensuite on fait les transformations des features, pour éviter de polluer le training avec le test set !
Here is what Machine Learning tutorials told you to do:
1. Start by transforming your dataset
2. Then split it (train, validation, and test sets)
3. Finally, build your model
Please, unlearn this process. There's a problem with it:
1 of 11