Chaque statisticien d'une chapelle se demandant pourquoi tous ne pensent pas comme lui --- layout: false # Apprentissage automatique / Machine Learning ? .content-box-blue[ Machine Learning (ML) is a research field grounding in computer science that concentrates on induction algorithms and on other algorithms that can be said to ‘learn’ ] .content-box-blue[ "*A computer program is said **to learn from experience** .hlb[E] with respect to some class of **tasks** .hlb[T] and **performance measure** .hlb[P], if its performance at tasks in T, as measured by P, improves with experience E*" Mitchell, 1997 in Bierneat 2015 ] --- layout: false class: inverse center middle text-white .font200[Quelques exemples d'application <br>en environnement] --- # SoilGrids250m <img src="images/article-soilgrids250m.png" width="100%" style="display: block; margin: auto;" /> --- # SoilGrids250m <iframe src="" width="100%" align="center" height="400" scrolling="auto" frameborder="0" allowtransparency allowfullscreen style="border:none;"></iframe> .footnote[<><br><>] --- # SoilGrids250m <img src="images/workflow-soilgrids250m.png" width="70%" style="display: block; margin: auto;" /> .footnote[Fig 5 de Hengl **et al.** 2017] --- # Predictive Soil Mapping with R <iframe src="" width="100%" align="center" height="400" scrolling="auto" frameborder="0" allowtransparency allowfullscreen style="border:none;"></iframe> --- # CarHab2: Cartographie prédictive des Habitats .center[ .content-box-green[ `\(Pr(Y)=f(Relief,Bioclimat,Lithologie)\)` ]] ??? - la différence entre une cartographie *effective* et *prédictive* tient à l'extrapolation d'un modèle à tout un masque géographique sous l'hypothèse d'un groupe de conditions bioclimatiques et biophysiques *NON PERTURBEES* ie *CONSTANTES* - `\(Y\)` = la variable cible - `\(Y\)` peut être un type de végétation ou un biotope - `\(Y\)` a donc un nombre fini d'états = un problème de classification -- .left-column[ .tiny[ - .hlb[T]: classification de types de végétation ou de biotopes - .hlb[P]: % de pixels bien assignés au type - .hlb[E]: apprentissage sur BDD tirée de l'expérience des botanistes des réseaux de CBN & Muséum NHN ]] .right-column[ ![:scale 60%](images/hengl2018RF-fig1.png) ] .footnote[Fig 1 de Hengl **et al.** 2018 [Hen+18]] --- # Ex: séries de végétations du Cher (18) <iframe src="" width="100%" align="center" height="400" scrolling="auto" frameborder="0" allowtransparency allowfullscreen style="border:none;"></iframe> --- # A la recherche d'une carte "*d'erreur*" ## quelle carte compagne ? .left-column[ 42 classes de végétation: un support (votes de l'algorithme) de moins de 60% apparaît dramatique mais un indice de Shannon (degré de confusion entre les classes) de 60% indique une faible confusion. ] .right-column[ ![](images/carhab-cherV4_incetitudes.png) ] --- layout: true # Défis: dériver l'erreur de prédiction ... ## ... aux nouveaux emplacements ... --- .left-column[ ... dans: - .hlb[l'espace] ] .right-column[ ![:scale 60%](images/Roberts2017-fig1-spatial.png) ] --- .left-column[ ... dans: - l'espace - .hlb[le temps] ] .right-column[ ![:scale 60%](images/Roberts2017-fig1-spatial-temporal.png) ] --- .left-column[ ... dans: - l'espace - le temps - .hlb[d'autres structures de dépendence] ] .right-column[ ![:scale 60%](images/Roberts2017-fig1-spatial-temporal-autre.png) ] --- .left-column[ ... dans: - l'espace - le temps - d'autres structures de dépendence - d'autres structures .hlb[hiérarchisées: ex phylogénie] ] .right-column[ ![:scale 60%](images/Roberts2017-fig1.png) .footnote[ Fig1 Roberts et al. [Rob+17] ] ]

blockCV: an
package for generating spatially or environmentally separated folds for k-fold cross-validation of species distribution models [Val+18] ![:scale 70%](images/capture-geocomputation-spatialcv.png) ] --- layout: true # Défis: dériver l'erreur de prédiction ... ## ... côté philo / éthique de la prédiction... .content-box-red[.center[ "* **Cacher** l'incertitude pour éviter une mauvaise utilisation ? ou<br>**la communiquer** pour maximiser l'appropriation des résultats d'expertise?*" [Bez+99] ]] --- .center[ ![:scale 40%](images/risque.png)] ] --- .center[ ![:scale 50%](images/risque-lesautres.png)] ] --- layout: false class: fullscreen, inverse, top, center, text-white background-image: url("images/VisionMachine_dark.jpg.png") background-size: 80% .font200[ ** explicabilité : le compromis<br>entre précision et simplicité / interprétabilité<br>du modèle** ] --- layout: true # Défis: explicabilité / interprétabilité ## Pour quoi faire ?: pourquoi le modèle prédit ce qu'il prédit ?! --- .pull-right[ ![:scale 55%](images/iml.png) ] ??? - Vous pouvez remplacer **Humain** par **Financeur** ou **Décideur** :-) - Si humain = chercheur --- .pull-left[ - pour **.hlb[E/T/P]** où IA **.hlb[<]** Humain, alors: identifier les échecs de la machine ] .pull-right[ ![:scale 55%](images/iml.png) ] --- .pull-left[ - pour **E/T/P** où IA **<** Humain, alors: identifier les échecs de la machine - pour **.hlb[E/T/P]** où IA **.hlb[~]** Humain, alors: faire augmenter la confiance chez l'humain utilisateur ] .pull-right[ ![:scale 55%](images/iml.png) ] --- .pull-left[ - pour **E/T/P** où IA **<** Humain, alors: identifier les échecs de la machine - pour **E/T/P** où IA **~** Humain, alors: faire augmenter la confiance chez l'humain utilisateur - pour **.hlb[E/T/P]** où IA **.hlb[>]** Humain, alors: faire augmenter la confiance chez l'humain utilisateur ] .pull-right[ ![:scale 60%](images/iml.png) ] --- layout: false # Défis: explicabilité / interprétabilité ... ## ... du côté des réseaux de neurones ? .tiny[L'algorithme devient capable de localiser ce qui l'a conduit (feature dans l'image) à assigner l'image à une classe. Il devient possible d'évaluer la confiance à mettre dans l'algorithme s'il est BON et sait montrer comment il a fait [Sel+17]

![:scale 50%](images/capture-selvaraju2017grad_dogcat.png)

![:scale 95%](images/capture-selvaraju2017grad_cavalier.png)

Ca a l'air super mais... HELP !
- traduire ça en paramètres biophysiques et types de végétations ?
- aussi simple pour "convaincre" l'expert botaniste ? Doing so requires providing access not just to vast quantities of data and computational power, but also **increasingly sophisticated analysis techniques**, and **making them easy to use**.*

Zéro occurrence des mots ***fiabilité***, ***incertitude*** dans le papier publié dans **Remote Sensing of Environment** [Gor+17]... Approche Humain est dans la boucle

=> plus d'un humain entre dans la boucle:
- études contributives et participatives
- ludification

.content-box-red[Quelle interface pour les données spatialisées ? Intégration avec les outils géomatiques ?]

### Réflexions en médecine pour coupler ML et Prise de Décision

- A: premier stade : l'humain joue le rôle de l'algorithme
- B: retour à l'utilisateur (modèle très rapide)
- C: collaboration: l'humain modifie l'algorithme durant son exécution

![:scale 80%](images/capture-interactiveML.png) [Hol16] De gauche à droite:
- data
- algorithme
- modèle

# TransAlgo

"*Plateforme scientifique pour le développement de la transparence et de la redevabilité des algorithmes et des données*"

![:scale 70%](images/capture-transalgo.png)

### Recherches sur le site:

consultation le 09/01/20

# TransAlgo

Côté outils
Interfaces de programmation ML
sous
![:scale 25%](images/logo-R.png)

# Interfaces ou meta paquets

\>**500** bibliothèques individuelles pour des tâches de **classification**, **régression** , **clustering** etc...

![:scale 70%](images/outils-bordel.jpg)

![:scale 70%](images/outils-ranges.jpg)

# Unification des tâches quel que soit l'algorithme

- pré-traitement des variables (normalisation, recodage, binarisation, synthèse (ACP)...)
- extraction de variables
- sélection de variables

<img src="images/mlr-feature_selection.png" width="60%" />

<img src="images/mlr-feature_filtering.png" width="60%" />

- pré-traitement des variables (normalisation, recodage, binarisation, synthèse (ACP)...)
- extraction de variables
- sélection de variables
- imputation
- partitionnement des données (validation, test, train)
- exploration des hyper-paramètres

<img src="images/mlr-hyperparameters.png" width="30%" />

- pré-traitement des variables (normalisation, recodage, binarisation, synthèse (ACP)...)
- extraction de variables
- sélection de variables
- imputation
- partitionnement des données (validation, test, train)
- exploration des hyper-paramètres
- entraînement du modèle
- prédiction utilisant un modèle

<img src="images/mlr-training.png" width="30%" />
<img src="images/mlr-predict.png" width="30%" />

- pré-traitement des variables (normalisation, recodage, binarisation, synthèse (ACP)...)
- extraction de variables
- sélection de variables
- imputation
- partitionnement des données (validation, test, train)
- exploration des hyper-paramètres
- entraînement du modèle
- prédiction utilisant un modèle
- mesurer la performance
- ré-échantillonnage
- parallélisation
- benchmarking de modèles
- visualisation (de chacune des étapes précédentes): ex: importance des variables
- ensembling

- pré-traitement des variables (normalisation, recodage, binarisation, synthèse (ACP)...)
- extraction de variables
- sélection de variables
- imputation
- partitionnement des données (validation, test, train)
- exploration des hyper-paramètres
- entraînement du modèle
- prédiction utilisant un modèle
- mesurer la performance
- ré-échantillonnage
- parallélisation
- benchmarking de modèles
- visualisation (de chacune des étapes précédentes): ex: importance des variables
- ensembling

- besoin de standardisation de la syntaxe pour ces opérations
- => "***meta-package***"

# Deux principaux paquets
## `R::caret`

"*The *`caret` *package (**C**lassification **A**nd **RE**gression **T**raining) is a set of functions that attempt to streamline the process for creating predictive models.*"

![:scale 50%](images/book-kuhn.png)

# Deux principaux paquets
## `R::mlr` (et `R::mlr3`)

![:scale 70%](images/mlr3verse.svg)

# D'autres interfaces ~ meta
- `\(h_{2}0\)`
- CORELeaRn
- RWeka (langage Weka)
- SuperLearner
- ...
- et bien sûr dans d'autres langages tel `Python::scikitlearn`

# Des paquets pour l'interprétation des modèles ML...

![:scale 20%](images/logo-dalex.png)
![:scale 20%](images/logo-iml.png)
![:scale 20%](images/logo-lime.png)

# Pour finir
- Les approches dite "*génératives*" pourraient permettre d'échapper à la dichotomie déduction/induction
- ex: celle des "*Modèles Hiérarchiques Bayesiens (MHB)* [qui peuvent] *réconcilier la modélisation statistique avec la modélisation mécaniste*" [Rob+16]
- ex: simulation basée sur les agents
- ex: GAN (DeepL Generative Adversarial Networks)
- tellement d'outils... .hlb[model mining ?] ^^'
- attention à l'encapsulation des algorithmes et de leurs paramètres (cf présentation de POM)
- sous
