MEAPS

Distribution statistique des trajets entre le domicile et le travail

Séminaire lunch de l’OFCE

Maxime Parodi

maxime.parodi@sciencespo.fr

OFCE, Sciences Po Paris

Xavier Timbeau

xavier.timbeau@sciencespo.fr

OFCE, Ecole Urbaine, Sciences Po Paris

lundi 13 mars 2023

Pourquoi MEAPS ?

Modèle Ergodique à Absorption, Priorité et Saturation

Simulations Synthétiques

Estimations

Conclusions

Le modèle à 4 étapes

Dans la modélisation des flux de personnes, par exemple, le modèle à 4 étapes est généralement utilisé.

étape 1 : nombre de trajets en partance des lieux de résidence, nombre de trajets arrivants

étape 2 : distribution entre chaque paire des trajets partant ou arrivant

étape 3 : choix modal

étape 4 : caractéristiques des trajets

Nous nous intéressons ici surtout à l’étape 2.

Le modèle gravitaire

Un modèle couramment utilisé est le modèle gravitaire

\[ T_{i,j} = \frac {N_{hab, i}\times N_{emp, j}} {f(d_{i,j})} \]

avec

\[ f=e^{d/\delta} \]

Mais le modèle gravitaire « écrase » l’information proprement spatiale et marche surtout « de loin ».

Il donne la même valeur à la distance quelque soit la densité du milieu traversé. Or, quand on est isolé, on accepte des distances plus grandes.

Gravitaire versus radiatif

On propose d’utiliser une autre analogie : le modèle radiatif de (Simini et al. 2012) ou des « opportunités intervenantes » de (Stouffer 1940)

Dans cette analogie, au lieu d’avoir des masses qui s’attirent (A et B), le trajet entre A et B est influencé par les Cs que l’on rencontre en chemin.

Analogie physique : une particule est émise d’un point. Elle parcourt l’espace jusqu’à rencontrer des sites d’absorption. A chaque site d’absorption elle peut être absorbée (probabilité \(p\)) ou continuer (probabilité \(1-p\)).

Mais un milieu linéarisé : au lieu d’une particule partant dans une direction quelconque, on classe sur une droite tous les sites d’absorption en fonction de leur distance. Ils seront rencontrés dans cet ordre. Ceci permet de représenter l’influence de la distance, puisque ce qui est près compte plus que ce qui est loin.

Plan de la présentation

Nous proposons un Modèle Ergodique à Absorption, Priorité et Saturation (/mi:ps/)

Le modèle théorique
1. Version simple
2. Priorité et saturation
3. Ergodicité
4. Algorithme
Simulations synthétiques pour en étudier les propriétés
1. une application Shiny
Estimations à partir de MOBPRO à La Rochelle
1. données
2. \(R^2_{KL}\) et quelques autres éléments
3. Apprentissage (ou estimation non paramétrique)
4. Estimations paramétriques
Conclusions

Modèle Ergodique à Absorption, Priorité et Saturation

Pourquoi MEAPS ?

Modèle Ergodique à Absorption, Priorité et Saturation

Simulations Synthétiques

Estimations

Conclusions

Absorption

Pour chaque individu, les emplois sont classés dans l’ordre des distances, chaque emploi a un rang \(r_i(j)\) et une probabilité d’absorption uniforme \(p_a\). La probabilité de dépasser au moins \(j\) s’écrit :

\[ \bar F(j)=(1-p_a)^{r_i(j)} \]

On peut définir une fuite, c’est-à-dire la probabilité de ne pas s’arrêter dans le périmètre d’étude (fini)

\[ p_a = 1-(p_f)^{1/J} \]

La probabilité de s’arrêter en \(j\) peut alors s’écrire :

\[ P_i(j) = (1-p_a)^{r_i(j)-1} \times p_a = {p_f}^{\frac {r_i(j)-1} {J}} \times (1-{p_f}^{1/J}) \]

et ne dépend que des paramètres globaux, la fuite et le nombre d’emplois.

Accessibilité

On définit l’accessibilité \(s_i(d)=\sum _{j/d_{i,j}<d}1\)

On a au premier ordre (\(k\) est le nombre d’emploi en \(c_d\), \(\mu=\frac{-log(p_f)}{J})\) :

\[ P_i(i\in c_d) \approx k\times \mu \times e^{-\mu \times s_i(d)} \]

et donc :

\[ T^{meaps}_{i,j} = \mu \times N_{hab, i}\times N_{emp, j} \times e^{-\mu \times s_i(d)} \]

Si la densité des opportunités (les emplois) est uniforme, on peut calculer \(s_i(d)=r^2/\rho^2\) et (re)trouver une forme « gravitaire » qui dépend de la distance.

\[ T^{meaps}_{i,j} = \mu \times \frac {N_{hab, i}\times N_{emp, j}} { e^{d^2/\rho^2}} \]

Saturation & priorité

L’absorption définit une « demande » qu’il faut confronter à des disponibilités. En l’absence d’un prix nous proposons :

une capacité finie de chaque site

un remplissage progressif

lorsque le site est saturé, il est indisponible pour les suivants

ce qui fonctionne pour un ordre de priorité

Ergodicité

En notant \(\phi_u(i,j)\) la probabilité de disponibilité (\(\phi\) vaut 0 si l’emploi est complètement pris)

\[ P_{u, i}(j) = \lambda_{u,i}.\phi_u(i,j). p_a \prod_{l=1}^{r_i^{-1}(j)-1}(1-\lambda_{u,i}. \phi_u(i,r^{-1}(l)).p_a) \]

\[ \prod_{j=i} ^{J} (1-\lambda_{u,i} \times \phi_u(i,j) \times p_{a})= p_f \]

Pour ne pas dépendre d’un ordre particulier, nous faisons la moyenne sur tous les ordres possibles. Aucun résident n’est privilégié, la moyenne sur tous les ordres possibles donne une solution acceptable.

Il y a \(I!\) ordres possibles ce qui est impossible à traiter.

On prend donc un (petit) échantillon de ces ordres et on conjecture l’ergodicité du modèle : un faible nombre de tirages permettra d’atteindre la moyenne sur tous les ordres.

Intuitivement, chaque individu est localisé aléatoirement, la saturation dépend surtout de la coïncidence d’individus proches d’une opportunité et qui sont donc les premiers servis. Cette coïncidence est rare et donc quelques tirages conduisent à un résultat proche de tous les tirages.

Quelques aspects informatiques

Le modèle n’admet pas de solution fermée. La simulation est incontournable, notamment pour prendre en compte les données riches géographiques (réseaux de transport, localisation des emplois, des individus).

L’algorithme a été implémenté en C++ en utilisant la parallélisation pour le Monte-Carlo avec OpenMP. Avec les optimisations que nous avons réussi à implémenter, pour un problème de la taille de La Rochelle, il faut 20s pour une simulation sur 256 tirages avec 4 threads.

Le code est dans le package R {rmeaps}

github.com/maxime2506/rmeaps

Simulations Synthétiques

Pourquoi MEAPS ?

Modèle Ergodique à Absorption, Priorité et Saturation

Simulations Synthétiques

Estimations

Conclusions

Simulations synthétiques

On génère une distribution aléatoire, avec une répartition spatiale des individus, des emplois, des distances et des rangs. On peut simuler le modèle et l’agréger à une maille choisie.

On peut analyser l’ergodicité ou définir une tension et plein d’autres choses.

Une application interactive

Estimations

Pourquoi MEAPS ?

Modèle Ergodique à Absorption, Priorité et Saturation

Simulations Synthétiques

Estimations

Conclusions

Données à La Rochelle

INSEE (2022), fichier détail du recensement. Donne pour chaque commune de résidence, la commune principale d’activité de chaque résident. On interprète ça comme un flux. 72 communes de résidence, 210 communes d’emploi.
localisation des résidents au carreau 200m (données carroyées de l’INSEE) (5475 carreaux de résidence)
localisation des emplois au carreau 200m (MOBPRO+fichiers fonciers en localisant en fonction des surfaces d’activité par 5 NAF, à proportion des surfaces de chaque commune) (6236 carreaux d’emplois)

Distances

On évalue les distances entre chaque paire de carreau 200m pour 4 modes de transport

\(R^2_{KL}\)

On va comparer des flux entre eux et on aimerait avoir un critère à maximiser pour les ajustements. On utilise l’entropie « relative » de Kullback-Leibler, \(p\) et \(q\) sont deux distributions :

\[ KL(p,q) = \sum_{i}p_i \times log(p_i/q_i) \]

Kolmogorov-Smirnov (KS) est une alternative. Nous préferrons KL à KS parce que KS repose sur le maximum d’écart entre deux distributions et est donc une métrique discontinue. KL pose un problème pour les 0 (que l’on enlève) et n’est pas une distance.

A partir de KL on peut définir un \(R^2_{KL}\) suivant Colin Cameron et Windmeijer (1997) en utilisant la distribution uniforme comme point de référence (analogue à une constante pour un \(R^2\) de régression linéaire) :

\[ R_{KL}^2 = 1 - \frac{KL(p,\hat{q})}{KL(p, q_0)} \]

\(q_0\) est une distribution uniforme et \(KL(p, q_0)\) est l’entropie de \(p\).

Premiers résultats

On estime un modèle gravitaire sur INSEE (2022), avec les temps moyens de trajet agrégés par commune :

\[ log(T_{i,j}) = log(a_i) + log(e_j) - \underset{(7.98)}{0.012} \times t_{i,j} - \underset{(131.7)}{10.02} \ \ \ R^2_{adj} = 2.29\%, 2034\ d.o.f \]

On simule MEAPS sur MOBPRO à la maille commune,
MEAPS à la maille c200m.

Le \(R^2_{KL}\) pour le modèle gravitaire est de 77,8%, Le \(R^2_{KL}\) pour MEAPS c200 est de 88,4%.

Apprentissage ou estimation non paramétrique versus estimation paramétrique

On introduit des modifications de la probabilité d’absorption : \[ \tilde{p}_{abs,ij} = \frac{c_{abs} \times \omicron_{ij}} {1+c_{abs} \times \omicron_{ij}} \]

Si on estime tous les \(\omicron_{ij}\), \(i\) et \(j\) parcourant les communes de résidence et d’emploi, on a un problème de grande dimensionalité. Pas d’optimisation directe possible, on utilise un algorithme approché (à la machine learning).
Un tel algorithme est :

\[ \omicron^k_{ij} = \biggl(\frac{\tilde{c}^k_{abs}}{ c^{mobpro}_{abs}}\biggr)^\beta \times \omicron^{k-1}_{ij} \]
On impose une structure paramétrique de faible dimension (1 ou 2 dans nos exemples) et on peut faire une optimisation numérique. La structure peut relier les \(\omicron_{ij}\) à la distance, au voisinage, etc…

Apprentissage : résultats (1)

	R²_KL	Degrés de liberté	odds estimés
Référence (odds unitiaires)	88.4%	1 752	0
Diagonale (résidence égale emploi)	95.0%	1 681	71
90% des flux cumulés	97.4%	1 027	725
99% des flux cumulés	99.3%	0	1 849
100% des flux cumulés	99.6%	0	2 029

Apprentissage : résultats (2)

Apprentissage : résultats (3)

Apprentissage : résultats (4)

Estimations paramétriques : modèles

Communes diagonales : flux allant d’une commune de résidence vers elle-même pour l’emploi.

\(\omicron_{i \neq j}=1\) et \(\omicron_{ii} = o\).
Communes diagonales et voisines : 1+ une commune est voisine d’une autre si au moins 5% des trajets pondérés par les emplois et les résidents ont une distance kilométrique inférieure à 3km.

\(\omicron_{ii} = o_d\); \(\omicron_{ij\in \mathcal{V}(i)} = o_v\) et \(\omicron_{i, j \neq i, j \notin \mathcal{V}(i)} = 1\).
Un coefficient en deça d’une distance et un paramètre pour cette distance de « bascule ».

\(\omicron_{ij \in d_{i,j} \leq d_c} = o\) et \(\omicron_{ij \in d_{i,j} > d_c} = 1\)

Gravitaire, à la maille c200
Gravitaire, à la maille c200, plus une normalisation par Furness

Algorithme de Furness

\(T_{i,j} = a_i \times b_j \times \frac {N_{hab, i} \times N_{emp, j}} {f(d_{i,j})}\)

\(a_i = \frac{1}{\Sigma_j \frac{ b_j \times N_{emp,j}}{f(d_{i,j})}} \ ;\ \ b_j = \frac{1}{\Sigma_i \frac{a_i \times N_{hab,i}}{f(d_{i,j})}}\)

Estimations paramétriques : résultats

	R_KL²	Degrés de liberté	Paramètres
Référence	88.4%	1 752
1. Commune vers commune	93.0%	1 751	NA
2. Commune vers commune et voisines	93.1%	1 750	o_d≈4.3 o_v≈1.3
3. Distance carreau 200m	94.1%	1 750	d_c≈ 9 min o≈19
4. Gravitaire sans Furness	82.6%	1 961	δ≈20 min
5. Gravitaire avec Furness	90.7%	1 751	δ≈17 min

Estimations paramétriques : résultats (2)

0. MEAPS o=1
1. Diag.
2. Diag+vois.
3. Dc c200m
4. Grav.
5. Grav. avec F.

Distribution le long des distances

Conclusions

Pourquoi MEAPS ?

Modèle Ergodique à Absorption, Priorité et Saturation

Simulations Synthétiques

Estimations

Conclusions

Conclusion (1)

MEAPS dispose de microfondements (analogie radiative) et d’une agrégation explicite et flexible qui peut s’appliquer à plusieurs situations :

d’autres granularités, plusieurs niveaux de maille

d’autres opportunités comme les écoles (en cours), les commerces… en modifiant les processus de recherche ou en enlevant la saturation

Conclusion (2)

MEAPS permet une (bien) meilleure performance empirique que le modèle gravitaire sur MOBPRO à l’échelle du « bassin de vie » et pour les mobilités quotidiennes.

On peut interpréter le biais intra-communal, le comparer entre territoires ou dans le temps.

On pourrait utiliser la variance des territoires, ou la variance temporelle, ou des chocs exogènes pour en faire une analyse causale.

On pourrait utiliser des informations plus fines (traces numériques, relevés de trafic routier, enquêtes locales) pour un calage plus fin, à intégrer éventuellement avec la maille communale.

Conclusion (3)

On peut produire :

un chiffre agrégé plus fiable que les estimations habituellement produites. L’évaluation sur MOBPRO a une résolution spatiale trop faible, on peut gagner en précision grâce à l’interpolation et l’utilisation d’une information sur la géographie (localisation des résidents, des emplois, réseaux).

une intrapolation (robuste) en se calant sur les données à la maille commune et en utilisant l’information géographique (carte de CO₂ , ville du 1/4 d’heure par exemple).

on peut dériver des indicateurs comme la tension sur les emplois, localisés et agrégés à une maille quelconque.

Références

Bibliographie

Colin Cameron, A., et Frank A. G. Windmeijer. 1997. « An R-Squared Measure of Goodness of Fit for Some Common Nonlinear Regression Models ». Journal of Econometrics 77 (2): 329‑42. https://doi.org/10.1016/s0304-4076(96)01818-0.

INSEE. 2022. « Mobilités professionnelles en 2019 : déplacements domicile - lieu de travail Recensement de la population - Base flux de mobilité ». INSEE. https://www.insee.fr/fr/statistiques/6454112.

Simini, Filippo, Marta C. González, Amos Maritan, et Albert-László Barabási. 2012. « A Universal Model for Mobility and Migration Patterns ». Nature 484 (7392): 96‑100. https://doi.org/10.1038/nature10856.

Stouffer, Samuel A. 1940. « Intervening Opportunities: A Theory Relating Mobility and Distance ». American Sociological Review 5 (6): 845. https://doi.org/10.2307/2084520.

Liens

document : https://xtimbeau.github.io/meaps

code : https://github.com/xtimbeau/meaps

shiny: https://ofce.shinyapps.io/rmeaps

package : devtools::install_github("maxime2506/rmeaps")

MEAPS

Pourquoi MEAPS ?

Le modèle à 4 étapes

Le modèle gravitaire

Gravitaire versus radiatif

Plan de la présentation

Modèle Ergodique à Absorption, Priorité et Saturation

Absorption

Accessibilité

Saturation & priorité

Ergodicité

Quelques aspects informatiques

Simulations Synthétiques

Simulations synthétiques

Une application interactive

Estimations

Données à La Rochelle

Distances

Accessibilité

\(R^2_{KL}\)

Premiers résultats

Apprentissage ou estimation non paramétrique versus estimation paramétrique

Apprentissage : résultats (1)

Apprentissage : résultats (2)

Apprentissage : résultats (3)

Apprentissage : résultats (4)

Estimations paramétriques : modèles

Estimations paramétriques : résultats

Estimations paramétriques : résultats (2)

Distribution le long des distances

Conclusions

Conclusion (1)

Conclusion (2)

Conclusion (3)

Références

Bibliographie

Liens

Pourquoi MEAPS ?

Apprentissage : résultats (1)

Apprentissage : résultats (2)

Apprentissage : résultats (3)

Apprentissage : résultats (4)

Estimations paramétriques : modèles

Estimations paramétriques : résultats

Estimations paramétriques : résultats (2)