Génération de Données Synthétiques Corrélées

Juste Raimbault

Résumé

L'utilisation de données synthétiques, au sens de populations statistiques d'individus générées aléatoirement sous la contrainte de reproduire certaines caractéristiques du système étudié, est une pratique méthodologique largement répandue dans de nombreuses disciplines, et particulièrement pour des problématiques liées aux systèmes complexes , telles que par exemple l'évaluation thérapeutique [Abadie et al., 2010], la géographie [Moeckel et al., 2003], ou l'apprentissage statistique [Bolón-Canedo et al., 2013]. Si le premier ordre est bien maitrisé, il n'a à notre connaissance pas été proposé de méthode systématique permettant un contrôle au second ordre, c'est à dire où la structure de correlation estimée sur les données générées est maitrisée. Nous proposons une telle méthode ainsi que son application à deux exemples de systèmes complexes dans des domaines relativement éloignés. Soit un ensemble de processus stochastiques (l'index pouvant être le temps ou l'espace par exemple). On se propose, à partir d'un jeu de réalisations X, de générer une population statistique X' telle que d'une part un certain critère de proximité aux données est vérifié, i.e. étant donné une précision ε et un indicateur f ,||f (X) − f (X') < ε||, et d'autre part le niveau de correlation est controlé, i.e. étant donné une matrice fixant une structure de covariance R, Var (X') = R, où la matrice de variance/covariance est estimée sur la population synthétique. Un premier domaine d'application proposé pour notre méthode est celui des séries temporelles financières, signaux typiques de systèmes complexes hétérogènes et multi-scalaires [Mantegna et al., 2000] et pour lesquels les corrélations ont fait l'objet d'abondants travaux (voir matrices aléatoires [Bouchaud and Potters, 2009], analyse de réseaux [Tumminello et al., 2005]). Considérons un réseau d'actifs (X i (t)) 1≤i≤N échantillonés à haute fréquence (typiquement 1s), vus comme la superposition de signaux à des multiples échelles temporelles, sur lesquels est appliqué un modèle de prédiction de tendance à une échelle temporelle donnée, représenté formellement comme un estimateur dont l'objectif est la minimisation de l'erreur sur la tendance réelle. Dans le cas d'estimateurs auto-regressifs multivariés, la performance dépendra entre autre des correlations respectives entre actifs et on peut alors l'estimer en appliquant la méthode. On assume une dynamique de Black-Scholes pour les actifs : dX = σ · dW avec W processus de Wiener. Il est alors aisé de générer X' tel que Var X' = ΣR (Σ variance estimée et R matrice de corrélation fixée), par la simulation de processus de Wiener au niveau de corrélation fixé et tel que X(ω<ω0)= X'(ω<ω0) (critère de proximité au données : les composantes à plus basse fréquence sont identiques). La méthode est testée sur un exemple de deux actifs du marché des devises (EUR/USD et EUR/GBP), sur la période de l'année 2014, permettant d'obtenir un bruit sur les corrélations finales négligeable. Le test sur une dimension plus grande doit encore être implémenté, ainsi que l'application à l'étude de la performance de modèle prédictif. En géographie, l'utilisation de données synthétiques est plutôt axée vers l'utilisation de population synthétiques au sein de modèles agents (mobilité, modèles LUTI) [Pritchard and Miller, 2009]. Il a récemment été proposé de contrôler systématiquement les effets de la configuration spatiale sur le comportement de modèles de simulation spatialisés [Cottineau et al., 2015b], méthodologie pouvant être interprétée comme un contrôle par données statistiques spatiales. Dans notre cas, nous proposons de générer des systèmes de villes représentés par une densité spatiale de population d(x) et la donnée d'un réseau de transport n(x). L'utilisation d'un modèle D type aggrégation-diffusion [Batty, 2006] permet de générer une distribution discrete de densité. Le modèle est calibré pour des objectifs morphologiques M (entropie, hiérarchie, autocorrélation, densité) contre les valeurs calculées sur l'ensemble des grilles de taille 50km extraites de la grille européenne de densité [EUROSTAT, 2014]. D’autre part, on est ca- pable de générer par un modèle N un réseau de transport planaire à une échelle équivalente, étant donné une distribution de densité. On distribue un nombre fixé de noeuds de manière aléatoire en suivant la loi de probabilité spatiale donnée par les valeurs de densité, puis un algorithme déterministe de connexification permet d’obtenir un réseau arborescent. Le réseau est ensuite étendu par la création de boucles locales dans un rayon de voisinage ainsi que de raccourcis à une plus grande échelle, aléatoirement selon un processus de rupture des potentiels gravitaires. A densité fixée, les premières exploration de l’espace des paramètres du modèle de réseau synthétique suggèrent une assez bonne flexibilité sur des indicateurs globaux G (diamètre, longueur cumulée, centralité moyenne, degré moyen). L’exploration systématique via le logiciel OpenMole [Reuillon et al., 2013] par calcul intensif est un travail en cours, ainsi que la calibration contre les mesures réelles calculées sur l’ensemble de l’Europe sur des zones identiques au modèle de densité, via les données de réseau routier d’OpenStreetMap. La connaissance très fine ainsi obtenue du comportement de N (distribution statistiques sur une grille fine de l’espace des paramètres à trois dimensions), devrait permettre, étant donné une population de configuration de densités D, de déterminer via N<−1> une population de réseau N telle que Cov[M,G] a une structure fixée (via la détermination de la valeur des paramètres à utiliser pour chaque individu de D ̃). On pourra éventuellement appliquer des algorithmes plus fins d’exploration pour atteindre des configurations exceptionnelles réalisant un niveau de corrélation voulu [Chérel et al., 2015]. Les indicateurs globaux devraient ainsi être corrélés à un niveau contrôlé, tandis que les densités et réseaux restent cohérents dans l’espace de par la forme du réseau, conditionnelle à la distribution de densité. Les applications géographiques potentielles de cette implémentation de la méthode incluent le contrôle statistique de l’effet des corrélations entre ville et réseaux sur des modèles de simulation spatiaux par exemple. On a ainsi proposé une méthode abstraite de génération de données synthétiques corrélées à un niveau contrôlé. Son implémentation partielle dans deux domaines très différents montre sa flexibilité et l’éventail des applications potentielles. De manière générale, il est essentiel de généraliser de telles pratiques de validation systématique de modèles par étude statistique, en particulier pour les modèles agents pour lesquels la question de la validation reste encore relativement ouverte.

Génération de Données Synthétiques Corrélées

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager