Moyennes mobiles Moyennes mobiles Avec les ensembles de données classiques, la valeur moyenne est souvent la première et l'une des statistiques les plus utiles à calculer. Lorsque les données sont sous la forme d'une série chronologique, la moyenne en série est une mesure utile, mais ne reflète pas la nature dynamique des données. Les valeurs moyennes calculées sur des périodes court-circuitées, soit précédant la période courante, soit centrées sur la période courante, sont souvent plus utiles. Parce que ces valeurs moyennes vont varier, ou se déplacer, à mesure que la période courante se déplace du temps t 2, t 3, etc., on les appelle des moyennes mobiles (Mas). Une moyenne mobile simple est (typiquement) la moyenne non pondérée de k valeurs antérieures. Une moyenne mobile exponentiellement pondérée est essentiellement la même qu'une moyenne mobile simple, mais avec des contributions à la moyenne pondérée par leur proximité à l'heure actuelle. Parce qu'il n'y a pas une seule, mais toute une série de moyennes mobiles pour une série donnée, l'ensemble de Mas peut être tracé sur des graphes, analysé comme une série et utilisé dans la modélisation et la prévision. Une gamme de modèles peut être construite à l'aide de moyennes mobiles, et ce sont connus sous le nom de modèles MA. Si ces modèles sont combinés avec des modèles autorégressifs (AR), les modèles composites résultants sont connus sous le nom de modèles ARMA ou ARIMA (le I est pour intégré). Moyennes mobiles simples Comme une série temporelle peut être considérée comme un ensemble de valeurs, t 1,2,3,4, n la moyenne de ces valeurs peut être calculée. Si l'on suppose que n est assez grand, et on choisit un entier k qui est beaucoup plus petit que n. Nous pouvons calculer un ensemble de moyennes de bloc, ou moyennes mobiles simples (d'ordre k): Chaque mesure représente la moyenne des valeurs de données sur un intervalle de k observations. Notons que la première MA possible d'ordre k gt0 est celle de t k. De façon plus générale, nous pouvons supprimer l'indice supplémentaire dans les expressions ci-dessus et écrire: Ceci indique que la moyenne estimée au temps t est la moyenne simple de la valeur observée au temps t et aux précédentes étapes k -1. Si des poids sont appliqués qui diminuent la contribution des observations qui sont plus éloignées dans le temps, la moyenne mobile est dite exponentiellement lissée. Les moyennes mobiles sont souvent utilisées comme une forme de prévision, la valeur estimée pour une série au temps t 1, S t1. Est prise comme MA pour la période allant jusqu'au temps t compris. par exemple. L'estimation d'aujourd'hui est basée sur une moyenne des valeurs antérieures enregistrées jusqu'à et y compris hier (pour les données quotidiennes). Les moyennes mobiles simples peuvent être considérées comme une forme de lissage. Dans l'exemple illustré ci-dessous, l'ensemble de données sur la pollution atmosphérique présenté dans l'introduction à ce sujet a été complété par une ligne de 7 jours de moyenne mobile (MA), affichée ici en rouge. Comme on peut le voir, la ligne MA permet de lisser les pics et les creux dans les données et peut être très utile pour identifier les tendances. La formule de calcul de référence standard signifie que les premiers k -1 points de données n'ont pas de valeur MA, mais ensuite les calculs s'étendent jusqu'au point de données final de la série. Une des raisons de calculer des moyennes mobiles simples de la manière décrite est qu'il permet de calculer les valeurs pour tous les intervalles de temps entre le temps tk et le temps présent, et Comme une nouvelle mesure est obtenue pour le temps t 1, la MA pour le temps t 1 peut être ajoutée à l'ensemble déjà calculé. Cela fournit une procédure simple pour les jeux de données dynamiques. Cependant, cette approche présente certains problèmes. Il est raisonnable de prétendre que la valeur moyenne au cours des 3 dernières périodes, par exemple, devrait être située à l'instant t -1, et non pas au temps t. Et pour une MA sur un nombre pair de périodes, il devrait être situé au point médian entre deux intervalles de temps. Une solution à cette question est d'utiliser des calculs de MA centrés, dans lesquels la MA à l'instant t est la moyenne d'un ensemble symétrique de valeurs autour de t. Malgré ses avantages évidents, cette approche n'est généralement pas utilisée car elle exige que des données soient disponibles pour des événements futurs, ce qui peut ne pas être le cas. Dans les cas où l'analyse est entièrement d'une série existante, l'utilisation de Mas centrée peut être préférable. Les moyennes mobiles simples peuvent être considérées comme une forme de lissage, en supprimant certaines composantes haute fréquence d'une série chronologique et en mettant en évidence (mais non en supprimant) les tendances d'une manière similaire à la notion générale de filtrage numérique. En effet, les moyennes mobiles sont une forme de filtre linéaire. Il est possible d'appliquer un calcul de la moyenne mobile à une série qui a déjà été lissée, c'est-à-dire lisser ou filtrer une série déjà lissée. Par exemple, avec une moyenne mobile de l'ordre 2, nous pouvons la considérer comme étant calculée en utilisant des poids, de sorte que la MA à x 2 0,5 x 1 0,5 x 2. De même, la MA à x 3 0,5 x 2 0,5 x 3. Si nous Appliquer un deuxième niveau de lissage ou de filtrage, on a 0,5 x 2 0,5 x 3 0,5 (0,5 x 1 0,5 x 2) 0,5 (0,5 x 2 0,5 x 3) 0,25 x 1 0,5 x 2 0,25 x 3 c'est-à-dire le filtrage à 2 étages Processus (ou convolution) a produit une moyenne mobile symétrique pondérée variable, avec des poids. Les convolutions multiples peuvent produire des moyennes mobiles pondérées assez complexes, dont certaines ont été trouvées particulièrement utiles dans des domaines spécialisés, comme dans les calculs d'assurance-vie. Les moyennes mobiles peuvent être utilisées pour supprimer des effets périodiques si elles sont calculées avec la longueur de la périodicité comme étant connue. Par exemple, avec des données mensuelles, les variations saisonnières peuvent souvent être supprimées (si tel est l'objectif) en appliquant une moyenne mobile symétrique de 12 mois avec tous les mois pondérés également, sauf le premier et le dernier qui sont pondérés par 12. C'est parce qu'il y aura Être de 13 mois dans le modèle symétrique (temps actuel, t. - 6 mois). Le total est divisé par 12. Des procédures similaires peuvent être adoptées pour toute périodicité bien définie. Moyennes mobiles pondérées exponentiellement (EWMA) Avec la formule de la moyenne mobile simple: toutes les observations sont également pondérées. Si on appelle ces poids égaux, alpha t. Chacun des k poids serait égal à 1 k. Donc la somme des poids serait 1, et la formule serait: Nous avons déjà vu que les applications multiples de ce processus se traduisent par des poids variant. Avec des moyennes mobiles exponentiellement pondérées, la contribution à la valeur moyenne des observations qui sont plus éloignées dans le temps est délibérée réduite, ce qui met l'accent sur les événements plus récents (locaux). Essentiellement, on introduit un paramètre de lissage, 0lt alpha lt1, et on révise la formule à: Une version symétrique de cette formule serait de la forme: Si les poids dans le modèle symétrique sont sélectionnés comme les termes des termes de l'expansion binomiale, (1212) 2q. Ils additionneront 1, et comme q devient grand, approchera la distribution normale. C'est une forme de pondération du noyau, avec le Binomial agissant comme la fonction du noyau. La convolution à deux étages décrite dans la sous-section précédente est précisément cet arrangement, avec q 1, donnant les poids. Dans le lissage exponentiel il est nécessaire d'utiliser un ensemble de poids qui somme à 1 et qui réduisent en taille géométriquement. Les poids utilisés sont typiquement de la forme: Pour montrer que ces poids sont égaux à 1, considérons l'expansion de 1 comme une série. Nous pouvons écrire et développer l'expression entre parenthèses en utilisant la formule binomiale (1-x) p. Où x (1-) et p -1, ce qui donne: Ceci fournit alors une forme de moyenne mobile pondérée de la forme: Cette somme peut être écrite comme une relation de récurrence: ce qui simplifie considérablement le calcul et évite le problème que le régime de pondération Doit être strictement infini pour les poids à la somme de 1 (pour les petites valeurs de alpha, ce n'est généralement pas le cas). La notation utilisée par les différents auteurs varie. Certains utilisent la lettre S pour indiquer que la formule est essentiellement une variable lissée et écrivent: alors que la littérature théorique de contrôle utilise souvent Z plutôt que S pour les valeurs exponentiellement pondérées ou lissées (voir par exemple Lucas et Saccucci, 1990, LUC1 , Et le site Web du NIST pour plus de détails et exemples travaillés). Les formules citées ci-dessus découlent du travail de Roberts (1959, ROB1), mais Hunter (1986, HUN1) utilise une expression de la forme: qui peut être plus appropriée pour être utilisée dans certaines procédures de contrôle. Avec alpha 1, l'estimation moyenne est simplement sa valeur mesurée (ou la valeur de la donnée précédente). Avec 0,5, l'estimation est la moyenne mobile simple des mesures actuelles et précédentes. Dans les modèles de prévision, la valeur, S t. Est souvent utilisée comme valeur estimée ou prévisionnelle pour la période de temps suivante, c'est-à-dire comme l'estimation de x à l'instant t 1. Ainsi, nous avons: Ceci montre que la valeur de prévision à l'instant t 1 est une combinaison de la moyenne mobile exponentielle précédente Plus un composant qui représente l'erreur de prédiction pondérée, epsilon. À l'instant t. En supposant qu'une série chronologique est donnée et qu'une prévision est requise, une valeur pour alpha est requise. Ceci peut être estimé à partir des données existantes en évaluant la somme des erreurs de prédiction au carré obtenues avec des valeurs variables d'alpha pour chaque t 2,3. La première estimation étant la première valeur de données observée, x 1. Dans les applications de contrôle, la valeur de alpha est importante dans la mesure où elle est utilisée dans la détermination des limites de contrôle supérieure et inférieure et affecte la longueur de parcours moyenne (ARL) attendue Avant que ces limites de contrôle ne soient rompues (sous l'hypothèse que la série temporelle représente un ensemble de variables indépendantes, aléatoires, identiquement distribuées et de variance commune). Dans ces circonstances, la variance de la statistique de contrôle est (Lucas et Saccucci, 1990): les limites de contrôle sont habituellement fixées en tant que multiples fixes de cette variance asymptotique, par ex. - 3 fois l'écart-type. Si l'alpha 0,25, par exemple, et les données surveillées sont supposées avoir une distribution normale, N (0,1), en contrôle, les limites de contrôle seront - 1,134 et le processus atteindra une ou l'autre limite en 500 étapes en moyenne. Lucas et Saccucci (1990 LUC1) dérivent les ARL pour une large gamme de valeurs alpha et sous diverses hypothèses en utilisant des procédures de chaîne de Markov. Ils tabulent les résultats, y compris la fourniture d'ARL lorsque la moyenne du processus de contrôle a été décalée par un multiple de l'écart-type. Par exemple, avec un décalage de 0,5 avec l'alpha 0,25, l'ARL est inférieur à 50 pas de temps. Les approches décrites ci-dessus sont appelées lissage exponentiel simple. Comme les procédures sont appliquées une fois à la série chronologique, puis des analyses ou des processus de contrôle sont effectués sur les données lissées résultantes. Si l'ensemble de données inclut une tendance et / ou des composantes saisonnières, un lissage exponentiel à deux ou trois étapes peut être appliqué comme moyen d'enlever ces effets (explicitement la modélisation) (voir la section Prévision ci-dessous et l'exemple travaillé NIST). CHA1 Chatfield C (1975) L'analyse des séries chronologiques: théorie et pratique. Chapman et Hall, Londres HUN1 Hunter J S (1986) La moyenne mobile exponentiellement pondérée. J of Quality Technology, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Systèmes de contrôle de la moyenne mobile pondérée exponentiellement: propriétés et améliorations. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Tests de carte de contrôle basés sur des moyennes mobiles géométriques. Technometrics, 1, 239-2502.1 Modèles de moyenne mobile (modèles MA) Les modèles de séries chronologiques connus sous le nom de modèles ARIMA peuvent inclure des termes autorégressifs ou des termes de moyenne mobile. Dans la semaine 1, nous avons appris un terme autorégressif dans un modèle de série chronologique pour la variable x t est une valeur décalée de x t. Par exemple, un terme autorégressif de retard 1 est x t-1 (multiplié par un coefficient). Cette leçon définit les termes moyens mobiles. Un terme moyen mobile dans un modèle de séries chronologiques est une erreur passée (multipliée par un coefficient). Soit (wt overet N (0, sigma2w)), ce qui signifie que les w t sont identiquement, indépendamment distribués, chacun avec une distribution normale ayant une moyenne 0 et la même variance. Le modèle de moyenne mobile du 1er ordre, noté MA (1) est (xt mu wt theta1w) Le modèle de moyenne mobile du 2 e ordre, noté MA (2) est (xt mu wt theta1w theta2w) , Désignée par MA (q) est (xt mu wt theta1w theta2w points thetaqw) Note. De nombreux manuels et logiciels définissent le modèle avec des signes négatifs avant les termes. Cela ne modifie pas les propriétés théoriques générales du modèle, bien qu'il renverse les signes algébriques des valeurs des coefficients estimés et des termes (non carrés) dans les formules pour les ACF et les variances. Vous devez vérifier votre logiciel pour vérifier si des signes négatifs ou positifs ont été utilisés pour écrire correctement le modèle estimé. R utilise des signes positifs dans son modèle sous-jacent, comme nous le faisons ici. Propriétés théoriques d'une série temporelle avec un modèle MA (1) Notez que la seule valeur non nulle dans l'ACF théorique est pour le lag 1. Toutes les autres autocorrélations sont 0. Ainsi, un échantillon ACF avec une autocorrélation significative seulement au décalage 1 est un indicateur d'un modèle MA (1) possible. Pour les étudiants intéressés, les preuves de ces propriétés sont une annexe à ce document. Exemple 1 Supposons qu'un modèle MA (1) soit x t 10 w t .7 w t-1. Où (wt dépasse N (0,1)). Ainsi, le coefficient 1 0,7. L'ACF théorique est donné par un tracé de cette ACF. Le graphique qui vient d'être montré est l'ACF théorique pour un MA (1) avec 1 0,7. En pratique, un échantillon ne fournira habituellement qu'un tel motif clair. En utilisant R, nous avons simulé n 100 échantillons en utilisant le modèle x t 10 w t .7 w t-1 où w t iid N (0,1). Pour cette simulation, un schéma chronologique des données de l'échantillon suit. Nous ne pouvons pas dire beaucoup de cette intrigue. L'échantillon ACF pour les données simulées suit. Nous observons un pic au décalage 1 suivi par des valeurs généralement non significatives pour les décalages au-delà de 1. Notez que l'échantillon ACF ne correspond pas au modèle théorique du MA (1) sous-jacent, c'est-à-dire que toutes les autocorrélations Un échantillon différent aurait un ACF d'échantillon légèrement différent indiqué ci-dessous, mais aurait probablement les mêmes caractéristiques générales. Propriétés théoriques d'une série temporelle avec un modèle MA (2) Pour le modèle MA (2), les propriétés théoriques sont les suivantes: Noter que les seules valeurs non nulles dans l'ACF théorique sont pour les lags 1 et 2. Les autocorrélations pour les décalages supérieurs sont 0 . Ainsi, un échantillon ACF avec des autocorrélations significatives aux décalages 1 et 2, mais des autocorrélations non significatives pour des décalages plus élevés indique un modèle MA (2) possible. Iid N (0,1). Les coefficients sont 1 0,5 et 2 0,3. Parce qu'il s'agit d'une MA (2), l'ACF théorique aura des valeurs non nulles uniquement aux lags 1 et 2. Les valeurs des deux autocorrélations non nulles sont: Un tracé de la théorie ACF suit. Comme presque toujours le cas, les données d'échantillon ne se comporteront pas aussi parfaitement que la théorie. Nous avons simulé n 150 échantillons pour le modèle x t 10 w t .5 w t-1 .3 w t-2. Où w t iid N (0,1). Le tracé de la série chronologique des données suit. Comme avec le graphique de la série temporelle pour les données d'échantillon MA (1), vous ne pouvez pas en dire beaucoup. L'échantillon ACF pour les données simulées suit. Le modèle est typique pour les situations où un modèle MA (2) peut être utile. Il y a deux pointes statistiquement significatives aux écarts 1 et 2, suivies des valeurs non significatives pour les autres retards. Notez qu'en raison de l'erreur d'échantillonnage, l'ACF de l'échantillon ne correspondait pas exactement au modèle théorique. ACF pour les modèles General MA (q) Une propriété des modèles MA (q) en général est qu'il existe des autocorrélations non nulles pour les q premiers lags et autocorrélations 0 pour tous les retards gt q. Non-unicité de la connexion entre les valeurs de 1 et (rho1) dans MA (1) Modèle. Dans le modèle MA (1), pour toute valeur de 1. La valeur réciproque 1 1 donne la même valeur pour. Par exemple, utilisez 0,5 pour 1. Puis utilisez 1 (0,5) 2 pour 1. Vous obtiendrez (rho1) 0,4 dans les deux cas. Pour satisfaire une restriction théorique appelée invertibilité. Nous limitons les modèles MA (1) à des valeurs dont la valeur absolue est inférieure à 1. Dans l'exemple donné, 1 0,5 sera une valeur de paramètre admissible, alors que 1 10,5 2 ne le sera pas. Invertibilité des modèles MA Un modèle MA est dit inversible s'il est algébriquement équivalent à un modèle d'ordre infini convergent. En convergeant, nous voulons dire que les coefficients AR décroissent à 0 lorsque nous retournons dans le temps. Invertibilité est une restriction programmée dans le logiciel de séries temporelles utilisé pour estimer les coefficients de modèles avec des termes MA. Ce n'est pas quelque chose que nous vérifions dans l'analyse des données. Des informations supplémentaires sur la restriction d'inversibilité pour les modèles MA (1) sont données en annexe. Théorie avancée. Pour un modèle MA (q) avec un ACF spécifié, il n'existe qu'un seul modèle inversible. La condition nécessaire à l'inversibilité est que les coefficients ont des valeurs telles que l'équation 1- 1 y-. - q y q 0 a des solutions pour y qui tombent en dehors du cercle unitaire. Code R pour les exemples Dans l'exemple 1, nous avons représenté l'ACF théorique du modèle x t 10 w t. 7w t-1. Puis a simulé n 150 valeurs à partir de ce modèle et a représenté graphiquement la série chronologique de l'échantillon et l'échantillon ACF pour les données simulées. Les r commandes utilisées pour tracer l'ACF théorique sont: acfma1ARMAacf (mac (0.7), lag. max10) 10 lags de ACF pour MA (1) avec theta1 0.7 lags0: 10 crée une variable nommée lags qui va de 0 à 10. plot Abline (h0) ajoute un axe horizontal à la trame La première commande détermine l'ACF et la stocke dans un objet (a0) Nommé acfma1 (notre choix de nom). La commande plot (la 3ème commande) trace des retards par rapport aux valeurs ACF pour les lags 1 à 10. Le paramètre ylab étiquette l'axe y et le paramètre principal place un titre sur la trame. Pour voir les valeurs numériques de l'ACF, utilisez simplement la commande acfma1. La simulation et les parcelles ont été effectuées avec les commandes suivantes. (X, typeb, mainSimulated MA (1) data) xcarima. sim (n150, list (mac (0.7))) Simule n 150 valeurs de MA (1) xxc10 ajoute 10 pour faire la moyenne 10. La simulation (X, xlimc (1,10), mainACF pour des données d'échantillon simulées) Dans l'exemple 2, nous avons représenté graphiquement l'ACF théorique du modèle xt 10 wt.5 w t-1 .3 w t-2. Puis a simulé n 150 valeurs à partir de ce modèle et a représenté graphiquement la série chronologique de l'échantillon et l'échantillon ACF pour les données simulées. Les ordres R utilisés étaient: ACFma2ARMAacf (mac (0,5,0,3), lag. max10) acfma2 lags0: 10 tracé (lags, acfma2, xlimc (1,10), ylabr, typeh, ACF principal pour MA (2) avec theta1 0,5, (X, typeb, principale série MA (2) simulée) acf (x, xlimc (1,10), x2) (1) Pour les étudiants intéressés, voici des preuves des propriétés théoriques du modèle MA (1). Lorsque x 1, l'expression précédente 1 w 2. Pour tout h 2, l'expression précédente 0 (x), x, x, x, x, x, La raison en est que, par définition de l'indépendance du wt. E (w k w j) 0 pour tout k j. En outre, parce que w t ont une moyenne 0, E (w j w j) E (w j 2) w 2. Pour une série chronologique, appliquer ce résultat pour obtenir l'ACF ci-dessus. Un modèle inversible MA est celui qui peut être écrit comme un modèle AR d'ordre infini qui converge de sorte que les coefficients AR convergent vers 0 alors que nous avançons infiniment dans le temps. Bien démontrer l'inversibilité pour le modèle MA (1). On substitue alors la relation (2) pour w t-1 dans l'équation (1) (3) (zt wt theta1 (z - theta1w) wt theta1z - theta2w) Au temps t-2. L'équation (2) devient Nous substituons alors la relation (4) pour w t-2 dans l'équation (3) (zt wt theta1 z - theta21w wt theta1z - theta21 (z - theta1w) wt theta1z - theta12z theta31w) Si nous devions continuer On notera cependant que si 1 1, les coefficients multipliant les décalages de z augmentent (infiniment) en taille à mesure que l'on se déplace vers l'arrière temps. Pour éviter cela, nous avons besoin de 1 lt1. C'est la condition pour un modèle inversible MA (1). Infinite Order MA model Dans la semaine 3, voyez bien qu'un modèle AR (1) peut être converti en un modèle d'ordre infini MA: (xt - mu wt phi1w phi21w points phik1 w dots sum phij1w) Cette sommation des termes de bruit blanc passé est connue Comme la représentation causale d'un AR (1). En d'autres termes, x t est un type spécial de MA avec un nombre infini de termes revenant dans le temps. C'est ce qu'on appelle un ordre infini MA ou MA (). Un ordre fini MA est un ordre infini AR et tout ordre fini AR est un ordre infini MA. Rappelons à la semaine 1, nous avons noté qu'une exigence pour un AR stationnaire (1) est que 1 lt1. Calculons le Var (x t) en utilisant la représentation causale. Cette dernière étape utilise un fait de base sur les séries géométriques qui nécessite (phi1lt1) sinon la série diverge. NavigationL'utilisation d'une moyenne mobile est un processus de lissage Une autre façon de résumer les données passées consiste à calculer la moyenne des séries successives de nombres de données passées comme suit. Rappelons l'ensemble des numéros 9, 8, 9, 12, 9, 12, 11, 7, 13, 9, 11, 10 qui représentaient le montant en dollars de 12 fournisseurs choisis au hasard. Définissons (M), la taille du plus petit ensemble égal à 3. Alors la moyenne des 3 premiers nombres est: (9 8 9) 3 8.667. C'est ce qu'on appelle le lissage (c'est-à-dire une forme de calcul de la moyenne). Ce processus de lissage est poursuivi en avançant une période et en calculant la moyenne suivante de trois nombres, en laissant tomber le premier nombre. Exemple de moyenne mobile Le tableau suivant résume le processus, qui s'appelle Moyenne mobile. L'expression générale de la moyenne mobile est Mt frac cdots X. Résultats de la moyenne mobile
No comments:
Post a Comment