Wednesday, 27 December 2017

Fördelar och begränsningar of the glidande medelvärde metod of trend passande


Steg vid val av en prognosmodell Din prognostiseringsmodell ska innehålla funktioner som tar upp alla viktiga kvalitativa egenskaper hos data: variationer i nivå och trend, effekter av inflation och säsonglighet, korrelationer mellan variabler etc. Dessutom antas de antaganden som ligger till grund för din valda modell ska överensstämma med din intuition om hur serien ser ut att bete sig i framtiden. När du använder en prognosmodell har du några av följande alternativ: Dessa alternativ beskrivs kortfattat nedan. Se den medföljande prognosflödesdiagrammet för en bildvy av modellspecifikationsprocessen och hänvisa till panelet Statgraphics Model Specification för att se hur modellfunktionerna väljs i programvaran. Deflation Om serien visar inflationstakt, kommer deflationen att bidra till att ta hänsyn till tillväxtmönstret och minska heteroscedasticiteten i rester. Du kan antingen (i) deflatera tidigare data och återuppliva de långsiktiga prognoserna med en konstant antagen takt, eller (ii) deflatera tidigare data med ett prisindex som KPI, och sedan kvotera de långsiktiga prognoserna en prognos av prisindexet. Alternativet (i) är det enklaste. I Excel kan du bara skapa en kolumn med formler för att dela upp de ursprungliga värdena med lämpliga faktorer. Om uppgifterna till exempel är månatliga och du vill deflata med en hastighet på 5 per 12 månader dividerar du med en faktor (1,05) (k12) där k är radindex (observationsnummer). RegressIt och Statgraphics har inbyggda verktyg som gör det automatiskt för dig. Om du går den här vägen är det oftast bäst att ställa in den antagna inflationen lika med din bästa uppskattning av nuvarande kurs, speciellt om du kommer att förutse mer än en period framåt. Om du istället väljer alternativ (ii) måste du först spara deflaterade prognoserna och konfidensgränserna i ditt datakalkylblad och sedan generera och spara en prognos för prisindex och slutligen multiplicera lämpliga kolumner tillsammans. (Återgå till början av sidan.) Logaritmtransformation Om serien visar sammansatt tillväxt och ett multiplicativt säsongsmönster kan en logaritmomvandling vara till hjälp förutom eller istället för deflation. Att logga in data kommer inte att platta ett inflationsmönster, men det kommer att räta ut det så att det kan monteras av en linjär modell (t. ex. en slumpmässig promenad eller ARIMA-modell med konstant tillväxt eller en linjär exponentiell utjämningsmodell). Dessutom kommer loggning att konvertera multiplicativa säsongsmönster till tillsatsmönster, så att om du utför säsongsjustering efter loggning bör du använda additivtypen. Logging handlar om inflation på ett implicit sätt om du vill att inflationen ska modelleras explicit - dvs. Om du vill att inflationstakten ska vara en synlig parameter för modellen eller om du vill se plott av deflaterad data - så ska du deflera istället för att logga. En annan viktig användning för logtransformationen är att linearisera relationerna mellan variabler i ett regressionsläge l. Om till exempel den beroende variabeln är en multiplicativ snarare än additiv funktion av de oberoende variablerna, eller om förhållandet mellan beroende och oberoende variabler är linjär i termer av procentuella förändringar snarare än absoluta förändringar, applicerar sedan en logtransformation till en eller flera variabler kan vara lämpligt, som i ölförsäljningsexemplet. (Återgå till början av sidan.) Säsongsjustering Om serien har ett starkt säsongsmönster som tros vara konstant från år till år kan säsongsjustering vara ett lämpligt sätt att uppskatta och extrapolera mönstret. Fördelen med säsongjustering är att den modellerar säsongsmönstret uttryckligen, vilket ger dig möjlighet att studera säsongsindex och säsongrensade data. Nackdelen är att det kräver uppskattning av ett stort antal ytterligare parametrar (speciellt för månadsdata) och det ger ingen teoretisk motivering för beräkningen av kvotintervallintervallintervall. Validering av urvalet är särskilt viktigt för att minska risken för övermontering av tidigare data genom säsongsjustering. Om data är starkt säsong men du inte väljer säsongjustering, är alternativen att antingen (i) använda en säsongsbetonad ARIMA-modell. som implicit förutser säsongsmönstret med säsongsskikt och skillnader, eller (ii) använder Winters säsongsmässiga exponentiella utjämningsmodell, som uppskattar tidsvarierande säsongsindex. (Återgå till början av sidan.) QuotIndependentquot variabler Om det finns andra tidsserier som du tror har förklarande kraft i förhållande till din serie av intresse (t. ex. ledande ekonomiska indikatorer eller policyvariabler som pris, annonsering, kampanjer, etc.) kan önska att överväga regression som din modelltyp. Oavsett huruvida du väljer regression, behöver du fortfarande överväga de möjligheter som nämns ovan för att omvandla dina variabler (deflation, logg, säsongsjustering - och kanske också differentiering) för att utnyttja tidsdimensionen och eller linearisera relationerna. Även om du inte väljer regression vid denna tidpunkt kanske du vill överväga att lägga till regressorer senare till en tidsseriemodell (t ex en ARIMA-modell) om resterna visar sig ha signifikanta korskorrelationer med andra variabler. (Återgå till början av sidan.) Utjämning, medelvärde eller slumpmässig promenad Om du har valt att säsongsmässigt justera uppgifterna - eller om uppgifterna inte är säsongsmässiga att börja med - kanske du vill använda en medelvärdes - eller utjämningsmodell till passa det nonseasonal mönstret som förblir i data vid denna punkt. Ett enkelt glidande medelvärde eller en enkel exponentiell utjämningsmodell beräknar endast ett lokalt medelvärde i slutet av serien, under antagandet att detta är den bästa uppskattningen av det nuvarande medelvärdet kring vilket data varierar. (Dessa modeller antar att seriens medelvärde varierar långsamt och slumpmässigt utan ihållande trender.) Enkel exponentiell utjämning föredras normalt för ett enkelt glidande medelvärde, eftersom dess exponentiellt viktade medel gör ett mer förnuftigt jobb att diskontera de äldre dataen, eftersom dess utjämningsparametern (alfa) är kontinuerlig och kan lätt optimeras och eftersom den har en underliggande teoretisk grund för beräkning av konfidensintervaller. Om utjämning eller medelvärde inte verkar vara till hjälp - det vill säga. om den bästa predikanten för nästa värde av tidsserierna helt enkelt är dess tidigare värde - så anges en slumpmässig promenadmodell. Detta gäller exempelvis om det optimala antalet villkor i det enkla glidande medlet visar sig vara 1, eller om det optimala värdet av alfa i enkel exponentiell utjämning visar sig vara 0.9999. Browns linjär exponentiell utjämning kan användas för att passa en serie med långsamt tidsvarierande linjära trender, men var försiktig med att extrapolera sådana trender långt in i framtiden. (Den snabbt bredda konfidensintervallet för denna modell berättar för sin osäkerhet om den avlägsna framtiden.) Hålen linjär utjämning uppskattar också tidsvarierande trender men använder separata parametrar för utjämning av nivå och trend vilket vanligtvis ger bättre passform till data än Brown8217s modell. Q-exponentialutjämning försöker uppskatta tidsvarierande kvadratiska trender och bör praktiskt taget aldrig användas. (Detta skulle motsvara en ARIMA-modell med tre ordningar av nonseasonal differencing.) Linjär exponentiell utjämning med en dämpad trend (dvs en trend som plattar ut i avlägsna horisonter) rekommenderas ofta i situationer där framtiden är mycket osäker. De olika exponentiella utjämningsmodellerna är speciella fall av ARIMA-modeller (beskrivs nedan) och kan förses med ARIMA-programvara. I synnerhet är den enkla exponentiella utjämningsmodellen en ARIMA-modell (0,1,1). Holt8217s linjär utjämningsmodell är en ARIMA (0,2,2) modell och den dämpade trendmodellen är en ARIMA (1,1,2 ) modell. En bra sammanfattning av ekvationerna för de olika exponentiella utjämningsmodellerna finns på denna sida på SAS webbplats. (SAS-menyerna för att specificera tidsseriemodeller visas också där de är liknande dem i Statgraphics.) Lineära, kvadratiska eller exponentiella trendlinjemodeller är andra alternativ för extrapolering av en deseasonaliserad serie, men de sällan överträffar slumpmässig promenad, utjämning eller ARIMA modeller på affärsdata. (Återgå till början av sidan.) Vintrar Säsongens exponentiala utjämning Vintrar Säsongsutjämning är en förlängning av exponentiell utjämning som samtidigt uppskattar tidsvarierande nivå-, trend - och säsongsfaktorer med rekursiva ekvationer. (Således, om du använder den här modellen, skulle du inte säsongsmässigt justera uppgifterna.) Winters säsongsfaktorer kan vara antingen multiplikativa eller tillsatser: normalt bör du välja multiplikativalternativ om du inte har loggat in data. Även om Winters-modellen är smart och rimligt intuitiv, kan det vara svårt att tillämpa i praktiken: det har tre utjämningsparametrar - alfa, beta och gamma - för att separat stryka nivå-, trend - och säsongsfaktorer som måste beräknas samtidigt. Bestämning av startvärden för säsongsindex kan göras genom att tillämpa förhållande till rörlig genomsnittsmetod för säsongsjustering till del eller hela serien andor genom backforecasting. Den uppskattningsalgoritm som Statgraphics använder för dessa parametrar misslyckas med att konvergera andor ger värden som ger bizarre prognoser och konfidensintervall, så jag rekommenderar försiktighet vid användning av denna modell. (Återgå till början av sidan.) ARIMA Om du inte väljer säsongsjustering (eller om uppgifterna är säsongsbetonade) kan du använda ARIMA-modellramen. ARIMA-modeller är en mycket generell klass av modeller som inkluderar slumpmässig promenad, slumpmässig trend, exponentiell utjämning och autoregressiva modeller som speciella fall. Den konventionella visdomen är att en serie är en bra kandidat för en ARIMA-modell om (i) den kan stationeras genom en kombination av differentiering och andra matematiska omvandlingar som loggning, och (ii) du har en stor mängd data att arbeta med : minst 4 hela säsonger vid säsongsdata. (Om serierna inte kan skrivas tillräckligt efter varandra - t. ex. om det är mycket oregelbundet eller verkar kvalitativt ändra sitt beteende över tiden - eller om du har färre än 4 säsonger av data, kanske du är bättre med en modell som använder säsongsjustering och någon form av enkel medelvärde eller utjämning.) ARIMA-modeller har en särskild namngivningskonvention införd av Box och Jenkins. En nonseasonal ARIMA-modell klassificeras som en ARIMA-modell (p, d, q), där d är antalet icke-säsongsskillnader, p är antalet autoregressiva termer (lags av den olika serien) och q är antalet rörelse - medelvärden (lags av prognosfel) i prediksionsekvationen. En säsongsbetonad ARIMA-modell klassificeras som en ARIMA (p, d, q) x (P, D, Q). där D, P och Q är respektive antal säsongsskillnader, säsongsmässiga autoregressiva termer (lags av de olika serierna vid årstidens multiplar) och säsongsmässiga glidande medelvärden (lags av prognosfelen vid flera gånger av säsongsperioden period). Det första steget i montering av en ARIMA-modell är att bestämma lämplig ordning för differentiering som behövs för att stationera serierna och ta bort säsongens bruttoegenskaper. Detta motsvarar att bestämma vilken kvotväggen eller slumpmässig trendmodell som ger den bästa utgångspunkten. Försök inte använda mer än 2 totala orderingångar (ej säsongsbetonade och säsongsbundna) och använd inte mer än 1 säsongsskillnad. Det andra steget är att bestämma om en konstant term ska inkluderas i modellen. Vanligtvis ingår en konstant term om den totala sorteringsordningen är 1 eller mindre, annars gör du det inte. I en modell med en ordning av differentiering representerar den konstanta termen den genomsnittliga trenden i prognoserna. I en modell med två order av differentiering bestäms trenden i prognoserna av den lokala trenden som observerades i slutet av tidsserierna och den konstanta termen representerar trend-i-trenden, dvs krökningen i den långsiktiga siktprognoser. Normalt är det farligt att extrapolera trender i trender, så du undertrycker kontanterna i det här fallet. Det tredje steget är att välja antal autogegressiva och rörliga genomsnittsparametrar (p, d, q, P, D, Q) som behövs för att eliminera autokorrelation som kvarstår i de naiva modellernas residualer (dvs någon korrelation som kvarstår efter bara differentiering). Dessa siffror bestämmer antalet lags av de olika serierna ochor-lagsna av prognosfel som ingår i prognosförhållandet. Om det inte finns någon signifikant autokorrelation i resterna vid denna punkt, då STOP, du är klar: den bästa modellen är en naiv modell. Om det finns signifikant autokorrelation vid 1 eller 2, bör du försöka ställa in q1 om något av följande gäller: ( i) det finns en oväsentlig skillnad i modellen, (ii) autokorrelationen för lag 1 är negativ. andor (iii) restautokorrelationsplotten är renare (färre, mer isolerade spikar) än den återstående partiella autokorrelationsplotten. Om det inte finns någon säsongsbetonad skillnad i modellen och är lag 1-autokorrelationen positiv och den resterande partiella autokorrelationsplotten ser renare ut, försök sedan p1. (Ibland strider dessa regler för att välja mellan p1 och q1, i vilket fall det förmodligen inte gör stor skillnad, vilken du använder. Försök dem båda och jämför.) Om det finns autokorrelation vid lag 2 som inte tas bort genom att ställa in p1 eller q1 kan du försöka p2 eller q2, eller ibland p1 och q1. Sällan kan du stöta på situationer där p2 eller 3 och q1, eller vice versa, ger de bästa resultaten. Det rekommenderas starkt att du inte använder pgt1 och qgt1 i samma modell. I allmänhet bör du, när du monterar ARIMA-modeller, undvika att öka modellkomplexiteten för att endast få små ytterligare förbättringar i felstatistiken eller utseendet på ACF - och PACF-diagrammen. Också i en modell med både pgt1 och qgt1 finns det en bra möjlighet till redundans och icke-unikhet mellan AR - och MA-sidorna av modellen, vilket förklaras i anteckningarna om den matematiska strukturen för ARIMA-modellen s. Det är oftast bättre att gå framåt stegvis istället för bakåt stegvis när man anpassar modellspecifikationerna: Börja med enklare modeller och lägg bara till fler villkor om det finns ett tydligt behov. Samma regler gäller för antalet säsongsmässiga autoregressiva termer (P) och antalet säsongsrörliga medelvärden (Q) med avseende på autokorrelation under säsongsperioden (t ex lag 12 för månadsdata). Försök Q1 om det redan finns en säsongsskillnad i modellen och om säsongens autokorrelation är negativ och om den resterande autokorrelationsplotten ser renare ut i närheten av säsongslagret, annars försök P1. (Om det är logiskt för serierna att visa stark säsong, måste du använda en säsongsskillnad, annars kommer säsongsmönstret att blekna ut när du gör långsiktiga prognoser.) Ibland kanske du vill prova P2 och Q0 eller vice v ersa, eller PQ1. Det rekommenderas dock starkt att PQ aldrig borde vara större än 2. Säsongsmönster har sällan den perfekta regelbundenheten under ett tillräckligt stort antal årstider som skulle göra det möjligt att på ett pålitligt sätt identifiera och uppskatta många parametrar. Även den backforecasting-algoritm som används i parameteruppskattning kommer sannolikt att ge opålitliga (eller till och med galen) resultat när antalet årstider inte är signifikant större än PDQ. Jag skulle rekommendera inte mindre än PDQ2 hela årstider, och mer är bättre. Återigen, när du monterar ARIMA-modeller, bör du vara försiktig med att undvika övermontering av data trots att det kan vara mycket roligt när du hänger med det. Viktiga speciella fall: Som noterats ovan är en ARIMA (0,1,1) modell utan konstant identisk med en enkel exponentiell utjämningsmodell, och antar en flytande nivå (dvs ingen genomsnittlig reversering) men med noll långsiktig trend. En ARIMA (0,1,1) modell med konstant är en enkel exponentiell utjämningsmodell med en icke-linjär trend term som ingår. En ARIMA (0,2,1) eller (0,2,2) modell utan konstant är en linjär exponentiell utjämningsmodell som möjliggör en tidsvarierande trend. En ARIMA (1,1,2) modell utan konstant är en linjär exponentiell utjämningsmodell med dämpad trend, det vill säga en trend som i slutänden plattar ut i längre siktprognoser. De vanligaste säsongsmässiga ARIMA-modellerna är ARIMA-modellen (0,1,1) x (0,1,1) utan konstant och ARIMA (1,0,1) x (0,1,1) modell med konstant. Den förstnämnda av dessa modeller tillämpar i grunden exponentiell utjämning till både nonseasonal och säsongsmässiga komponenter i mönstret i data samtidigt som en tidsvarierande trend tillåts och den senare modellen är något liknande men förutsätter en konstant linjär trend och därför lite mer lång förutsägbarhet. Du bör alltid inkludera dessa två modeller bland din grupp av misstänkta när du monterar data med konsekvent säsongsmönster. En av dem (kanske med en mindre variation som ökar p eller q med 1 andor inställning P1 samt Q1) är ganska ofta det bästa. (Återgå till början av sidan.) Prognoser genom utjämningstekniker Den här webbplatsen är en del av JavaScript E-Labs lärande objekt för beslutsfattande. Annan JavaScript i denna serie kategoriseras under olika tillämpningsområden i avsnittet MENU på den här sidan. En tidsserie är en följd av observationer som beställs i tid. Inherent i insamlingen av data som tagits över tiden är någon form av slumpmässig variation. Det finns metoder för att minska avbrytandet av effekten på grund av slumpmässig variation. Bredt använda tekniker är utjämning. Dessa tekniker, när de tillämpas korrekt, avslöjar tydligare de underliggande trenderna. Ange tidsserierna Row-wise i följd, från början till vänster och parametrarna, och klicka sedan på knappen Beräkna för att få fram en prognos för en period framåt. Blanka rutor ingår inte i beräkningarna utan nollor är. När du matar in data för att flytta från cell till cell i datmatrisen använder du inte knappen Tab eller pilar in. Funktioner av tidsserier, som kan avslöjas genom att granska dess graf. med de prognostiserade värdena och residualbeteendet, förutsatt prognosmodellering. Flyttande medelvärden: Flytta medelvärden rang bland de mest populära teknikerna för förbehandling av tidsserier. De används för att filtrera slumpmässigt vitt brus från data, för att göra tidsserierna mjukare eller till och med för att betona vissa informationskomponenter i tidsserierna. Exponentiell utjämning: Detta är ett mycket populärt schema för att producera en slät Time Series. Medan i rörliga medelvärden viktas de senaste observationerna, exponentiell utjämning tilldelar exponentiellt minskande vikter som observationen blir äldre. Med andra ord ges de senaste observationerna relativt större vikt vid prognosen än de äldre observationerna. Dubbel exponentiell utjämning är bättre vid hantering av trender. Trippel exponentiell utjämning är bättre vid hantering av paraboltrender. Ett exponentiellt vägat glidande medelvärde med en utjämningskonstant a. motsvarar ungefär ett enkelt rörligt medelvärde av längd (dvs period) n, där a och n är relaterade av: a 2 (n1) ORn (2-a) a. Således skulle exempelvis ett exponentiellt vägt glidmedel med en utjämningskonstant lika med 0,1 motsvara ungefär ett 19 dagars glidande medelvärde. Och ett 40-dagars enkelt glidande medelvärde skulle motsvara ungefär ett exponentiellt vägt glidmedel med en utjämningskonstant lika med 0,04878. Håller linjär exponentiell utjämning: Antag att tidsserierna är säsongsbetonade men visar visningstendens. Holts metod beräknar både nuvarande nivå och nuvarande trend. Observera att det enkla glidande medlet är speciellt fall av exponentiell utjämning genom att ställa in perioden för glidande medelvärde till heltalet av (2-alfa) alfa. För de flesta företagsdata är en Alpha-parameter som är mindre än 0,40 ofta effektiv. Man kan emellertid utföra en nätverkssökning av parameterutrymmet, med 0,1 till 0,9, med steg om 0,1. Då har den bästa alfas det minsta genomsnittliga absoluta felet (MA-fel). Hur man jämför flera utjämningsmetoder: Även om det finns numeriska indikatorer för bedömning av prognosteknikens noggrannhet, är det mest använda sättet att använda en visuell jämförelse av flera prognoser för att bedöma deras noggrannhet och välja mellan olika prognosmetoder. I detta tillvägagångssätt måste man plotta (med hjälp av exempelvis Excel) på samma graf de ursprungliga värdena för en tidsserievariabel och de förutspådda värdena från flera olika prognosmetoder, vilket underlättar en visuell jämförelse. Du kanske gillar att använda tidigare prognoser med utjämningstekniker JavaScript för att få tidigare prognosvärden baserade på utjämningstekniker som endast använder en parameter. Holt - och Winters-metoderna använder sig av två respektive tre parametrar, därför är det inte en lätt uppgift att välja de optimala eller till och med nära optimala värden genom försök och fel för parametrarna. Den enskilda exponentiella utjämningen betonar det korta perspektivet som ställer nivån till den sista observationen och baseras på villkoret att det inte finns någon trend. Den linjära regressionen, som passar en minsta kvadrera linje till historiska data (eller transformerade historiska data), representerar det långa intervallet, vilket är konditionerat för den grundläggande trenden. Hålen linjär exponentiell utjämning fångar information om den senaste trenden. Parametrarna i Holts-modellen är nivåparametrar som bör minskas när mängden datavariation är stor och trenderparametern bör ökas om den senaste trendriktningen stöds av orsaksfaktorerna. Kortsiktiga prognoser: Observera att varje JavaScript på denna sida ger en enstegs prognos. För att få en tvåstegs-prognos. Lägg helt enkelt till det prognostiserade värdet till slutet av din tidsseriedata och klicka sedan på samma Calculate-knapp. Du kan upprepa denna process några gånger för att få de nödvändiga kortsiktiga prognoserna. Förflyttning av medel och exponentiella utjämningsmodeller Som ett första steg för att flytta bortom genomsnittliga modeller kan slumpmässiga gångmodeller och linjära trendmodeller, nonseasonal mönster och trender kunna extrapoleras med hjälp av en rörlig genomsnitts - eller utjämningsmodell. Det grundläggande antagandet bakom medelvärdes - och utjämningsmodeller är att tidsserierna är lokalt stationära med ett långsamt varierande medelvärde. Därför tar vi ett rörligt (lokalt) medelvärde för att uppskatta det nuvarande värdet av medelvärdet och sedan använda det som prognosen för den närmaste framtiden. Detta kan betraktas som en kompromiss mellan medelmodellen och slumpmässig-walk-without-drift-modellen. Samma strategi kan användas för att uppskatta och extrapolera en lokal trend. Ett rörligt medelvärde kallas ofta en quotsmoothedquot-version av den ursprungliga serien, eftersom kortsiktig medelvärde har en effekt att utjämna stötarna i originalserien. Genom att justera graden av utjämning (bredden på glidande medelvärdet) kan vi hoppas att hitta någon form av optimal balans mellan prestandan hos medel och slumpmässiga gångmodeller. Den enklaste typen av medelvärdesmodell är. Enkelt (lika viktat) Flyttande medelvärde: Prognosen för värdet på Y vid tiden t1 som görs vid tid t motsvarar det enkla medelvärdet av de senaste m-observationerna: (Här och på annat håll använder jag symbolen 8220Y-hat8221 för att stå för en prognos av tidsserie Y som gjordes så tidigt som möjligt enligt en given modell.) Detta medel är centrerat vid period-t (m1) 2, vilket innebär att uppskattningen av det lokala medelvärdet tenderar att ligga bakom den sanna värdet av det lokala medelvärdet med ca (m1) 2 perioder. Således säger vi att medelåldern för data i det enkla glidande medlet är (m1) 2 i förhållande till den period för vilken prognosen beräknas: det här är hur lång tid prognoserna tenderar att ligga bakom vändpunkter i data . Om du till exempel medger de senaste 5 värdena, kommer prognoserna att vara cirka 3 perioder sent för att svara på vändpunkter. Observera att om m1 är den enkla glidande genomsnittsmodellen (SMA) motsvarar den slumpmässiga gångmodellen (utan tillväxt). Om m är mycket stor (jämförbar med längden på uppskattningsperioden), motsvarar SMA-modellen den genomsnittliga modellen. Precis som med vilken parameter som helst av en prognosmodell, är det vanligt att justera värdet på k för att få den bästa kvotkvoten till data, dvs de minsta prognosfelen i genomsnitt. Här är ett exempel på en serie som verkar utgöra slumpmässiga fluktuationer runt ett långsamt varierande medelvärde. Först kan vi försöka passa den med en slumpmässig promenadmodell, vilket motsvarar ett enkelt glidande medelvärde på 1 term: Slumpmässig gångmodell svarar väldigt snabbt på förändringar i serien, men därmed väljer den mycket av kvotenhetskvoten i data (de slumpmässiga fluktuationerna) samt quotsignalquot (det lokala medelvärdet). Om vi ​​istället försöker ett enkelt glidande medelvärde på 5 termer får vi en snyggare uppsättning prognoser: Det 5-åriga enkla glidande medlet ger betydligt mindre fel än den slumpmässiga promenadmodellen i det här fallet. Medelåldern för data i denna prognos är 3 ((51) 2), så att den tenderar att ligga bakom vändpunkter med cirka tre perioder. (Till exempel verkar en nedgång ha skett i period 21, men prognoserna vänder inte om till flera perioder senare.) Notera att de långsiktiga prognoserna från SMA-modellen är en horisontell rak linje, precis som i slumpmässig promenad modell. Således antar SMA-modellen att det inte finns någon trend i data. Men medan prognoserna från den slumpmässiga promenadmodellen helt enkelt motsvarar det senast observerade värdet är prognoserna från SMA-modellen lika med ett vägt genomsnitt av de senaste värdena. De konfidensbegränsningar som beräknas av Statgraphics för de långsiktiga prognoserna för det enkla glidande genomsnittet blir inte större eftersom prognostiseringshorisonten ökar. Det här är uppenbarligen inte korrekt Tyvärr finns det ingen underliggande statistisk teori som berättar hur förtroendeintervallen borde utvidgas för denna modell. Det är emellertid inte så svårt att beräkna empiriska uppskattningar av konfidensgränserna för prognosen för längre tid. Du kan till exempel skapa ett kalkylblad där SMA-modellen skulle användas för att prognostisera två steg framåt, 3 steg framåt etc. i det historiska dataprov. Därefter kan du beräkna felfunktionens avvikelser vid varje prognoshorisont och sedan konstruera konfidensintervaller för längre siktprognoser genom att lägga till och subtrahera multiplar med lämplig standardavvikelse. Om vi ​​försöker ett 9-sikt enkelt glidande medelvärde får vi ännu smidigare prognoser och mer av en långsammare effekt: Medelåldern är nu 5 perioder (91) 2). Om vi ​​tar ett 19-årigt glidande medel ökar medeltiden till 10: Observera att prognoserna nu försvinner nu bakom vändpunkter med cirka 10 perioder. Vilken mängd utjämning är bäst för denna serie Här är en tabell som jämför deras felstatistik, inklusive ett 3-siktsmedel: Modell C, det 5-åriga glidande genomsnittet, ger det lägsta värdet av RMSE med en liten marginal över 3 term och medellång sikt, och deras andra statistik är nästan identiska. Så, bland modeller med mycket liknande felstatistik kan vi välja om vi föredrar lite mer lyhördhet eller lite mer jämnhet i prognoserna. (Return to top of page.) Browns Enkel exponentiell utjämning (exponentiellt viktad glidande medelvärde) Den enkla glidande medelmodellen beskriven ovan har den oönskade egenskapen som den behandlar de sista k-observationerna lika och fullständigt ignorerar alla föregående observationer. Intuitivt bör tidigare data diskonteras på ett mer gradvis sätt - till exempel bör den senaste observationen få lite mer vikt än 2: a senast, och den 2: a senaste bör få lite mer vikt än den 3: e senaste, och så vidare. Den enkla exponentiella utjämningens (SES) - modellen åstadkommer detta. Låt 945 beteckna en quotsmoothing constantquot (ett tal mellan 0 och 1). Ett sätt att skriva modellen är att definiera en serie L som representerar den nuvarande nivån (dvs lokal medelvärde) för serien som uppskattad från data fram till idag. Värdet på L vid tid t beräknas rekursivt från sitt eget tidigare värde så här: Således är det nuvarande utjämnade värdet en interpolation mellan det tidigare jämnda värdet och den aktuella observationen, där 945 styr närheten av det interpolerade värdet till det senaste observation. Prognosen för nästa period är helt enkelt det nuvarande utjämnade värdet: Likvärdigt kan vi uttrycka nästa prognos direkt i form av tidigare prognoser och tidigare observationer, i någon av följande ekvivalenta versioner. I den första versionen är prognosen en interpolation mellan föregående prognos och tidigare observation: I den andra versionen erhålls nästa prognos genom att justera föregående prognos i riktning mot det föregående felet med en bråkdel av 945. Är felet gjort vid tid t. I den tredje versionen är prognosen ett exponentiellt vägt (dvs. rabatterat) glidande medelvärde med rabattfaktor 1-945: Interpolationsversionen av prognosformeln är det enklaste att använda om du genomför modellen på ett kalkylblad: det passar in i en encell och innehåller cellreferenser som pekar på föregående prognos, föregående observation och cellen där värdet 945 lagras. Observera att om 945 1 motsvarar SES-modellen en slumpmässig gångmodell (utan tillväxt). Om 945 0 motsvarar SES-modellen den genomsnittliga modellen, förutsatt att det första släta värdet sätts lika med medelvärdet. (Återgå till början av sidan.) Medelåldern för data i prognosen för enkel exponentiell utjämning är 1 945 i förhållande till den period som prognosen beräknas för. (Det här är inte tänkt att vara uppenbart, men det kan enkelt visas genom att utvärdera en oändlig serie.) Den enkla, snabba genomsnittliga prognosen tenderar därför att ligga bakom vändpunkter med cirka 1 945 perioder. Till exempel, när 945 0,5 är fördröjningen 2 perioder när 945 0,2 är fördröjningen 5 perioder när 945 0,1 är fördröjningen 10 perioder, och så vidare. För en given genomsnittlig ålder (dvs mängden fördröjning) är prognosen för enkel exponentiell utjämning (SES) något överlägsen SMA-prognosen (Simple Moving Average) eftersom den lägger relativt större vikt vid den senaste observationen, dvs. det är något mer quotresponsivequot för förändringar som inträffade under det senaste förflutna. Exempelvis har en SMA-modell med 9 villkor och en SES-modell med 945 0,2 båda en genomsnittlig ålder på 5 för data i sina prognoser, men SES-modellen lägger mer vikt på de sista 3 värdena än SMA-modellen och vid Samtidigt gör det inte helt 8220forget8221 om värden som är mer än 9 perioder gamla, vilket visas i det här diagrammet. En annan viktig fördel med SES-modellen över SMA-modellen är att SES-modellen använder en utjämningsparameter som kontinuerligt varierar, så att den lätt kan optimeras genom att använda en kvotsolverquot-algoritm för att minimera medelkvadratfelet. Det optimala värdet på 945 i SES-modellen för denna serie visar sig vara 0,2961, som visas här: Medelåldern för data i denna prognos är 10,2961 3,4 perioder, vilket liknar det för ett 6-sikt enkelt glidande medelvärde. De långsiktiga prognoserna från SES-modellen är en horisontell rak linje. som i SMA-modellen och den slumpmässiga promenadmodellen utan tillväxt. Observera dock att de konfidensintervaller som beräknas av Statgraphics avviker nu på ett rimligt sätt, och att de är väsentligt smalare än konfidensintervallen för slumpmässig promenadmodell. SES-modellen förutsätter att serien är något mer förutsägbar än den slumpmässiga promenadmodellen. En SES-modell är egentligen ett speciellt fall av en ARIMA-modell. så ger den statistiska teorin om ARIMA-modeller en bra grund för beräkning av konfidensintervall för SES-modellen. I synnerhet är en SES-modell en ARIMA-modell med en icke-säsongsskillnad, en MA (1) term och ingen konstant term. annars känd som en quotARIMA (0,1,1) modell utan constantquot. MA (1) - koefficienten i ARIMA-modellen motsvarar kvantiteten 1-945 i SES-modellen. Om du till exempel passar en ARIMA (0,1,1) modell utan konstant till serien som analyseras här, visar den uppskattade MA (1) - koefficienten sig att vara 0.7029, vilket är nästan exakt en minus 0,2961. Det är möjligt att lägga till antagandet om en icke-noll konstant linjär trend till en SES-modell. För att göra detta, ange bara en ARIMA-modell med en icke-sekundär skillnad och en MA (1) term med en konstant, dvs en ARIMA (0,1,1) modell med konstant. De långsiktiga prognoserna kommer då att ha en trend som är lika med den genomsnittliga trenden som observerats under hela estimeringsperioden. Det går inte att göra detta i samband med säsongjustering, eftersom säsongsjusteringsalternativen är inaktiverade när modelltypen är inställd på ARIMA. Du kan dock lägga till en konstant långsiktig exponentiell trend för en enkel exponentiell utjämningsmodell (med eller utan säsongsjustering) genom att använda inflationsjusteringsalternativet i prognosproceduren. Den lämpliga quotinflationen (procentuell tillväxt) per period kan beräknas som lutningskoefficienten i en linjär trendmodell som är anpassad till data i samband med en naturlig logaritmtransformation, eller det kan baseras på annan oberoende information om långsiktiga tillväxtutsikter . (Återgå till början av sidan.) Browns Linear (ie double) Exponentiell utjämning SMA-modellerna och SES-modellerna antar att det inte finns någon trend av något slag i data (vilket vanligtvis är OK eller åtminstone inte för dåligt för 1- stegprognoser när data är relativt bullriga), och de kan modifieras för att införliva en konstant linjär trend som visas ovan. Vad sägs om kortsiktiga trender Om en serie visar en växande tillväxt eller ett cykliskt mönster som står klart ut mot bruset, och om det finns behov av att prognostisera mer än en period framåt, kan uppskattningen av en lokal trend också vara en fråga. Den enkla exponentiella utjämningsmodellen kan generaliseras för att erhålla en linjär exponentiell utjämning (LES) - modell som beräknar lokala uppskattningar av både nivå och trend. Den enklaste tidsvarierande trendmodellen är Browns linjära exponentiell utjämningsmodell, som använder två olika slätmade serier som centreras vid olika tidpunkter. Prognosformeln baseras på en extrapolering av en linje genom de två centra. (En mer sofistikerad version av denna modell, Holt8217s, diskuteras nedan.) Den algebraiska formen av Brown8217s linjär exponentiell utjämningsmodell, som den enkla exponentiella utjämningsmodellen, kan uttryckas i ett antal olika men likvärdiga former. Den här kvotens kvotstandardkvot uttrycks vanligtvis enligt följande: Låt S beteckna den singeljämnade serien som erhållits genom att applicera enkel exponentiell utjämning till serie Y. Dvs, värdet på S vid period t ges av: (Minns att, under enkel exponentiell utjämning, detta skulle vara prognosen för Y vid period t1.) Låt sedan Squot beteckna den dubbelsidiga serien erhållen genom att applicera enkel exponentiell utjämning (med samma 945) till serie S: Slutligen prognosen för Y tk. för vilken kgt1 som helst, ges av: Detta ger e 1 0 (det vill säga lura lite och låt den första prognosen motsvara den faktiska första observationen) och e 2 Y 2 8211 Y 1. varefter prognoser genereras med hjälp av ekvationen ovan. Detta ger samma monterade värden som formeln baserad på S och S om de senare startades med användning av S1S1Y1. Denna version av modellen används på nästa sida som illustrerar en kombination av exponentiell utjämning med säsongsjustering. Holt8217s linjär exponentiell utjämning Brown8217s LES-modell beräknar lokala uppskattningar av nivå och trend genom att utjämna de senaste uppgifterna, men det faktum att det gör det med en enda utjämningsparameter ställer in en begränsning av de datamönster som den kan passa: nivån och trenden får inte variera till oberoende priser. Holt8217s LES-modell adresserar problemet genom att inkludera två utjämningskonstanter, en för nivån och en för trenden. När som helst t, som i Brown8217s modell, finns det en uppskattning L t på lokal nivå och en uppskattning T t av den lokala trenden. Här rekryteras de rekursivt från värdet av Y observerat vid tid t och de tidigare uppskattningarna av nivån och trenden med två ekvationer som applicerar exponentiell utjämning till dem separat. Om den beräknade nivån och trenden vid tiden t-1 är L t82091 och T t-1. respektive prognosen för Y tshy som skulle ha gjorts vid tid t-1 är lika med L t-1 T t-1. När det verkliga värdet observeras beräknas den uppdaterade uppskattningen av nivån rekursivt genom interpolering mellan Y tshy och dess prognos L t-1 T t 1 med vikter av 945 och 1- 945. Förändringen i beräknad nivå, nämligen L t 8209 L t82091. kan tolkas som en bullrig mätning av trenden vid tiden t. Den uppdaterade uppskattningen av trenden beräknas sedan rekursivt genom interpolering mellan L t 8209 L t82091 och den tidigare uppskattningen av trenden T t-1. Användning av vikter av 946 och 1-946: Tolkningen av trendutjämningskonstanten 946 är analog med den för nivåutjämningskonstanten 945. Modeller med små värden av 946 förutsätter att trenden ändras endast mycket långsamt över tiden, medan modeller med större 946 antar att det förändras snabbare. En modell med en stor 946 tror att den avlägsna framtiden är väldigt osäker, eftersom fel i trendberäkning blir ganska viktiga vid prognoser mer än en period framåt. (Återgå till början av sidan.) Utjämningskonstanterna 945 och 946 kan beräknas på vanligt sätt genom att minimera medelkvadratfelet i de 1-stegs-prognoserna. När detta görs i Statgraphics visar uppskattningarna att vara 945 0.3048 och 946 0.008. Det mycket lilla värdet av 946 innebär att modellen antar mycket liten förändring i trenden från en period till nästa, så i grunden försöker denna modell att uppskatta en långsiktig trend. I analogi med begreppet medelålder för de data som används för att uppskatta den lokala nivån i serien, är medelåldern för de data som används för att uppskatta den lokala trenden proportionell mot 1 946, men inte exakt lika med den . I detta fall visar det sig att vara 10.006 125. Detta är ett mycket exakt nummer eftersom precisionen av uppskattningen av 946 är verkligen 3 decimaler, men den har samma generella storleksordning som provstorleken på 100, så denna modell är medeltal över ganska mycket historia för att beräkna trenden. Prognosplotten nedan visar att LES-modellen beräknar en något större lokal trend i slutet av serien än den ständiga trenden som beräknas i SEStrend-modellen. Det uppskattade värdet på 945 är också nästan identiskt med det som erhållits genom att montera SES-modellen med eller utan trend, så det är nästan samma modell. Nu ser dessa ut som rimliga prognoser för en modell som beräknas beräkna en lokal trend. Om du 8220eyeball8221 ser det här, ser det ut som om den lokala trenden har vänt sig nedåt i slutet av serien. Vad har hänt Parametrarna i denna modell har uppskattats genom att minimera det kvadrerade felet i 1-stegs-prognoser, inte längre prognoser, i vilket fall trenden gör det inte mycket skillnad. Om allt du tittar på är 1 steg framåt, ser du inte den större bilden av trender över (säg) 10 eller 20 perioder. För att få denna modell mer i linje med vår ögonbolls extrapolering av data kan vi manuellt justera trendutjämningskonstanten så att den använder en kortare baslinje för trendberäkning. Om vi ​​till exempel väljer att ställa in 946 0,1, är medelåldern för de data som används vid uppskattning av den lokala trenden 10 perioder, vilket innebär att vi medeltar trenden över de senaste 20 perioderna eller så. Here8217s hur prognosplotet ser ut om vi sätter 946 0,1 medan ni håller 945 0.3. Detta ser intuitivt rimligt ut för denna serie, men det är troligen farligt att extrapolera denna trend mer än 10 perioder i framtiden. Vad sägs om felstatistik Här är en modelljämförelse för de två modellerna ovan och tre SES-modeller. Det optimala värdet på 945. För SES-modellen är ungefär 0,3, men liknande resultat (med något mer eller mindre responsivitet) erhålls med 0,5 och 0,2. (A) Hål linjär exp. utjämning med alfa 0,3048 och beta 0,008 (B) Hål linjär exp. utjämning med alfa 0,3 och beta 0,1 (C) Enkel exponentiell utjämning med alfa 0,5 (D) Enkel exponentiell utjämning med alfa 0,3 (E) Enkel exponentiell utjämning med alfa 0,2 Deras statistik är nästan identisk, så vi kan verkligen göra valet på grundval av prognosfel i 1 steg före proverna. Vi måste falla tillbaka på andra överväganden. Om vi ​​starkt tror att det är vettigt att basera den nuvarande trendberäkningen på vad som hänt under de senaste 20 perioderna eller så kan vi göra ett ärende för LES-modellen med 945 0,3 och 946 0,1. Om vi ​​vill vara agnostiska om det finns en lokal trend, kan en av SES-modellerna vara enklare att förklara och skulle också ge fler mitten av vägtrafikprognoserna för de kommande 5 eller 10 perioderna. (Tillbaka till början av sidan.) Vilken typ av trend-extrapolation är bäst: Horisontell eller linjär Empiriska bevis tyder på att om uppgifterna redan har justerats (om det behövs) för inflationen, kan det vara osäkert att extrapolera kortsiktiga linjära trender mycket långt in i framtiden. Tendenser som uppenbaras idag kan sänkas i framtiden på grund av olika orsaker som produktförstörelse, ökad konkurrens och konjunkturnedgångar eller uppgångar i en bransch. Av denna anledning utför enkel exponentiell utjämning ofta bättre utom provet än vad som annars skulle kunna förväntas, trots sin kvotiv kvot horisontell trend extrapolering. Dämpade trendmodifieringar av den linjära exponentiella utjämningsmodellen används också i praktiken för att införa en konservatismedel i sina trendprognoser. Den demoniserade trenden LES-modellen kan implementeras som ett speciellt fall av en ARIMA-modell, i synnerhet en ARIMA-modell (1,1,2). Det är möjligt att beräkna konfidensintervaller kring långsiktiga prognoser som produceras av exponentiella utjämningsmodeller, genom att betrakta dem som speciella fall av ARIMA-modeller. (Var försiktig: inte alla mjukvaror beräknar konfidensintervall för dessa modeller korrekt.) Bredden på konfidensintervallet beror på (i) modellens RMS-fel, (ii) utjämningstypen (enkel eller linjär) (iii) värdet (er) av utjämningskonstanten (erna) och (iv) antalet perioder framåt du prognoserar. I allmänhet sprids intervallet snabbare, eftersom 945 blir större i SES-modellen och de sprider sig mycket snabbare när linjär snarare än enkel utjämning används. Detta ämne diskuteras vidare i avsnittet ARIMA-modeller i anteckningarna. (Återgå till början av sidan.)

No comments:

Post a Comment