Friday 16 February 2018

Mudando a caixa média jenkins


O modelo Box-Jenkins ARMA é uma combinação dos modelos AR e MA (descrito na página anterior): comece Xt delta phi1 X phi2 X cdots phip X At-theta1 A - theta2 A - cdots - thetaq A. Termina onde os termos na equação têm o mesmo significado dado ao modelo AR e MA. Comentários sobre o modelo Box-Jenkins Algumas notas sobre este modelo. O modelo Box-Jenkins assume que as séries temporais são estacionárias. Box e Jenkins recomendam a série não estacionária diferenciada uma ou mais vezes para conseguir a estacionararia. Ao fazê-lo, produz um modelo ARIMA, com o I de Integrado. Algumas formulações transformam a série subtraindo a média da série de cada ponto de dados. Isso produz uma série com uma média de zero. Se você precisa fazer isso ou não é dependente do software que você usa para estimar o modelo. Os modelos de Modelos X-Jenkins podem ser estendidos para incluir termos médios verticais sazonais e autônomos sazonais. Embora isso complique a notação e a matemática do modelo, os conceitos subjacentes para os termos médias temporais sazonais e sazonais são semelhantes aos termos médios não-sazonais e à média móvel. O modelo Box-Jenkins mais geral inclui operadores de diferenças, termos autorregressivos, movendo-se Termos médios, operadores de diferenças sazonais, termos autorregressivos sazonais e termos de média móvel sazonal. Tal como acontece com a modelagem em geral, no entanto, apenas os termos necessários devem ser incluídos no modelo. Os interessados ​​nos detalhes matemáticos podem consultar Box, Jenkins e Reisel (1994). Chatfield (1996). Ou Brockwell e Davis (2002). Etapas na modelagem Box-Jenkins As seguintes observações sobre modelos Box-Jenkins devem ser anotadas. Os modelos Box-Jenkins são bastante flexíveis devido à inclusão de termos médios verticais e automotivos. Com base na decomposição de Wold (não discutida no Manual), um processo estacionário pode ser aproximado por um modelo ARMA. Na prática, encontrar essa aproximação pode não ser fácil. Chatfield (1996) recomenda métodos de decomposição para séries em que a tendência e os componentes sazonais são dominantes. Construir bons modelos ARIMA geralmente requer mais experiência que os métodos estatísticos comumente usados, como a regressão. Série Suficientemente Longa Requerida Normalmente, o ajuste efetivo dos modelos Box-Jenkins requer pelo menos uma série moderadamente longa. Chatfield (1996) recomenda pelo menos 50 observações. Muitos outros recomendariam pelo menos 100 observações. O primeiro passo no desenvolvimento de um modelo Box-Jenkins é determinar se a série é estacionária e se há alguma estacionalidade significativa que precisa ser modelada. A estacionança pode ser avaliada a partir de um gráfico de seqüência de execução. O gráfico de sequência de execução deve mostrar localização e escala constantes. Também pode ser detectado a partir de um gráfico de autocorrelação. Especificamente, a não-estacionaridade é frequentemente indicada por um gráfico de autocorrelação com decadência muito lenta. Diferindo para alcançar a estacionança Box e Jenkins recomendam a abordagem de diferenciação para alcançar a estacionararia. No entanto, ajustar uma curva e subtrair os valores ajustados dos dados originais também pode ser usado no contexto dos modelos Box-Jenkins. Na fase de identificação do modelo, nosso objetivo é detectar a sazonalidade, se existir, e identificar a ordem dos termos médias temporais sazonais e autorregressivos sazonais. Para muitas séries, o período é conhecido e um único termo de sazonalidade é suficiente. Por exemplo, para dados mensais, normalmente incluiríamos um termo sazonal de AR 12 ou um termo sazonal de MA 12. Para os modelos Box-Jenkins, não removemos explicitamente a sazonalidade antes de ajustar o modelo. Em vez disso, incluímos a ordem dos termos sazonais na especificação do modelo para o software de estimação ARIMA. No entanto, pode ser útil aplicar uma diferença sazonal aos dados e regenerar a autocorrelação e os gráficos de autocorrelação parcial. Isso pode ajudar na identificação do modelo do componente não-sazonal do modelo. Em alguns casos, a diferenciação sazonal pode remover a maioria ou todo o efeito da sazonalidade. Identificar p e q Uma vez que a estacionaridade e a sazonalidade foram abordadas, o próximo passo é identificar a ordem (ou seja, (p) e (q)) dos termos médios autorregressivos e móveis. Listas de autocorrelação e autocorrelação parcial As principais ferramentas para fazer isso são o gráfico de autocorrelação e o gráfico de autocorrelação parcial. O gráfico de autocorrelação da amostra e o gráfico de autocorrelação parcial da amostra são comparados com o comportamento teórico dessas parcelas quando a ordem é conhecida. Ordem do Processo Autoregressivo ((p)) Especificamente, para um processo AR (1), a função de autocorrelação da amostra deve ter uma aparência exponencialmente decrescente. No entanto, os processos AR de ordem superior são muitas vezes uma mistura de componentes sinusoidais exponencialmente decrescentes e amortecidos. Para processos autoregressivos de ordem superior, a autocorrelação de amostra precisa ser complementada com um gráfico de autocorrelação parcial. A autocorrelação parcial de um processo AR ((p)) torna-se zero em lag (p 1) e maior, então examinamos a função de autocorrelação parcial da amostra para ver se há evidência de uma partida de zero. Isso geralmente é determinado ao colocar um intervalo de confiança 95 no gráfico de autocorrelação parcial da amostra (a maioria dos programas de software que geram gráficos de autocorrelação de amostra também irá traçar esse intervalo de confiança). Se o programa de software não gerar a banda de confiança, é aproximadamente (pm 2sqrt), com (N) o tamanho da amostra. Ordem do processo médio móvel ((q)) A função de autocorrelação de um processo MA ((q)) torna-se zero no intervalo (q 1) e maior, então examinamos a função de autocorrelação da amostra para ver onde ela se torna essencialmente zero. Fazemos isso colocando o intervalo de confiança 95 para a função de autocorrelação da amostra no gráfico de autocorrelação da amostra. A maioria dos softwares que podem gerar o gráfico de autocorrelação também podem gerar esse intervalo de confiança. A função de autocorrelação parcial da amostra geralmente não é útil para identificar a ordem do processo de média móvel. Forma da função de autocorrelação A tabela a seguir resume a forma como usamos a função de autocorrelação da amostra para a identificação do modelo. Introdução gentil ao método Box-Jenkins para a Previsão de séries temporais O modelo médio de migração integrado autoregressivo, ou ARIMA para abreviar é um modelo estatístico padrão para o tempo Previsão e análise de séries. Além de seu desenvolvimento, os autores Box e Jenkins também sugerem um processo para identificar, estimar e verificar modelos para um conjunto de dados de séries temporais específicas. Esse processo agora é chamado de Método Box-Jenkins. Nesta publicação, você descobrirá o método Box-Jenkins e dicas para usá-lo em seu problema de previsão de séries temporais. Especificamente, você aprenderá: Sobre o processo ARIMA e como as 3 etapas do Método Box-Jenkins. Heurísticas de melhores práticas para selecionar a configuração do modelo q, d e p para um modelo ARIMA. Avaliando modelos procurando por superposição e erros residuais como um processo de diagnóstico. Let8217s começaram. Uma introdução suave ao método Box-Jenkins para a foto de previsões da série temporal de Erich Ferdinand. Alguns direitos reservados. Modelo Mínimo Integrado Autoregresso Um modelo ARIMA é uma classe de modelo estatístico para análise e previsão de dados da série temporal. ARIMA é um acrônimo que significa A uto R egressive I ntegrated M oving A verage. É uma generalização da média móvel mais simples AutoRegressive e acrescenta a noção de integração. Este acrônimo é descritivo, capturando os principais aspectos do próprio modelo. Resumidamente, eles são: AR. Autoregression. Um modelo que usa a relação dependente entre uma observação e algum número de observações atrasadas. EU . Integrado. O uso da diferenciação de observações em bruto (isto é, subtraindo uma observação de uma observação no passo de tempo anterior) de modo a tornar as séries temporais estacionárias. MA. Média móvel. Um modelo que usa a dependência entre uma observação e erros residuais de um modelo de média móvel aplicado a observações atrasadas. Cada um desses componentes é explicitamente especificado no modelo como um parâmetro. Uma notação padrão é usada de ARIMA (p, d, q) onde os parâmetros são substituídos por valores inteiros para indicar rapidamente o modelo ARIMA específico que está sendo usado. Os parâmetros do modelo ARIMA são definidos da seguinte forma: p. O número de observações de atraso incluído no modelo, também chamado de ordem de atraso. D. O número de vezes que as observações em bruto são diferenciadas, também chamado de grau de diferenciação. Q. O tamanho da janela da média móvel, também denominado a ordem da média móvel. Método Box-Jenkins O método Box-Jenkins foi proposto por George Box e Gwilym Jenkins em seus livros semanais de 1970, Time Series Analysis: Forecasting and Control. A abordagem começa com o pressuposto de que o processo que gerou a série temporal pode ser aproximado usando um modelo ARMA se for estacionário ou um modelo ARIMA se não for estacionário. A 5ª edição do livro de texto 2017 (Parte II, página 177) refere-se ao processo como um modelo de modelo estocástico e que é uma abordagem iterativa que consiste nas seguintes 3 etapas: Identificação. Use os dados e todas as informações relacionadas para ajudar a selecionar uma sub-classe de modelo que melhor resuma os dados. Estimativa. Use os dados para treinar os parâmetros do modelo (isto é, os coeficientes). Verificação de diagnóstico. Avalie o modelo ajustado no contexto dos dados disponíveis e verifique se há áreas em que o modelo pode ser melhorado. É um processo iterativo, de modo que, à medida que novas informações são obtidas durante o diagnóstico, você pode voltar ao passo 1 e incorporá-lo às novas classes do modelo. Let8217s dê uma olhada nestes passos com mais detalhes. 1. Identificação O passo de identificação é ainda dividido em: Avalie se as séries temporais estão estacionárias e, caso contrário, quantas diferenças são necessárias para torná-la estacionária. Identifique os parâmetros de um modelo ARMA para os dados. 1.1 Diferenças Abaixo estão algumas dicas durante a identificação. Teste de raiz unitária. Use os testes estatísticos da raiz unitária na série temporal para determinar se está ou não estacionário. Repita após cada rodada de diferenciação. Evite a diferenciação. Diferenciar as séries temporais mais do que o necessário pode resultar na adição de correlação serial adicional e complexidade adicional. 1.2 Configuração de AR e MA Dois gráficos de diagnóstico podem ser usados ​​para escolher os parâmetros p e q do ARMA ou ARIMA. São eles: função de autocorrelação (ACF). A trama resume a correlação de uma observação com os valores de lag. O eixo x mostra o atraso e o eixo y mostra o coeficiente de correlação entre -1 e 1 para correlação negativa e positiva. Função de autocorrelação parcial (PACF). A trama resume as correlações para uma observação com valores de atraso que não são contabilizados por observações atrasadas anteriores. Ambas as tramas são desenhadas como gráficos de barras que mostram os intervalos de confiança 95 e 99 como linhas horizontais. Barras que cruzam esses intervalos de confiança são, portanto, mais significativas e vale a pena notar. Alguns padrões úteis que você pode observar nessas parcelas são: O modelo é AR se o ACF se desloca após um atraso e tiver um corte rígido no PACF após um atraso. Este atraso é tomado como o valor para p. O modelo é MA se o PACF se deslizar após um atraso e tiver um corte rígido no ACF após o atraso. Esse valor de atraso é tomado como o valor para q. O modelo é uma mistura de AR e MA se tanto o ACF como o PACF se desligam. 2. Estimativa A estimativa envolve o uso de métodos numéricos para minimizar um termo de perda ou erro. Não vamos entrar nos detalhes da estimativa dos parâmetros do modelo, pois esses detalhes são tratados pela biblioteca ou ferramenta escolhida. Eu recomendaria referir-se a um livro de texto para uma compreensão mais profunda do problema de otimização a ser resolvido pelos modelos ARMA e ARIMA e métodos de otimização como BFGS de memória limitada usado para resolvê-lo. 3. Verificação de diagnóstico A idéia de verificação de diagnóstico é procurar indícios de que o modelo não é adequado para os dados. Duas áreas úteis para investigar o diagnóstico são: 3.1 Sobreposição A primeira verificação é verificar se o modelo supera os dados. Geralmente, isso significa que o modelo é mais complexo do que precisa ser e captura o ruído aleatório nos dados de treinamento. Este é um problema para a previsão de séries temporais porque afeta negativamente a capacidade do modelo de generalizar, resultando em um mau desempenho de previsão em dados fora da amostra. Deve ser dada uma atenção cuidadosa ao desempenho na amostra e fora da amostra, o que requer o design cuidadoso de um dispositivo de teste robusto para avaliação de modelos. 3.2 Erros residuais Os resíduos de previsão fornecem uma ótima oportunidade para o diagnóstico. Uma revisão da distribuição de erros pode ajudar a provocar o viés no modelo. Os erros de um modelo ideal se assemelham ao ruído branco, ou seja, uma distribuição gaussiana com uma média de zero e uma variância simétrica. Para isso, você pode usar gráficos de densidade, histogramas e parcelas Q-Q que comparam a distribuição de erros com a distribuição esperada. Uma distribuição não gaussiana pode sugerir uma oportunidade para o pré-processamento de dados. Uma inclinação na distribuição ou uma média não-zero pode sugerir um viés em previsões que podem estar corretas. Além disso, um modelo ideal não deixaria nenhuma estrutura temporal na série temporal de resíduos previstos. Estes podem ser verificados criando gráficos ACF e PACF das séries temporais de erro residual. A presença de correlação em série nos erros residuais sugere mais oportunidades para usar essa informação no modelo. Leitura adicional O recurso definitivo sobre o tema é Time Series Analysis: Forecasting and Control. Eu recomendaria a 5ª edição de 2017, especificamente a Parte II e os Capítulos 6-10. Abaixo estão algumas leituras adicionais que podem ajudar a entender seu entendimento se você estiver olhando para aprofundar: nesta publicação, você descobriu o Método Box-Jenkins para análise e previsão de séries temporais. Especificamente, você aprendeu: Sobre o modelo ARIMA e as 3 etapas do método geral Box-Jenkins. Como usar gráficos ACF e PACF para escolher os parâmetros p e q para um modelo ARIMA. Como usar a superposição e erros residuais para diagnosticar um modelo ARIMA adequado. Você tem alguma dúvida sobre o Método Box-Jenkins ou sobre esta postagem Faça suas perguntas nos comentários abaixo e farei o meu melhor para responder. Sobre Jason Brownlee Jason é o editor-chefe do MachineLearningMastery. Ele é marido, pai orgulhoso, pesquisador acadêmico, autor, desenvolvedor profissional e praticante de aprendizado de máquinas. Ele tem um mestrado e doutorado em Inteligência Artificial, publicou livros sobre Aprendizado de Máquinas e escreveu o código operacional que está funcionando em produção. Saber mais. Como modelar erros residuais para corrigir previsões das séries temporais com Python

No comments:

Post a Comment