Influência Estatística Em Stata Forex

Diagnóstico de Influência Esta seção discute a opção INFLUENCE, que produz várias estatísticas de influência, e a opção PARTIAL, que produz parcelas de alavancagem de regressão parcial. A opção INFLUENCE 13 13 A opção INFLUENCE (na declaração MODEL) solicita as estatísticas propostas por Belsley, Kuh e Welsch (1980) para medir a influência de cada observação nas estimativas. As observações influentes são aquelas que, segundo vários critérios, parecem ter uma grande influência nas estimativas dos parâmetros. Seja b (i) as estimativas dos parâmetros após a supressão da i ª observação, deixe s (i) 2 ser a estimativa de variância após a exclusão da i ª observação, deixe X (i) ser a matriz X sem a i ª observação, seja o i th O valor previsto sem usar a i ª observação deve ser o i residual e deixar oi a i-ésima diagonal da matriz de projeção para 13 o espaço do preditor, também chamado de matriz do chapéu. Belsley, Kuh e Welsch propõem um corte de 2 p n. Onde n é o número de observações utilizadas para ajustar o modelo e p é o número de parâmetros no modelo. As observações com os valores h i acima deste ponto de corte devem ser investigadas. Para cada observação, o PROC REG primeiro exibe o residual, o residual estudado (RSTUDENT) e o h i. 13 O RSTUDENT residencial estudado difere ligeiramente do ESTUDANTE, uma vez que a variância do erro é estimada por s (i) 2 sem a i ª observação, e não pela s 2. Por exemplo, as observações com RSTUDENT maiores que 2 em valor absoluto podem precisar de alguma atenção. A estatística COVRATIO mede a mudança em 13 o determinante da matriz de covariância das estimativas, excluindo a i ª observação: Belsley, Kuh e Welsch sugerem que as observações com onde p é o número de parâmetros no modelo e n é o número de Observações utilizadas para se ajustar ao modelo, merecem ser investigadas. A estatística DFFITS é uma medida escalonada da alteração no valor previsto para a i ª observação e 13 é calculada pela exclusão da i ª observação. Um grande valor indica que a observação é muito influente em sua vizinhança do espaço X. Grandes valores de DFFITS indicam observações influentes. Um ponto de corte geral a considerar é 2 um corte de tamanho ajustado recomendado por Belsley, Kuh e Welsch é, onde n e p são como definidos anteriormente. A estatística DFFITS é muito semelhante à Cooks D. Definido na seção 34 Valores corrigidos e residuais34. As estatísticas DFBETAS são as medidas dimensionadas da mudança em cada estimativa do parâmetro 13 e são calculadas pela exclusão da i ª observação: em geral, grandes valores de DFBETAS indicam observações influentes na estimativa de um dado parâmetro. Belsley, Kuh e Welsch recomendam 2 como um valor de corte geral para indicar observações influentes e como um corte de tamanho ajustado. A Figura 55.42 mostra as tabelas produzidas pela opção INFLUENCE para o exemplo de população (seção 34Polynomial Regression34). Veja a Figura 55.29 para a equação de regressão ajustada. O Procedimento REG Figura 55.43: Regressão Usando a Opção de INFLUÊNCIA na Figura 55.42. As observações 16, 17 e 19 excedem o valor de corte de 2 para RSTUDENT. Nenhuma das observações excede o ponto de corte geral de 2 para DFFITS ou DFBETAS, mas as observações 16, 17 e 19 excedem pelo menos um dos limites de ajuste ajustados por tamanho para essas estatísticas. As observações 1 e 19 excedem o ponto de corte para as diagonais do chapéu, e as observações 1, 2, 16, 17 e 18 excedem os limites para COVRATIO. Tomados em conjunto, essas estatísticas indicam que você deve examinar primeiro as observações 16, 17 e 19 e depois investigar as outras observações que excederam um ponto de corte. A opção PARCIAL 13 13 A opção PARCIAL na indicação MODELO produz parcelas de alavancagem de regressão parcial. Esta opção requer o uso da opção LINEPRINTER na instrução PROC REG, uma vez que os gráficos de regressão parcial de alta resolução não são suportados atualmente. Uma trama é criada para cada regressor no modelo atual completo. Por exemplo, as parcelas são produzidas para regressores incluídos ao usar instruções ADD. As parcelas não são produzidas para modelos intermediários nos vários métodos de seleção de modelos, mas apenas para o modelo completo. Se você usa um método de seleção de modelo e o modelo final contém apenas um subconjunto dos regressores originais, a opção PARTIAL ainda produz gráficos para todos os regressores no modelo completo. Para um regressor determinado, o gráfico de alavancagem de regressão parcial é o gráfico da variável dependente e o regressor depois que eles foram feitos ortogonal aos outros regressores no modelo. Estes podem ser obtidos ao traçar os resíduos para a variável dependente contra os resíduos para o regressor selecionado, onde os resíduos para a variável dependente são calculados com o regressor selecionado omitido e os resíduos para o regressor selecionado são calculados a partir de um modelo onde o selecionado O regressor está regredido nos regressores restantes. Uma linha adequada aos pontos tem uma inclinação igual à estimativa do parâmetro no modelo completo. Na trama, os pontos são marcados pelo número de repetições que aparecem em uma posição. O símbolo é usado se houver dez ou mais repetições. Se uma indicação ID for especificada, o caractere não-branco mais à esquerda no valor da variável ID é usado como o símbolo de traçado. As seguintes instruções usam os dados de aptidão no Exemplo 55.1 com a opção PARCIAL para produzir os gráficos de alavancagem de regressão parcial na janela OUTPUT. As parcelas não são mostradas. As seguintes instruções criam um dos gráficos de regressão parcial em um dispositivo gráfico de alta resolução para os dados de fitness. Todos os quatro gráficos (criados por regressão de oxigênio e uma das variáveis nas variáveis restantes) são exibidos na Figura 55.43. Observe que a variável Int é explicitamente adicionada para ser usada como termo de interceptação. Figura 55.44: Traçados de alavanca de regressão parcialWelcome ao Instituto de Pesquisa e Educação Digital Lição 3 Diagnóstico de Regressão Logística NOTA: Esta página está em construção. Nos dois capítulos anteriores, nos concentramos em questões relacionadas à análise de regressão logística, como como criar variáveis de interação e como interpretar os resultados de nosso modelo logístico. Para que nossa análise seja válida, nosso modelo deve satisfazer os pressupostos de regressão logística. Quando os pressupostos da análise de regressão logística não são atendidos, podemos ter problemas, como estimativas de coeficientes tendenciosos ou erros padrão muito grandes para os coeficientes de regressão logística, e esses problemas podem levar a inferências estatísticas inválidas. Portanto, antes de poder usar nosso modelo para fazer qualquer inferência estatística, precisamos verificar se nosso modelo se encaixa suficientemente bem e verificar observações influentes que tenham impacto nas estimativas dos coeficientes. Neste capítulo, vamos nos concentrar em como avaliar o ajuste do modelo, como diagnosticar problemas potenciais em nosso modelo e como identificar as observações que têm impacto significativo no ajuste do modelo ou estimativas de parâmetros. Comece com uma revisão dos pressupostos de regressão logística. As verdadeiras probabilidades condicionais são uma função logística das variáveis independentes. Nenhuma variável importante é omitida. Não estão incluídas variáveis estranhas. As variáveis independentes são medidas sem erro. As observações são independentes. As variáveis independentes não são combinações lineares entre si. Neste capítulo, continuaremos a usar o conjunto de dados apilog. 3.1 Erro de especificação Quando construímos um modelo de regressão logística, assumimos que o logit da variável de resultado é uma combinação linear das variáveis independentes. Isso envolve dois aspectos, pois lidamos com os dois lados da nossa equação de regressão logística. Primeiro, considere a função de ligação da variável de resultados no lado esquerdo da equação. Assumimos que a função logit (na regressão logística) é a função correta para usar. Em segundo lugar, no lado direito da equação, assumimos que incluímos todas as variáveis relevantes, que não incluímos nenhuma variável que não deveria estar no modelo e a função logit é uma combinação linear dos preditores. Pode acontecer que a função logit como função de link não seja a escolha correta ou a relação entre o logit da variável de resultado e as variáveis independentes não seja linear. Em ambos os casos, temos um erro de especificação. A falta de especificação da função de ligação geralmente não é muito grave em comparação com o uso de outras opções alternativas de função de link, como o probit (com base na distribuição normal). Na prática, estamos mais preocupados com o fato de nosso modelo possuir todos os preditores relevantes e se a combinação linear deles é suficiente. O linktest do comando Stata pode ser usado para detectar um erro de especificação, e ele é emitido após o comando logit ou logística. A idéia por trás do linktest é que, se o modelo estiver corretamente especificado, não se pode encontrar nenhum preditor adicional que seja estatisticamente significativo exceto por acaso. Após o comando de regressão (no nosso caso, logit ou logística), o linktest usa o valor previsto linear (hat) e o valor previsto linear ao quadrado (hatsq) como preditores para reconstruir o modelo. O chapéu variável deve ser um preditor estatisticamente significativo, uma vez que é o valor previsto do modelo. Este será o caso, a menos que o modelo seja completamente especificado. Por outro lado, se o nosso modelo for especificamente especificado, os chapéush variáveis não devem ter muito poder preditivo exceto por acaso. Portanto, se hatsq é significativo, então o linktest é significativo. Isso geralmente significa que ou omitimos variáveis relevantes ou nossa função de link não está corretamente especificada. Agora vamos ver um exemplo. No nosso conjunto de dados api, temos uma variável chamada credml. Que é definido para 707 observações (escolas) cuja porcentagem de professores credenciais estão no meio e menor alcance. Para esta subpopulação das escolas, acreditamos que as variáveis yrrnd. As refeições e o credml são preditores poderosos para prever se um índice de api das escolas é alto. Então, corremos o seguinte comando logit seguido pelo comando linktest. Primeiro, veremos na saída do comando logit que os três preditores são todos preditores estatisticamente significativos, e no teste de link que se seguiu, a variável hatsq é significativa (com p-valor de 0,006). Isso confirma, por um lado, que escolhemos preditores significativos. Por outro lado, nos diz que temos um erro de especificação (uma vez que o linktest é significativo). A primeira coisa a fazer para remediar a situação é ver se incluímos todas as variáveis relevantes. Na maioria das vezes, pensamos que incluímos todas as variáveis, mas ignoramos as possíveis interações entre algumas das variáveis predictoras. Este pode ser o caso com o nosso modelo. Então, tentamos adicionar um termo de interação ao nosso modelo. Criamos uma variável de interação yr yrrndmeals e adicione-a ao nosso modelo e tente novamente o linktest. Em primeiro lugar, o termo de interação é significativo com o valor p .015. Em segundo lugar, o linktest não é mais significativo. Esta é uma indicação de que devemos incluir o termo de interação no modelo e, ao incluí-lo, obtemos um modelo melhor em termos de especificação do modelo. Vamos agora comparar os dois modelos que acabamos de construir. A partir da saída do nosso primeiro comando logit, temos a seguinte equação de regressão: logit (hiqual) 2.411226 - 1.185658 yrrnd -.0932877 refeições .7415145 credml Este modelo não possui a interação das variáveis yrrnd e comidas. Portanto, o efeito das refeições variáveis é o mesmo, independentemente de uma escola ser ou não um ano na escola. Por outro lado, no segundo modelo, logit (hiqual) 2.668048 - 2.816989 yrrnd -1014958 refeições .7795476 credml .0459029 ym, o efeito das refeições variáveis é diferente dependendo de se uma escola é um ano em torno da escola ou não . Mais precisamente, se uma escola não é um ano em volta da escola, o efeito das refeições variáveis é -1014958 no logit da variável de resultado hiqual e o efeito é -1014958 .0459029 -.0555929 para um ano em volta da escola. Isso faz sentido, uma vez que um ano em torno da escola geralmente tem uma porcentagem maior de estudantes em refeições com preços gratuitos ou baixos do que uma escola que não é ano-a-volta. Portanto, dentro das escolas de um ano a outro, as refeições variáveis não são mais poderosas do que é para uma escola geral. Isso nos diz que, se não especificarmos o nosso modelo corretamente, o efeito das refeições variáveis pode ser estimado com viés. Precisamos ter em mente que linkest é simplesmente uma ferramenta que ajuda a verificar o nosso modelo. Tem seus limites. É melhor ter uma teoria em mente para orientar nossa construção de modelo, que verificamos nosso modelo em relação à nossa teoria e que validemos nosso modelo com base em nossa teoria. Vamos ver outro exemplo em que o linktest não está funcionando tão bem. Vamos construir um modelo para prever o hiqual usando o ano e os prêmios como preditores. Observe que o pseudo R-square é 0,076, que está no lado baixo. No entanto, nós executamos o linktest. E é muito não significativo (pág. 909). Acontece que hatsq e hat estão altamente correlacionados com a correlação de -9616, produzindo um hatq não significativo, uma vez que não proporciona muita informação nova além do próprio chapéu. Sabemos que as refeições variáveis estão muito relacionadas com a variável de resultados e que devemos tê-la em nosso modelo. Portanto, corremos outro modelo com as refeições como um preditor adicional. Desta vez, o linktest revela-se significativo. Qual deles é o melhor modelo Se olharmos para o pseudo R-square, por exemplo, ele passa de 0,076 a 0,596. Definitivamente vamos com o segundo modelo. Isso nos diz que o linktest é uma ferramenta limitada para detectar erros de especificação exatamente como qualquer outra ferramenta. É útil nos ajudar a detectar, mas precisamos usar nosso melhor julgamento, como sempre. Já vimos anteriormente que, sem um termo de interação, poderia causar um problema de especificação do modelo. Da mesma forma, também podemos ter um problema de especificação do modelo se algumas das variáveis preditoras não forem devidamente transformadas. Por exemplo, a mudança de uma variável dependente em um preditor pode não ser linear, mas apenas o termo linear é usado como preditor no modelo. Para abordar isso, um programa Stata chamado boxtid pode ser usado. É um programa escrito por usuário que você pode baixar pela internet digitando quot findit boxtid quot. Boxtid significa modelo Box-Tidwell, que transforma um preditor usando transformações de energia e encontra a melhor potência para ajuste de modelo com base na estimativa de máxima probabilidade. Mais precisamente, um preditor x é transformado em B 1 B 2 x p e o melhor p é encontrado usando a estimativa de máxima probabilidade. Além de estimar a transformação de energia, boxtid também estima transformações exponenciais, que podem ser vistas como funções de potência na escala exponencial. Vamos olhar para outro modelo onde prevemos o hiqaul desde o ano e as refeições. Bem, comece com um modelo com apenas dois preditores. O linktest é significativo, indicando um problema com a especificação do modelo. Em seguida, usamos boxtid. E apresenta a melhor transformação das variáveis preditoras, se necessário. O teste de não-linearidade para as refeições variáveis é estatisticamente significativo com p-valor .005. A hipótese nula é que as refeições variáveis preditoras são de um termo linear ou, de forma equivalente, p1 1. Mas mostra que p1 é em torno de .55 para ser otimizado. Isso sugere uma transformação da raiz quadrada das refeições variáveis. Então, tente essa abordagem e substitua as refeições variáveis pela própria raiz quadrada. Isso pode ser consistente com uma teoria de que o efeito das refeições variáveis se atenuará no final. Isso mostra que às vezes o logit da variável de resultado pode não ser uma combinação linear das variáveis dos preditores, mas uma combinação linear de variáveis de preditores transformadas, possivelmente com termos de interação. Nós apenas arranhamos a superfície sobre como lidar com a questão dos erros de especificação. Na prática, é necessária uma combinação de uma boa compreensão da teoria por trás do modelo e um conjunto de ferramentas estatísticas para detectar erros de especificação e outros problemas potenciais para guiar-nos através da construção de modelos. Referências sobre onde encontrar mais informações e / ou exemplos 3.2 Bondade de ajuste Observamos em nossas lições anteriores que a saída de Statas da regressão logística contém a probabilidade de log do qui-quadrado e pseudo R-quadrado para o modelo. Essas medidas, juntamente com outras que também vamos discutir nesta seção, nos fornecem um indicador geral sobre como o modelo se adapta aos dados. Comece com um modelo que mostramos anteriormente. O Qui-quadrado de probabilidade de log é um teste omnibus para ver se o modelo como um todo é estatisticamente significativo. É 2 vezes a diferença entre a probabilidade de log do modelo atual e a probabilidade de log do modelo de intercepção. Como a Stata sempre inicia seu processo de iteração com o modelo de intercepção, a probabilidade de log na Iteração 0 mostrada acima corresponde à probabilidade de log do modelo vazio. Os quatro graus de liberdade vem das quatro variáveis preditoras que o modelo atual tem. Um pseudo R-quadrado está em um sabor ligeiramente diferente, mas captura mais ou menos a mesma coisa, pois é a proporção de mudanças em termos de probabilidade. É um quotpseudoquot R-square porque é diferente do R-square encontrado na regressão OLS, onde R-square mede a proporção de variância explicada pelo modelo. O pseudo R-quadrado não é medido em termos de variância, uma vez que na regressão logística a variância é corrigida como variância da distribuição logística padrão. No entanto, ainda é uma proporção em termos de probabilidade de log. Por causa do problema de que (o que) nunca será 1, houve muitas variações desse particular pseudo R-quadrado. Devemos também notar que diferentes pseudo R-quadrados podem dar avaliações muito diferentes de um ajuste de modelos e que não há uma versão de ps-run R-square que seja preferida pela maioria dos analistas de dados em outras versões. Outro teste de ajuste comum do modelo é o teste de bondade de ajuste de Hosmer e Lemeshows. A idéia por trás do teste de bondade de ajuste de Hosmer e Lemeshows é que a freqüência prevista e a freqüência observada devem corresponder de perto e, quanto mais de perto eles combinam, melhor será o ajuste. A estatística de bondade-de-ajuste de Hosmer-Lemeshow é calculada como o qui-quadrado de Pearson a partir da tabela de contingência de freqüências observadas e freqüências esperadas. Semelhante a um teste de associação de uma tabela de dois sentidos, um bom ajuste, conforme medido pelo teste de Hosmer e Lemeshows, produzirá um grande valor de p. Quando há preditores contínuos no modelo, haverá muitas células definidas pelas variáveis preditoras, fazendo uma tabela de contingência muito grande, o que resultaria em resultados significativos mais do que freqüentemente. Portanto, uma prática comum é combinar os padrões formados pelas variáveis preditoras em 10 grupos e formar uma tabela de contingência de 2 por 10. Com um p-valor de .33, podemos dizer que o teste de bondade de ajuste de Hosmer e Lemeshows indica Que nosso modelo se adequa bem aos dados. Existem muitas outras medidas de ajuste do modelo, tais como AIC (Akaike Information Criterion) e BIC (Bayesian Information Criterion). Um comando chamado fitstat exibirá a maioria deles após um modelo. Muitas vezes, fitstat é usado para comparar modelos. Digamos que queremos comparar o modelo atual que inclui o termo de interação de ano e refeições com um modelo sem o termo de interação. Podemos usar as opções de fitsat usando e economizando para comparar modelos. Note que fitstat só deve ser usado para comparar modelos aninhados. O primeiro fitstat exibe e salva as estatísticas de ajuste para o modelo maior e o segundo usa as informações salvas para comparar com o modelo atual. O resultado suporta o modelo sem interação sobre o modelo com a interação, mas apenas fracamente. Por outro lado, já mostramos que o termo de interação é significante. Mas se olharmos mais de perto, podemos ver seu coeficiente bastante pequeno na escala logit e é muito próximo de 1 na escala de odds ratio. Portanto, o significado substancial da interação estatisticamente significativa pode não ser tão proeminente quanto parece. 3.3 Multicollinearidade Multicollinearidade (ou colinearidade para curto) ocorre quando duas ou mais variáveis independentes no modelo são aproximadamente determinadas por uma combinação linear de outras variáveis independentes no modelo. Por exemplo, teríamos um problema com a multicolineariedade se tivéssemos altura medida em polegadas e altura medida em pés no mesmo modelo. O grau de multicolinearidade pode variar e pode ter diferentes efeitos no modelo. Quando ocorre uma colinearidade perfeita, isto é, quando uma variável independente é uma combinação linear perfeita dos outros, é impossível obter uma estimativa única de coeficientes de regressão com todas as variáveis independentes no modelo. O que a Stata faz neste caso é soltar uma variável que é uma combinação linear perfeita dos outros, deixando apenas as variáveis que não são combinações exatamente lineares de outras pessoas no modelo para assegurar uma estimativa única dos coeficientes de regressão. Por exemplo, podemos criar artificialmente uma nova variável chamada perli como a soma de refeições e refeições. Observe que o único propósito deste exemplo e a criação da variável perli é mostrar o que o Stata faz quando ocorre uma colinearidade perfeita. Observe que a Stata emite uma nota, informando-nos que a variável yrrnd foi retirada do modelo devido à colinearidade. Não podemos assumir que a variável que o Stata derruba do modelo é a variável quotcorrectquot a omitir do modelo em vez disso, precisamos confiar na teoria para determinar qual variável deve ser omitida. A multicolinearidade moderada é bastante comum, uma vez que qualquer correlação entre as variáveis independentes é uma indicação de colinearidade. Quando a multicolinearidade grave ocorre, os erros padrão para os coeficientes tendem a ser muito grandes (inflados) e às vezes os coeficientes estimados de regressão logística podem ser altamente confiáveis. Vamos considerar o seguinte exemplo. Neste modelo, a variável dependente será hiqual. E as variáveis preditoras incluirão avedado. Yrrnd. Refeições. cheio . E a interação entre o ano e cheio, yxfull. Após o procedimento de logit, também executaremos um teste de bondade de ajuste. Observe que o teste de bondade de ajuste indica que, em geral, nosso modelo se encaixa muito bem. No entanto, observe a relação ímpar e o erro padrão para a variável yrrnd são incrivelmente altos. Aparentemente, algo deu errado. Uma causa direta para a proporção estranha incrivelmente grande e erro padrão muito grande é a multicolinearidade entre as variáveis independentes. Podemos usar um programa chamado collin para detectar a multicolinealidade. Você pode baixar o programa do site da ATS dos programas Stata para ensino e pesquisa. (Etiqueta de achado) Todas as medidas no resultado acima são medidas da força das inter-relações entre as variáveis. Duas medidas comumente usadas são a tolerância (um indicador de quanta colinearidade que uma análise de regressão pode tolerar) e VIF (v ariance i nflation f actor-a n indicador de quanto da inflação do erro padrão pode ser causado pela colinearidade). A tolerância para uma variável particular é 1 menos R 2 que resulta da regressão das outras variáveis nessa variável. O VIF correspondente é simplesmente 1 tolerância. Se todas as variáveis são ortogonais entre si, em outras palavras, completamente não correlacionadas entre si, tanto a tolerância quanto o VIF são 1. Se uma variável estiver muito relacionada com outra (s) variável (s), a tolerância é para 0 e A inflação variância é muito grande. Por exemplo, na saída acima, vemos que a tolerância e o VIF para a variável yxfull são 0,0291 e 34,34, respectivamente. Podemos reproduzir esses resultados fazendo a regressão correspondente. Observe que o R 2 é .9709. Portanto, a tolerância é 1-.9709 .0291. O VIF é 1.0291 34.36 (a diferença entre 34.34 e 34.36 sendo erro de arredondamento). Como regra geral, uma tolerância de 0,1 ou menos (equivalente VIF de 10 ou superior) é motivo de preocupação. Agora, vimos o que a tolerância e o VIF medem e estamos convencidos de que existe um problema de colinearidade grave, o que fazemos sobre isso. Observe que, na regressão acima, as variáveis cheias e o único são os únicos preditores significativos e o coeficiente para o ano é muito grande. Isso ocorre porque muitas vezes quando criamos um termo de interação, também criamos algum problema de colinearidade. Isso pode ser visto na saída da correlação abaixo. Uma maneira de corrigir o problema da colinearidade é centralizar a variável completa como mostrado abaixo. Usamos o comando de soma para obter a média da variável cheia. E depois gere uma nova variável chamada fullc. Que está cheio menos o seu significado. Em seguida, geramos a interação de andrrnd e fullc. Chamado yxfc. Finalmente, executamos o comando logit com fullc e yxfc como preditores em vez de cheio e rápido. Lembre-se de que, se você usar uma variável centrada como preditor, você deve criar os termos de interação necessários usando a versão centralizada dessa variável (em vez da versão não centralizada). Mostramos a matriz de correlação antes e depois da centralização e notaremos quanto de mudança a centralização produziu. (Onde são essas matrizes de correlação) A centralização da variável cheia neste caso corrigiu o problema da colinearidade, e nosso modelo se encaixa bem em geral. A variável yrrnd não é mais um preditor significativo, mas o termo de interação entre yrrnd e full é. Ao poder manter todos os preditores em nosso modelo, será fácil para nós interpretar o efeito de cada um dos preditores. Este método de centralização é um caso especial de uma transformação das variáveis. A transformação das variáveis é o melhor remédio para a multicolinearidade quando funciona, já que não perdemos nenhuma variável de nosso modelo. Mas a escolha da transformação é muitas vezes difícil de fazer, além dos diretos como a centralização. Seria uma boa escolha se a transformação faz sentido em termos de modelagem, pois podemos interpretar os resultados. (O que seria uma boa escolha Esta sentença é redundante) Outros remédios geralmente sugeridos incluem excluir algumas das variáveis e aumentar o tamanho da amostra para obter mais informações. O primeiro nem sempre é uma boa opção, pois pode levar a um modelo mal especificado e a segunda opção nem sempre é possível. Referimos nossos leitores a Berry e Feldman (1985, pp. 46-50) para uma discussão mais detalhada sobre remédios para a colinealidade. Título de livro ou artigo 3.4 Observações influentes Até agora, vimos como detectar possíveis problemas na construção de modelos. Nos concentraremos agora na detecção de observações potenciais que tenham um impacto significativo no modelo. Existem várias razões pelas quais precisamos detectar observações influentes. Primeiro, estes podem ser erros de entrada de dados. Em segundo lugar, observações influentes podem ser de interesse por si mesmas para que possamos estudar. Além disso, os pontos de dados influentes podem distorcer a estimativa de regressão. (Não estou claro sobre o que isso realmente significa) Na regressão OLS, temos vários tipos de resíduos e medidas de influência que nos ajudam a entender como cada observação se comporta no modelo, como se a observação esteja muito longe do resto das observações , Ou se a observação tem alavancagem demais na linha de regressão. Técnicas semelhantes foram desenvolvidas para regressão logística. Os resíduos de Pearson e sua versão padronizada são um tipo de residual. Os resíduos de Pearson são definidos como a diferença padronizada entre a freqüência observada e a freqüência prevista. Eles medem os desvios relativos entre os valores observados e ajustados. O desvio residual é outro tipo de residual. Ele mede o desacordo entre o máximo das funções observáveis e de probabilidade de log ajustado. Uma vez que a regressão logística usa o princípio da máxima probabilidade, o objetivo na regressão logística é minimizar a soma dos resíduos de desvio. Portanto, esse residual é paralelo ao resíduo bruto na regressão OLS, onde o objetivo é minimizar a soma dos resíduos quadrados. Outra estatística, às vezes chamada de diagonal do chapéu, pois tecnicamente é a diagonal da matriz do chapéu, mede a alavanca de uma observação. Também é chamado de alavanca Pregibon. Essas três estatísticas, Pearson residual, desvio residual e pregibon alavancagem são considerados os três blocos de construção básicos para diagnósticos de regressão logística. Nós sempre queremos inspecionar estes primeiro. Eles podem ser obtidos da Stata após o comando logit ou logística. Uma boa maneira de vê-los é graficá-los contra as probabilidades previstas ou simplesmente números de casos. Deixe-nos vê-los em um exemplo. Continuamos a usar o modelo que construímos na nossa última seção, conforme mostrado abaixo. Bem, obtenha os resíduos padronizados de Pearson e os resíduos de desvio e traçá-los contra as probabilidades previstas. Parece haver mais do que apenas as parcelas dos resíduos de Pearson e os resíduos de desvio abaixo. Além disso, pode ser útil ter um comentário no código que descreve o enredo, por exemplo, o gráfico dos resíduos de Pearson versus as probabilidades previstas. Como você pode ver, produzimos dois tipos de parcelas usando essas estatísticas: os gráficos das estatísticas contra os valores previstos e as parcelas dessas estatísticas contra o id do índice (também é chamado de gráfico de índice). Esses dois tipos De parcelas basicamente transmitem a mesma informação. Os pontos de dados parecem estar mais espalhados em gráficos de índice, tornando mais fácil ver o índice para as observações extremas. O que vemos nessas parcelas Vemos algumas observações que estão longe da maioria das outras observações. Estes são os pontos que precisam de atenção especial. Por exemplo, a observação com o número escolar 1403 tem um Pearson muito alto e um resíduo de desvio. O resultado observado hiqual é 1, mas a probabilidade prevista é muito, muito baixa (o que significa que o modelo prediz que o resultado seja 0). Isso leva a grandes resíduos. Mas note que a observação 1403 não é tão ruim em termos de alavancagem. Ou seja, ao não incluir esta observação particular, nossa estimativa de regressão logística não será muito diferente do modelo que inclui essa observação. Permite listar as observações mais destacadas com base nos gráficos. O que podemos encontrar em cada uma das observações O que os faz notar do outro A observação com o snum 1402 tem um grande valor de alavanca. Sua porcentagem de professores totalmente credenciais é de 36. Quando olhamos para a distribuição da opção cheia com detalhe, percebemos que 36 por cento é muito baixo, já que o ponto de corte para o menor 5 é de 61. Por outro lado, seu índice api É bastante elevado com api00 761. Isto é um pouco contrário à nossa intuição de que com a baixa porcentagem de professores totalmente credenciais, que a escola deveria ser uma escola de desempenho pobre. Now lets compare the logistic regression with this observation and without it to see how much impact it has on our regression coefficient estimates. We see that this single observation changes the variable yxfc from being significant to not significant, and the variable yrrnd from not significant to almost significant. (Can we say quotalmost significant Give the p-values instead yrrnd would be stat sig if our alpha level was .06) This one single observation has a huge leverage on the regression model. How about the other two observations You may want to compare the logistic regression analysis with the observation included and without the observation just as we have done here. One thing we notice is that avged is 5 for observation with snum 1819, the highest possible. This means that every students family has some graduate school education. This sounds too good to be true. This may well be a data entry error. This may well be the reason why this observation stands out so much from the others. This leads us to inspect our data set more carefully. We can list all the observations with perfect avged . There are three schools with a perfect avged score. It is very unlikely that the average education for any of the schools would reach a perfect score of 5. The observation with snum 3098 and the observation with snum 1819 seem more unlikely than the observation with snum 1081, though, since their api scores are very low. In any case, it seems that we should double check the data entry here. What do we want to do with these observations It really depends. Sometimes, we may be able to go back to correct the data entry error. Sometimes we may have to exclude them. Regression diagnostics can help us to find these problems, but they dont tell us exactly what to do about them. So far, we have seen the basic three diagnostic statistics: the Pearson residual, the deviance residual and the leverage (the hat value). They are the basic building blocks in logistic regression diagnostics. There are other diagnostic statistics that are used for different purposes. One important aspect of diagnostics is to identify observations with substantial impact on either the chi-square fit statistic or the deviance statistic. For example, we may want to know how much change in either the chi-square fit statistic or in the deviance statistic a single observation would cause. This leads to the dx2 and dd statistics. dx2 stands for the difference of chi-squares and dd stands for the difference of deviances. In Stata, we can simply use the predict command after the logit or logistic command to create these variables, as shown below. We can then visually inspect them. It is worth noticing that, first of all, these statistics are only one-step approximation of the difference, not quite the exact difference, since it would be computationally too extensive to obtain exact difference for every observation. (Im not clear about what a quotone-stepquot approximation is) Secondly, Stata does all the diagnostic statistics for logistic regression using covariate patterns. Each observation will have exactly the same diagnostic statistics as all of the other observations in the same covariate pattern. Perhaps give the variables names that are different than the options, just to avoid confusion. The observation with snum 1403 is obviously substantial in terms of both chi-square fit and the deviance fit statistic. For example, in the first plot, we see that dx2 is about 216 for this observation and below 100 for the rest of the observations. This means that when this observation is excluded from our analysis, the Pearson chi-square fit statistic will decrease by roughly 216. In the second plot, the observation with snum 1403 will increase the deviance about 11. We can run two analysis and compare their Pearson chi-squares to see if this is the case. It is not precisely 216. (Umm, in most cases, 171 isnt considered to be anywhere near 216. Is this really a good example) This is because of one-step approximation. We can also look at the difference between deviances in a same way. Since the deviance is simply 2 times the log likelihood, we can compute the difference of deviances as 2 times the difference in log likelihoods. When could it happen that an observation has great impact on fit statistics, but not too much impact on parameter estimates This is actually the case for the observation with snum 1403, because its leverage is not very large. Notice that the observation with snum 1403 has a fairly large residual. This means that the values for the independent variables of the observation are not in an extreme region, but the observed outcome for this point is very different from the predicted value. From the list of the observation below, we see that the percent of students receiving free or reduced-priced meals is about 100 percent, the avged score is 2.19, and it is a year-around school. All things considered, we wouldnt expect that this school is a high performance school. But its api score is 808, which is very high. With information on school number and district number, we can find out to which school this observation corresponds. It turns out that this school is Kelso Elementary School in Inglewood that has been doing remarkably well. One can easily find many interesting articles about the school. Therefore, regression diagnostics help us to recognize those schools that are of interest to study by themselves. The last type of diagnostic statistics is related to coefficient sensitivity. It concerns how much impact each observation has on each parameter estimate. Similar to OLS regression, we also have dfbetas for logistic regression. A program called ldfbeta is available for download (findit tag) . Like other diagnostic statistics for logistic regression, ldfbeta also uses one-step approximation. Unlike other logistic regression diagnostics in Stata, ldfbeta is at the individual observation level, instead of at the covariate pattern level. After either the logit or logistic command, we can simply issue the ldfbeta command. It can be used without any arguments, and in that case, dfbeta is calculated for each predictor. It will take some time since it is somewhat computationally intensive. Or we can specify a variable, as shown below. For example, suppose that we want to know how each individual observation affects the parameter estimate for the variable meals . There is another statistic called Pregibons dbeta which is provides summary information of influence on parameter estimates of each individual observation (more precisely each covariate pattern). dbeta is very similar to Cooks D in ordinary linear regression. This is more commonly used since it is much less computationally intensive. We can obtain dbeta using the predict command after the logit or logistic command. We have seen quite a few logistic regression diagnostic statistics. Now how large does each one have to be, to be considered influential First of all, we always have to make our judgment based on our theory and our analysis. Secondly, there are some rule-of-thumb cutoffs when the sample size is large. These are shown below. When the sample size is large, the asymptotic distribution of some of the measures would follow some standard distribution. That is why we have these cutoff values, and why they only apply when the sample size is large enough. Usually, we would look at the relative magnitude of a statistic an observation has compared to others. That is, we look for data points that are farther away from most of the data points. 3.5 Common Numerical Problems with Logistic Regression In this section, we are going to discuss some common numeric problems with logistic regression analysis. When we have categorical predictor variables, we may run into a quotzero-cellsquot problem. Vamos ver um exemplo. In the data set hsb2 . we have a variable called write for writing scores. For the purpose of illustration, we dichotomize this variable into two groups as a new variable called hw . Notice that one group is really small. With respect to another variable, ses . the crosstabulation shows that some cells have very few observations, and, in particular, the cell with hw 1 and ses low, the number of observations is zero. This will cause a computation issue when we run the logistic regression using hw as the dependent variable and ses as the predictor variable, as shown below. Notice that it takes more iterations to run this simple model and at the end, there is no standard error for the dummy variable Ises2 . Stata also issues a warning at the end. So what has happened The 47 failures in the warning note correspond to the observations in the cell with hw 0 and ses 1 as shown in the crosstabulation above. It is certain that the outcome will be 0 if the variable ses takes the value of 1 since there are no observations in the cell with hw 1 and ses 1. Although ses seems to be a good predictor, the empty cell causes the estimation procedure to fail. In fact, the odds ratio of each of the predictor variables is going to the roof: What do we do if a similar situation happens to our real-world data analysis Two obvious options are available. One is to take this variable out of the regression model. It might not be a good option, but it could help in verifying the problem. The other option is to collapse across some of the categories to increase the cell size. For example, we can collapse the two lower categories of the variable ses into one category. Here is a trivial example of perfect separation. Recall that our variable hw is created based on the writing score. So what happens when we use the variable write to predict hw . Of course, we will have a perfect prediction with hw 1 if and only if write gt67. Therefore, if we try to run this logit model in Stata, we will not see any estimates but simply a message: This is a very contrived example for the purpose of illustration. 3.6 Summary of Useful Commands linktest--performs a link test for model specification, in our case to check if logit is the right link function to use. This command is issued after the logit or logistic command. lfit--performs goodness-of-fit test, calculates either Pearson chi-square goodness-of-fit statistic or Hosmer-Lemeshow chi-square goodness-of-fit depending on if the group option is used. fitstat -- is a post-estimation command that computes a variety of measures of fit. lsens -- graphs sensitivity and specificity versus probability cutoff. lstat -- displays summary statistics, including the classification table, sensitivity, and specificity. lroc -- graphs and calculates the area under the ROC curve based on the model. listcoef--lists the estimated coefficients for a variety of regression models, including logistic regression. predict dbeta -- Pregibon delta beta influence statistic predict deviance -- deviance residual predict dx2 -- Hosmer and Lemeshow change in chi-square influence statistic predict dd -- Hosmer and Lemeshow change in deviance statistic predict hat -- Pregibon leverage predict residual -- Pearson residuals adjusted for the covariate pattern predict rstandard -- standardized Pearson residuals adjusted for the covariate pattern ldfbeta -- influence of each individual observation on the coefficient estimate ( not adjusted for the covariate pattern) graph with weightsomevariable option scatlog--produces scatter plot for logistic regression. boxtid--performs power transformation of independent variables and performs nonlinearity test. References Berry, W. D. and Feldman, S. (1985) Multiple Regression in Practice. Sage University Paper Series on Quantitative Applications in the Social Sciences, 07-050. Beverly Hill, CA: Sage. Pregibon, D. (1981) Logistic Regression Diagnostics, Annals of Statistics, Vol. 9, 705-724. Long and Freese, Regression Models for Categorical Dependent Variables Using Stata, 2nd Edition. Menard, S. (1995) Applied Logistic Regression Analysis. Sage University Paper Series on Quantitative Applications in the Social Sciences, 07-106. Thousand Oaks, CA: Sage.

Forex san carlos

Search This Blog

Influência Estatística Em Stata Forex

Comments

Post a Comment

Popular posts from this blog

Real Forex Millionaires

Gaforex Review Of Systems

Hbz Banco Forex Sistemas