Cabeçalhos
...

A análise de regressão é um método estatístico para estudar a dependência de uma variável aleatória em variáveis

Na modelagem estatística, a análise de regressão é um estudo usado para avaliar a relação entre as variáveis. Este método matemático inclui muitos outros métodos para modelar e analisar diversas variáveis, quando o foco está na relação entre a variável dependente e uma ou mais independentes. Mais especificamente, a análise de regressão ajuda a entender como um valor típico de uma variável dependente muda se uma das variáveis ​​independentes muda, enquanto as outras variáveis ​​independentes permanecem fixas.

Análise de regressão

Em todos os casos, a estimativa de destino é uma função de variáveis ​​independentes e é chamada de função de regressão. Na análise de regressão, também é interessante caracterizar a mudança na variável dependente como uma função da regressão, que pode ser descrita usando uma distribuição de probabilidade.

Tarefas de Análise de Regressão

Este método de pesquisa estatística é amplamente utilizado para previsão, onde seu uso tem uma vantagem significativa, mas às vezes pode levar a ilusões ou relações falsas, por isso recomenda-se utilizá-lo com cautela nesta questão, pois, por exemplo, correlação não significa uma relação causal.

Um grande número de métodos foi desenvolvido para conduzir análises de regressão, tais como regressão linear e de mínimos quadrados ordinários, que são paramétricas. Sua essência é que a função de regressão é definida em termos de um número finito de parâmetros desconhecidos que são estimados a partir dos dados. A regressão não paramétrica permite que suas funções estejam em um certo conjunto de funções, que podem ser de dimensão infinita.

Como método de pesquisa estatística, a análise de regressão na prática depende da forma do processo de geração de dados e de como ela se relaciona com a abordagem de regressão. Como a forma verdadeira do processo de dados está gerando, via de regra, um número desconhecido, a análise de regressão dos dados geralmente depende, em certa medida, das suposições sobre esse processo. Essas suposições são às vezes verificadas se houver dados suficientes disponíveis. Os modelos de regressão costumam ser úteis mesmo quando as suposições são moderadamente violadas, embora não possam funcionar com a máxima eficiência.

Em um sentido mais restrito, a regressão pode estar relacionada especificamente à avaliação de variáveis ​​de resposta contínua, em contraste com as variáveis ​​de resposta discreta usadas na classificação. O caso de uma variável de saída contínua também é chamado de regressão métrica para distingui-lo dos problemas relacionados.

A história

A primeira forma de regressão é o conhecido método dos mínimos quadrados. Foi publicado por Legendre em 1805 e Gauss em 1809. Legendre e Gauss aplicaram o método à tarefa de determinar a partir de observações astronômicas as órbitas de corpos ao redor do Sol (principalmente cometas, mas posteriormente novos planetas menores descobertos). Gauss publicou um desenvolvimento adicional da teoria dos mínimos quadrados em 1821, incluindo uma versão do teorema de Gauss-Markov.

Método de Pesquisa Estatística

O termo "regressão" foi cunhado por Francis Galton no século 19 para descrever um fenômeno biológico. A linha inferior era que o crescimento de descendentes do crescimento de antepassados, por via de regra, regride para a média normal.Para Galton, a regressão tinha apenas esse significado biológico, mas depois seu trabalho foi continuado por Udney Yule e Karl Pearson e levado a um contexto estatístico mais geral. No trabalho de Yule e Pearson, a distribuição conjunta de variáveis ​​de resposta e variáveis ​​explicativas é considerada gaussiana. Esta suposição foi rejeitada por Fisher nos trabalhos de 1922 e 1925. Fisher sugeriu que a distribuição condicional da variável resposta é gaussiana, mas a distribuição conjunta não deveria ser. Nesse sentido, a hipótese de Fischer está mais próxima da formulação de 1821 Gauss. Até 1970, às vezes levava até 24 horas para obter o resultado de uma análise de regressão.

Análise de dados de regressão

Os métodos de análise de regressão continuam sendo uma área de pesquisa ativa. Nas últimas décadas, novos métodos foram desenvolvidos para regressão confiável; regressão envolvendo respostas correlacionadas; métodos de regressão acomodando vários tipos de dados perdidos; regressão não paramétrica; Métodos de regressão bayesiana; regressões nas quais as variáveis ​​preditoras são medidas com um erro; regressões com mais preditoras do que observações, bem como inferências causais com regressão.

Modelos de regressão

Modelos de análise de regressão incluem as seguintes variáveis:

  • Parâmetros desconhecidos, designados como beta, que podem ser escalares ou vetoriais.
  • Variáveis ​​Independentes, X.
  • Variáveis ​​dependentes, Y.

Em vários campos da ciência onde a análise de regressão é aplicada, vários termos são usados ​​em vez de variáveis ​​dependentes e independentes, mas em todos os casos o modelo de regressão relaciona Y às funções X e β.

A aproximação geralmente toma a forma E (Y | X) = F (X, β). Para conduzir uma análise de regressão, o tipo de função f deve ser determinado. Menos comumente, é baseado no conhecimento da relação entre Y e X que não dependem de dados. Se tal conhecimento não estiver disponível, então uma forma flexível ou conveniente F é escolhida.

Variável Y dependente

Agora suponha que o vetor de parâmetros desconhecidos β tenha comprimento k. Para realizar uma análise de regressão, o usuário deve fornecer informações sobre a variável dependente Y:

  • Se houver N pontos de dados da forma (Y, X), onde N
  • Se exatamente N = K é observado, e a função F é linear, então a equação Y = F (X, β) pode ser resolvida exatamente, e não aproximadamente. Isso reduz a resolução de um conjunto de equações N com N-incógnitas (elementos de β), que tem uma solução única, contanto que X seja linearmente independente. Se F for não linear, a solução pode não existir ou muitas soluções podem existir.
  • A mais comum é a situação em que N> aponta para os dados são observados. Neste caso, há informação suficiente nos dados para avaliar o valor único para β que melhor corresponde aos dados, e o modelo de regressão, quando aplicado aos dados, pode ser considerado como um sistema sobredeterminado em β.

Neste último caso, a análise de regressão fornece ferramentas para:

  • Encontrar soluções para parâmetros desconhecidos β, que irão, por exemplo, minimizar a distância entre os valores medidos e previstos de Y.
  • Sob certas suposições estatísticas, a análise de regressão usa informações em excesso para fornecer informações estatísticas sobre parâmetros desconhecidos β e os valores previstos da variável dependente Y.

Número necessário de medições independentes

Considere um modelo de regressão que tenha três parâmetros desconhecidos: β0, β1 e β2. Suponha que o experimentador realize 10 medições no mesmo valor da variável independente do vetor X.Nesse caso, a análise de regressão não fornece um conjunto exclusivo de valores. A melhor coisa que você pode fazer é avaliar a média e o desvio padrão da variável dependente Y. Medindo dois valores X diferentes da mesma maneira, você pode obter dados suficientes para uma regressão com duas incógnitas, mas não para três ou mais incógnitas.

Exemplo de análise de regressão

Se as medições do experimentador foram realizadas em três valores diferentes da variável independente do vetor X, então a análise de regressão fornecerá um conjunto único de estimativas para três parâmetros desconhecidos em β.

No caso de regressão linear geral, a afirmação acima é equivalente ao requisito de que a matriz XTX é reversível.

Pressupostos Estatísticos

Quando o número de medições N é maior que o número de parâmetros desconhecidos keo erro de medição εeuentão, como regra, o excesso de informações contidas nas medições é então distribuído e usado para previsões estatísticas relativas a parâmetros desconhecidos. Esse excesso de informação é chamado de grau de liberdade de regressão.

Premissas fundamentais

Pressupostos clássicos para análise de regressão incluem:

  • A amostra é representativa da previsão de inferência.
  • O erro é uma variável aleatória com um valor médio de zero, que é condicional às variáveis ​​explicativas.
  • Variáveis ​​independentes são medidas sem erro.
  • Como variáveis ​​independentes (preditores), elas são linearmente independentes, ou seja, não é possível expressar qualquer preditor na forma de uma combinação linear das demais.
  • Os erros não são correlacionados, isto é, a matriz de covariância dos erros diagonais e cada elemento diferente de zero são a variância do erro.
  • A variância do erro é constante de acordo com as observações (homocedasticidade). Caso contrário, você pode usar o método de mínimos quadrados ponderados ou outros métodos.

Estas condições suficientes para a estimativa dos mínimos quadrados possuem as propriedades necessárias, em particular, estas suposições significam que as estimativas dos parâmetros serão objetivas, consistentes e efetivas, especialmente quando levadas em consideração na classe das estimativas lineares. É importante notar que as evidências raramente atendem às condições. Ou seja, o método é usado mesmo se as suposições não forem verdadeiras. Uma variação de suposições pode às vezes ser usada como uma medida de quão útil é esse modelo. Muitas dessas suposições podem ser mitigadas por métodos mais avançados. Os relatórios de análise estatística geralmente incluem a análise de testes com base em dados de amostra e metodologia para a utilidade do modelo.

Além disso, as variáveis, em alguns casos, referem-se a valores medidos em pontos. Pode haver tendências espaciais e autocorrelação espacial em variáveis ​​que violam as suposições estatísticas. A regressão ponderada geográfica é o único método que lida com esses dados.

Análise de Regressão Linear

Na regressão linear, uma característica é que a variável dependente, que é Yeué uma combinação linear de parâmetros. Por exemplo, em uma regressão linear simples, uma variável independente, x, é usada para modelar n-pontoseue dois parâmetros, β0 e β1.

Análise de Regressão Linear

Com a regressão linear múltipla, existem várias variáveis ​​independentes ou suas funções.

Com a amostragem aleatória de uma população, seus parâmetros permitem obter um modelo de modelo de regressão linear.

Neste aspecto, o método dos mínimos quadrados é o mais popular. Usando-o, estimativas de parâmetros são obtidas que minimizam a soma dos resíduos quadrados. Este tipo de minimização (que é característica de uma regressão linear) desta função leva a um conjunto de equações normais e um conjunto de equações lineares com parâmetros que são resolvidos para obter estimativas de parâmetros.

Sob a suposição adicional de que o erro da população geralmente se espalha, o pesquisador pode usar essas estimativas de erros padrão para criar intervalos de confiança e testar hipóteses sobre seus parâmetros.

Análise de regressão não linear

Um exemplo em que a função não é linear em relação aos parâmetros indica que a soma dos quadrados deve ser minimizada usando um procedimento iterativo. Isso introduz muitas complicações que determinam as diferenças entre os métodos de mínimos quadrados lineares e não-lineares. Consequentemente, os resultados da análise de regressão usando o método não linear são às vezes imprevisíveis.

Resultados da Análise de Regressão

Cálculo do poder e tamanho da amostra

Aqui, como regra, não há métodos consistentes em relação ao número de observações em comparação com o número de variáveis ​​independentes no modelo. A primeira regra foi proposta por Good e Hardin e se parece com N = t ^ n, onde N é o tamanho da amostra, n é o número de variáveis ​​independentes e t é o número de observações necessárias para alcançar a precisão desejada se o modelo tivesse apenas uma variável independente. Por exemplo, um pesquisador constrói um modelo de regressão linear usando um conjunto de dados que contém 1000 pacientes (N). Se o pesquisador decidir que cinco observações são necessárias para determinar com precisão a linha (m), então o número máximo de variáveis ​​independentes que o modelo pode suportar é 4.

Outros métodos

Apesar do fato de que os parâmetros do modelo de regressão são geralmente estimados usando o método dos mínimos quadrados, existem outros métodos que são usados ​​com muito menos frequência. Por exemplo, estes são os seguintes métodos:

  • Métodos bayesianos (por exemplo, método de regressão linear bayesiana).
  • Porcentagem de regressão, usada para situações em que uma redução nos erros percentuais é considerada mais apropriada.
  • Os menores desvios absolutos, que é mais estável na presença de outliers levando à regressão quantílica.
  • Regressão não paramétrica, requerendo um grande número de observações e cálculos.
  • A distância da métrica de aprendizagem, que é estudada em busca de uma distância métrica significativa em um dado espaço de entrada.

Modelos de Análise de Regressão

Software

Todos os principais pacotes de software estatístico são executados usando análise de regressão de mínimos quadrados. A regressão linear simples e a análise de regressão múltipla podem ser usadas em alguns aplicativos de planilha, bem como em algumas calculadoras. Embora muitos pacotes de software estatísticos possam executar vários tipos de regressão não paramétrica e confiável, esses métodos são menos padronizados; Diferentes pacotes de software implementam métodos diferentes. O software de regressão especializado foi desenvolvido para uso em áreas como análise de exames e neuroimagem.


Adicione um comentário
×
×
Tem certeza de que deseja excluir o comentário?
Excluir
×
Razão para reclamação

Negócio

Histórias de sucesso

Equipamentos