top of page

Estatistímon: Análise de Correlação

  • Foto do escritor: Roger Sampaio
    Roger Sampaio
  • 20 de dez. de 2024
  • 5 min de leitura

Olá meus guerreiros. Em Brasília está um clima frio, chuva, uma vontade de ficar somente deitadinho debaixo das cobertas e assistir uma boa série. Aproveitando que estou inspirado com meu chocolate quente, compartilharei um assunto muito útil da estatística dando continuidade a nossa série de pokemons. Bem, em algum momento pode ser importante avaliar o impacto do valor que uma variável tem em relação a outra de modo compreender algum fenômeno. Como estamos estudando os pokemons poderíamos pensar nas seguintes perguntas:

  1. Será que quanto maior for a velocidade do pokemon, mais resistente (HP, saúde) ele será ou não?

  2. Será que quanto mais bruto em ataque for o pokemon, mais poderoso na defesa será ou não?

    Essas perguntas são respondidas através da análise de correlação. Apertem os cintos, por que vamos decolar.

  1. Preparando o Ambiente.


    Vamos utilizar uma base de dados em formato csv. A base de dados de pokemons contém oitocentos pokemons e treze características, utilizadas em jogos tais como nome, tipo 1, tipo 2, níveis de HP, ataque, defesa, velocidade, se é lendário ou não entre outras. A IDE será o Azure Machine Learning Studio, crie o ambiente seguindo o passo 2 descrito em detalhes nesse artigo.


  2. O que é Correlação?


    Em Estatística, correlação é uma medida usada para avaliar o quanto que um valor de uma variável impacta no valor de outra, ou seja, se existe um relacionamento linear entre ambas. Professor não entendi nada! Calma, vamos por partes, meu guerreiro. Suponha que queríamos responder a pergunta: será que quanto maior for a velocidade do pokemon, mais resistente (HP, saúde) terá ou não? As nossas variáveis serão: velocidade do pokemon (x) e saúde (y). Se plotamos os valores em um gráfico, teríamos:

    A linha vertical foi traçada ao meio do gráfico propositalmente. A correlação entre as variáveis é dada através de um coeficiente que varia entre -1 a 1. Para cálculo da correlação podemos usar uma função do pacotes pandas chamada corr e dizer quais são as duas variáveis. De modo bem simples e fácil assim como tirar doce de criança, veja:

    O coeficiente apresenta duas características: 1. Direção e 2. Força.


    3. A Característica Direção.


    Considere que a correlação sempre avalia duas variáveis quantitativas: x e y. Meu guerreiro para não ficar decoreba, pode chamar x como Maria e y João.

    A característica direção nos faz observarmos tão somente se o valor da correlação é positivo ou negativo. Caso a correlação seja positiva, indica que a variável x impacta diretamente a y. Caso a correlação seja negativa, o impacto será negativo e ambas variáveis estão no sentido inverso.


    Suponha que a correlação seja positiva, podemos dizer que João (x) e Maria (y) são um belo casal unidos e felizes, que andam de mãos dadas e topam tudo juntos nos momentos bons e ruins. Se João se declara para Maria, Maria também se declara. Já se João pula da ponte, Maria também. Agora se a correlação for negativa, podemos dizer que João (x) e Maria (y) não são um casal feliz, brigam por tudo e querem coisas diferentes. Se por um lado João quer conversar, Maria quer brigar. Se João diz sim, Maria não.


    Observe que o valor calculado está positivo: 0.17, indicando uma correlação positiva. Velocidade e Saúde caminham na mesma direção.


    4. A Característica Força.


    Observando o valor da correlação podemos avaliar também o quanto que uma variável impacta em outra, ou seja, a força, magnitude. Observe a tabela:


    Correlação positiva:

    0 a 0,3: correlação desprezível

    0,3 a 0,5: correlação fraca

    0,5 a 0,7: correlação moderada

    0,7 a 0,9: correlação forte

    0,9 a 1: correlação muito forte


    Correlação negativa:

    0 a -0,3: correlação desprezível

    -0,3 a -0,5: correlação fraca

    -0,5 a -0,7: correlação moderada

    -0,7 a -0,9: correlação forte

    -0,9 a -1: correlação muito forte


    Retornado ao nosso casal João e Maria, suponha que tenhamos a correlação de 0.7. Bem, esse valor indica duas coisas. Primeiramente que são um casal unidos e felizes, andam na mesma direção já que a correlação é positiva. E como é um valor que varia entre 0,7 a 0,9 indica uma correlação forte, ou seja: além deles andarem na mesma direção, são fortemente unidos.


    Como o valor entre Velocidade e HP deu 0,17 temos uma correlação desprezível. Resumo da ópera respondendo a pergunta final: velocidade e HP caminham na mesma direção, mas não ao ponto de ter um impacto significativo e grande de modo a negar a afirmação: quanto maior for a velocidade do pokemon, mais resistente (HP, saúde) será ele.


    Agora vamos brincar novamente respondendo outra pergunta: será que quanto mais bruto em ataque (x) for o pokemon, mais poderoso na defesa (y) será ou não? Plotando os valores de ambas variáveis e calculando a correlação temos:


    A correlação deu um valor de 0.43. Primeiramente podemos dizer que é positiva, ou seja, ambas as variáveis caminham na mesma direção. Segundo como há um valor entre 0,3 a 0,5, temos um correlação fraca de modo a negar a afirmação: quanto mais bruto em ataque (x) for o pokemon, mais poderoso na defesa (y).


    Guerreiros, podemos ainda destrinchar mais ainda a correlação em mais dois outros tipos, sendo:


    Direta (positiva): se aumentarmos uma variável, a outra também aumentará

    Inversa (negativa): se aumentarmos uma variável, a outra diminuirá

    Inexistente (nula): não existente correlação entre as variáveis. O valor obrigatoriamente da correlação será 0.

    Perfeita:  os fenômenos se ajustam perfeitamente a uma reta. O valor obrigatoriamente da correlação será -1 ou 1.


    Veja os gráficos:


    5. Não Causalidade.


    Não entraremos em detalhes matemáticos de como a correlação é calculada, por que não é o objetivo desse artigo, tão somente compreensão do conceito através de exemplos práticos. Guerreiro, o fato de termos um valor de correlação forte, não indica necessariamente que o fenômeno observado irá acontecer, ou seja, causalidade. Segundo o blog Estatística Fácil, correlação não implica causalidade, mas apenas sinaliza uma associação entre variáveis. correlação não implica causalidade, mas apenas sinaliza uma associação entre variáveis. Causalidade, por outro lado, refere-se a uma relação de causa e efeito entre duas variáveis. Em um relacionamento causal, mudanças em uma variável causam diretamente mudanças na outra variável.


    Suponha que a correlação entre Ataque e Saúde de pokemons seja 0,8. Em outras palavras, embora quanto maior o ataque do pokemon, maior será a resistência(saúde); não podemos afirmar obrigatoriamente que uma causa a outra. A correlação diz que apenas que um dos motivos de Saúde sofrer impacto considerável é o ataque, mas não sabemos se esse é o único motivo, deveríamos estudar mais profundamente para descobrir. Veja mais um exemplo didático:

    O tempo influencia na venda de sorvetes. Quanto maior o calor, mais as pessoas irão querem comprar sorvetes. Porém a venda deles é influenciada também por outros motivos como, por exemplo, preço, localização da sorveteria etc. Não é por que a temperatura subiu e está muito quente, que você obrigatoriamente irá comprar um sorvete, certo, meu guerreiro? As vezes você pode estar gripado ou sem vontade.


    6. Limpa, limpa, limpa


    Espero que tenha gostado e esteja 'tarado' em utilizar esse ferramenta estatística poderosa em suas análises de dados. Para evitar surpresas no cartão de crédito, exclua todos os recursos que criamos no decorrer da aula. Siga o passo 7 descrito em detalhe nesse artigo. Os scripts estão aqui no lab pokemon 3. Beijos e até mais.







Komentar


bottom of page