Estatistímon: Medidas de Dispersão
- Roger Sampaio
- 11 de out. de 2024
- 5 min de leitura
Olá meus amores. Não é somente aqui em Brasília que está pegando fogo, mas esse artigo também, um assunto muito importante para quem deseja trabalhar com análise de dados: as medidas de dispersão. E como de praxe da metodologia rogersampaio, aprenderemos com uma linguagem fácil utilizando a base de dados de pokemons ao invés de simplesmente decorarmos dezenas fórmulas e criarmos a falsa ideia de que Estatística não serve para muita coisa. Vamos comigo nessa aventura, meu guerreiro.

O por que de usarmos?
Tanto as medidas de tendência central como dispersão são instrumentos, ferramentas utilizadas para compreensão de uma amostra de dados. Não há uma medida mestra no sentido de ser a melhor ou pior em detrimento de outras, cada uma tem prós e contras. Em outras palavras, cada medida possibilita olhar os dados de uma determinada ótica e ângulo cabendo ao profissional de análise de dados escolher as melhores medidas para a interpretação. Meu guerreiro, na prática e no mundo real, utilizamos várias medidas juntamente com gráficos. Metaforicamente pense em um bolo de chocolate, aposto que você gosta, acertei? Eu particularmente amo e resisto para não ceder a tentação de comer diariamente. Cada medida é representa por um instrumento: óculos com grau, lupa, microscópico, máquina de raio X. Cada um possibilita enxergar o bolo de uma forma e profundidade assim como acontece com as medidas na distribuição. Veja:

Conforme o próprio nome sugere, elas possibilitam medir e descrever a dispersão de uma distribuição. As mais comuns são: amplitude, variância, desvio padrão e coeficiente de variação.
Preparando o ambiente
Vamos utilizar uma base de dados em formato csv. A base de dados de pokemons contém oitocentos pokemons e treze características, utilizadas em jogos tais como nome, tipo 1, tipo 2, níveis de HP, ataque, defesa, velocidade, se é lendário ou não entre outras. A IDE será o Azure Machine Learning Studio, crie o ambiente seguindo o passo 2 descrito em detalhes nesse artigo.
A Amplitude
Matematicamente, ela é calculada simplesmente pela diferença entre o maior e o menor valor das observações de um conjunto de dados. Se a amplitude for um número alto, significa que os valores estão mais distantes uns dos outros. Se a amplitude for um número baixo, traduz que os os valores estão mais próximos uns dos outros. Veja:

Suponha que queríamos observar a distribuição dos níveis de saúde(HP) dos pokemons. Podemos começar pelo cálculo da amplitude, veja:

Note que como o valor da amplitude é alto, significa que os HPs estão distantes uns dos outros, variando de 1 a 255. Quando plotamos em um gráfico, podemos visualizar melhor a variação.

Como desvantagem, essa medida não leva em consideração como os dados estão efetivamente distribuídos, logo não é muito utilizada.
A Variância
Segundo Charles Wheelan, ela é frequentemente representada pelo símbolo σ², calculada determinando-se o quão distante as observações dentro de uma distribuição se encontram da média. Considerando um conjunto de n observações x1,x2,x3, xn com a média μ, matematicamente temos:

Não se assuste meu guerreiro. Vamos desmembrar juntos a fórmula. Note que precisamos calcular para cada elemento o quanto que varia em relação a média, isto é x1, x2, x3 ... Note que ao efetuar isso, iremos ter tanto valores negativos, positivos ou zerados. Devemos elevar ao quadrado para que os valores negativos sejam transformados em positivos. Em outras palavras, não existe variância negativa devido a própria interpretação da medida. Para exemplificar vamos considerar os três primeiros pokemons com seus respectivos HPs:


Desvio Padrão
Segundo Charles Wheelan a variância é raramente usada como estatística descritiva por si só. Ao invés disso, utiliza-se a variância para o cálculo do desvio padrão. Em um conjunto de observações, o desvio padrão é a raiz quadrada da variância. Veja:

Como o valor resultado é calculado a partir da raiz quadrada, o desvio padrão será menor que a variância. Quanto maior o valor do desvio padrão, significa um maior irregularidade dos dados (informações mais heterogêneas), e quanto menor o valor do desvio padrão, menor a irregularidade dos dados (informações mais homogêneas). Aqui regular ou irregular não tem qualquer relação com o sentido de correto ou errado, apenas traduz o quão próximo ou distantes os dados estão da média.
Caso quisermos responder quão regular ou não estão os níveis de saúde dos nossos três primeiros pokemons (Bulbasaur, Ivysaur, Venusaur), basta calcularmos o desvio padrão. Observe que como o valor do desvio padrão está alto, representa como os HPs estão distantes da média. A média é 61, Bulbasaur tem 45. Ivysaur está praticamente igual a média 60. Já Venusaur está distante com valor de 80. Assim como acontece com a variância, o desvio padrão não resulta em valores negativos, variando de mínimo 0 até n.

Guerreiro, pense comigo. Um desafio rapidinho aqui para você. Caso o desvio padrão desse um valor exatamente zerado, o que quer dizer? Pense antes de ler a resposta abaixo. Lembre-se que sou apenas digo o caminho, você que trilha.

O valor zerado do desvio padrão indica que não há valores distantes ou próximos a média. Em outras palavras, todos os valores estão exatamente iguais, tratando-se de uma constante.
Guerreiro, observe como todas as medidas estão intimamente ligadas entre si, não somente o cálculo matemático mas também o conceito. Repito na prática utilizarmos várias, por que cada um nos traz uma interpretação diferente.
Coeficiente de Variação
Talvez representar a variabilidade dos dados em relação a média utilizando números não seja tão intuitivo, explicável principalmente para pessoas não técnicas. É aí que entra o Coeficiente de Variação, por que possibilita trabalhar com porcentagem, uma medida bem interpretável para as pessoas. Matematicamente ele é dado pelo desvio padrão dividido pela média multiplicando-se por 100. Veja:

Calculando-se o coeficiente de variação dos nossos três primeiros pokemons, temos:

Observe que entre os três primeiros pokemons, eles estão com nível de HP variando 23% em relação a média. O coefiente de variação é muito utilizado principalmente para comparar a variabilidade de dois conjunto de dados, mesmo que eles possuam médias muitos desiguais. Guerreiro, vamos brincar um pouco mais: comparando o nível de HP dos pokemons de fogo e água. Veja a extração de ambos os conjunto de dados e coletas das principais estatísticas.

Observe que ambos os conjuntos de dados possuem médias diferentes assim como a quantidade de elementos. Devido ao valor do coeficiente de variação podemos constar que os pokemons do tipo água possuem um nível de HP mais heterogêneo comparado aos pokemons do tipo fogo.
Meus amores, essas medidas podem gerar um pouco de dificuldade para o completo domínio tanto em questão de interpretabilidade como a fórmula de cálculo. Para ser um expert no assunto é necessário muita prática, não pense que apenas lendo esse pequeno artigo é suficiente. A dica que posso fornecer é: procure sarça para se coçar. Como assim, professor? Bem, brinque com bases de dados como, por exemplo, os datasets do Kaggle, dê asas a sua imaginação pegando problemas de negócio para resolver, caso não encontre um, invente. Em outras palavras, procure algo que goste e pense como gestor, dono. Um bom exemplo é aproveitar que estamos em época eleitoral e brincar com isso. Pense, por exemplo, que uma emissora famosa deseja relatar o resultado das eleições em um jornal. Você, como profissional de dados, poderia ajudar na construção de uma solução? O que você usaria? E o mais importante: quais perguntas você responderia. Certamente as medidas que discutirmos nesse artigo ajudarão e muito a compreender esses dados.
Limpa, limpa, limpa
Para evitar surpresas no cartão de crédito, exclua todos os recursos que criamos no decorrer da aula. Siga o passo 7 descrito em detalhe nesse artigo. Os scripts estão aqui. Beijos e até a próxima.
Comments