Estatistímon: Medidas de Tendência Central
- Roger Sampaio
- 26 de ago. de 2024
- 7 min de leitura
Atualizado: 9 de mai.
Olá meus guerreiros. Acredito que uma boa parte da população costuma ter certo ranço quando se trata da matéria Estatística, pensam que é difícil demais ou algo somente pertencente aos nerds, pessoas muitos inteligentes. E não culpo elas, porque acredito que um dos principais motivos é a metodologia, didática aplicada pelos professores no ensino dela durante o ensino fundamental e médio. Certamente todos estão acostumados a decorarem muitas fórmulas com os famosos X,Y. Alguns podem até pensar que a Estatística não serve para nada, já que eles podem optar em seguir com uma carreira na área de humanas. Entretanto a Estatística pode ser divertida e está presente em nossas vidas. Independente de qual área você atua, mesmo que seja humanas, você será vítima dela ou estará utilizando mesmo que inconsciente. Hoje apresento uma forma bem divertida, legal de aprender Estatística com o famoso pokémon. Ficou de cara? Aposto que sim. Exploraremos as medidas com uma base de dados de pokémons. Aperte os cintos, por que vamos decolar.

O que é uma Medida?
Medida é a ação de medir, ou seja, comparar uma quantidade com sua unidade. O tempo todo estamos realizando medidas. Suponha que João esteja se achando gordinho e queira emagrecer para conquistar a mulherada. Atualmente Ele pesa 100 Kg e pretende chegar em 80 Kg. Após entrar na academia e acompanhamento com nutricionista, Ele irá mensalmente medir seu peso para verificar o quão próximo ou distante está da meta. A medida do peso em kg é o norte, a bússola para João. Carla está bastante cansada e pretende tirar férias. Para curtir as famosas praias no Rio de Janeira com direito a sol, brisa fresca, Carla pesquisa previamente a temperatura prevista para o próximo do mês. Trata-se de uma medida, que é a temperatura podendo ser expressa em graus Celsius. Caso esteja frio demais, Carla pode pensar em outro destino.
Na Estatística as medidas são utilizadas para uma melhor compreensão de um conjunto de dados. Em outras palavras, ao utilizá-las, servia equivalente a uma lupa encima de um bolo aparentemente saboroso para verificar melhor a textura, consistência. As medidas se dividem em dois tipos: 1. Medidas de Tendência Central, 2. Medidas de Dispersão.
As medidas de tendência central também são conhecidas como posição, por que possibilitam resumir o conjunto de dados em geral numa única medida ou lugar geométrico entre os extremos observados (mínimo e máximo). As principais medidas de posição usadas são a média, mediana, a moda e por fim os quartis.
2. Hands-On: Preparando o Ambiente.
Vamos trabalhar com o Azure Machine Learning. Após criar uma assinatura válida seguindo as dicas do site oficial da Microsoft, acesse o portal principal do Azure. Em serviços do Azure, selecione a opção "Criar um Recurso".

Pesquise pelo serviço Azure Machine Learning e pressione Enter. Após abrir a tela do marketplace, localize o serviço e posteriormente clique em "Criar".

Na próxima tela preencha as informações conforme mostrado abaixo:
Assinatura. Selecione uma assinatura válida.
Grupo de recursos. Crie o nome ''recursos_inteligencial_artifical'' e selecione ''criar novo''.
Nome. Crie o nome "workspace_ia".
Região: Selecione "Brazil South".
Conta de armazenamento, cofre de chaves, application insights: mantenha opções selecionadas por padrão, não modifique-as.
Registro de contêiner: Selecione nenhum.
Por fim selecione a opção "Examinar + criar".

Na tela subsequente selecione a opção "Criar."

O recurso será implantado, podendo demorar em torno de um a cinco minutos aproximadamente. Após finalizado esse processo, selecione a opção "Ir para o recurso".

Na página da workspace criada, na aba visão geral, selecione a opção "Iniciar o estúdio".

Primeiramente vamos criar um recurso de computação que será responsável por executar o nosso código. Optaremos pela criação de uma máquina virtual única com uma baixa configuração de CPU e memória, suficiente para brincamos com o nosso projeto. Na nova aba aberta, selecione a opção "Novo" e depois "Instância de Computação".

Preencha com as seguintes informações.
Nome da computação. Insira o nome "instanciaparruda".
Tipo de máquina virtual. Selecione a opção CPU.
Tamanho da máquina virtual. Selecione a opção "Standard_DS11_v2"
Por fim selecione a opção "Examinar + Criar".

Na próxima tela selecione a opção "Criar".

A instância de computação será criada, o processo pode demorar alguns minutos, ao final o estado deverá ser "em execução", conforme observado na imagem abaixo.

Subindo os arquivos de notebook e bases
Agora selecione a aba "Notebooks" no menu lateral esquerdo. Observe o menu sequentemente com diversas pastas e também uma específica com o nome do seu usuário. Clique com o botão direto ao lado do nome da pasta e posteriormente "criar pasta" e insira "lab_pokemon".

Ao lado do nome da pasta criada, clique com o botão direto e selecione "Carregar arquivos".

Selecione os arquivos utilizados nessa aula: lab_pokemon.ipynb e Pokemon.csv A nossa base de dados contém informações utilizadas no jogo PokemonGo, contendo 800 exemplos com nomes, primeiro e segundo tipo, estatística total, HP, nível de ataque, defesa, ataque especial, defesa especial, velocidade, número da geração, se é lendário ou não.

A estrutura deve estar próxima a imagem mostrada abaixo.

3. Média
Ela é a medida mais famosa e conhecida de todas. Certamente em algum momento você calculou suas notas na escola para verificar se iria conseguir ser aprovado ou não em uma determinada disciplina? Aposto que sim. Matematicamente, a média é calculada somando-se todos os valores de um conjunto de dados e dividindo-se pela quantidade de elementos. Veja:

Me: média. Considere que média aqui é do tipo aritmética, existem também outros tipos como, por exemplo, ponderada.
x1, x2, x3, x4, xn: os valores observados.
n: número de observações.
Chega de blábláblá e vamos a um exemplo prático. Entre diversas características dos pokémons, temos o HP, que representa pontos de vida, ou saúde, definindo o quanto de um pokémon suporta antes de desmaiar. A cada dano que o pokémon sofre, o valor de HP é decrementado gradativamente até zerar ou chegar a um valor negativo próximo, representando a perca em uma batalha. É uma variável quantitativa, representada por valores inteiros. Logo após carregarmos a base de dados, exibiremos alguns pokemons e seus respectivos HPs. O Bulbasaur, por exemplo, possui o HP de 45, sendo que mais resistente que o Charmander de 39. Veja os sete primeiros pokemons.

Como existem diversos valores de HP, olhando apenas para tabela fica complicado resumir. Logo podemos utilizar a média, calculando-a de maneira manual ou automática com os pacotes statistics ou pandas.


Para visualizar facilmente a distribuição dos HPs entre todos os pokemons podemos utilizar um histograma. Embora há pokemons menos resistentes com HP próximos de zero e outros bem resistentes com HP de 250, os HPs mais presentes estão entre 50 - 60 aproximadamente.

Didaticamente a média poderia representar o meio de uma distribuição, semelhante a um ponto central em uma régua. Nesse contexto a média apresenta o problema de ser sensível aos valores atípicos ou extremos, que se situam mais longe do centro. Suponha que tivéssemos o acréscimo de três pokemons fictícios superpoderosos com valores bastantes altos de HPs (500.000, 600.000 e 800.000) e fossemos calcular novamente a média. Veja:

Se afirmarmos que os pokemons tem em média um HP de 2.435, estatisticamente estaria correto, porém grosseiramente tendencioso. O fato de ter três novos pokemons super resistentes, não faz que todos eles tenham esse comportamento. Para contornar esse problema, podemos utilizar a medida mediana.
4. A Mediana
Ela representa literalmente o valor central de um conjunto de dados de maneira que metade das observações está abaixo e outra acima. O cálculo consiste ordenar o conjunto (seja crescente ou decrescente) e observar onde está o ponto central. Se a quantidade de elementos é par, a mediana está no ponto médio entre as duas observações do meio. Caso a quantidade seja ímpar, a mediana é o ponto central. Matematicamente:

n é a quantidade de elementos
c1, c2 são pontos centrais.
Vamos 'codar' e verificar a mediana de HP dos pokemons, observando primeiramente a maneira manual e posteriormente automática. Guerreiro, embora a solução manual seja mais trabalhosa (mais linhas de códigos), importante principalmente entender o que está feito, ou seja, representação da fórmula acima. Compreenda o que acontece nos bastidores e não seja um mero apertador de botões para reproduzir fórmulas. Bons cientistas de dados compreendem bem os conceitos da Estatística Descrita, ferramenta fundamental na análise de dados.

Observe que no segundo conjunto de pokemons a presença de pokemons super resistentes (Mewthree, Mewfour e Mewfive) não impacta na mediana. Guerreiro, não existe fórmula mestra que atenda a todas as situações, porque sempre consideraremos a interpretabilidade do problema de negócio. Se consideramos que o conjunto de dados pokemons realmente há esses superpokemons, a mediana é a medida mais adequada para resumir o HP ao invés da média. Uma boa prática consiste em calcular ambas medidas e observar a distribuição de dados. Para distribuições sem valores atípicos extremos, a média e a mediana estarão próximas. Retornando ao primeiro conjunto de dados, sem a presença do superpoderosos pokemons, repare:

5. A Moda
Guerreiro, quando dizemos que, por exemplo, um celular está na moda, é por que as pessoas estão usando com bastante frequência, concorda? Espero que sim. Na data que estou escrevendo esse artigo, os Iphones estão na moda. Partindo desse raciocínio, a medida moda (Mo) faz jus ao nome dela, porque é o valor mais frequente em um conjunto de dados. Quando o conjunto de dados apresenta dois valores de moda, é chamado de bimodal. Matematicamente para calcular a moda montamos uma tabela de frequência contando cada elemento e observamos o mais frequente.

Certamente você pergunta em que situações essa medida pode ser útil? Bem, retornando ao nosso exemplo de pokemons suponha que queiramos saber qual o nível de HP(saúde) mais frequente entre eles? A medida moda nos responderá.


6. E no final das contas...
Aprendemos diversas medidas de tendência central, que consiste em observar uma distribuição de dados de maneiras diferente. Guerreiro, um pulo do gato: não existe medida perfeita para todas as situações, porque cada um expressa um sentimento. Uma boa prática é não se limitar, podendo combiná-las para contar uma história, fruto de análise de dados. Embora média, moda e mediana sejam medidas simples, fácil interpretação e cálculo, são o calcanhar de Aquiles na Estatística Descrita. O Python como uma boa ferramenta nos fornece o pacote statistics que contém funções prontas para cálculo dessas medidas com uma única linha de código. Guerreiro, o desejo do meu coração é que você possa compreender minuciosamente cada uma delas. Ainda provei que não precisa ser chato estudar Estatística quando se deparar com os X,Y ... nesse artigo utilizamos um exemplo didático com os pokemons, que certamente muitas pessoas gostam.
7. Limpe, limpe, limpe ...
Para não gerar gastos desnecessários, iremos excluir todos os recursos utilizados. Retorne a página inicial do portal do Azure e procure por Grupos de recursos.

Selecione o grupo de recursos que criamos anteriormente com o nome recursos_inteligencial_artifical e acesse. Selecione todos os recursos criados e clique no botão Excluir. Insira "excluir" e confirme a exclusão. Levará em torno de um a três minutos até que todos os recursos estejam excluídos.


Beijos e até a próxima.
Comments