Medidas de Tendência Central — Estatística para Ciência de Dados
Tema: Medidas de Tendência Central — Estatística Descritiva
Introdução
A estatística é uma disciplina da matemática que se dedica à coleta, análise, interpretação, apresentação e organização de dados. Seu objetivo principal é extrair informações significativas e conclusões confiáveis a partir de conjuntos de dados, ajudando a entender padrões, tendências e relações em fenômenos variados.
Existem três principais áreas na estatística:
- 1. Estatística Descritiva: Envolve a organização, resumo e apresentação de dados. Medidas como médias, medianas, modas, desvios padrão e gráficos são comumente utilizadas para descrever as características essenciais de um conjunto de dados.
Podemos dividir a estatística descritiva em dois grupos:
- 1.1 Medidas de Posição / Medidas de Tendência Central: As medidas de tendência central são estatísticas que procuram representar o valor central ou típico de um conjunto de dados. Elas são uma parte fundamental da estatística descritiva e ajudam a resumir e compreender a distribuição dos dados. As principais medidas de tendência central são a média, a mediana e a moda.
- 1.2 Medidas de Dispersão: As medidas de dispersão são estatísticas que indicam o quanto os valores de um conjunto de dados se afastam, ou dispersam, em relação a uma medida de tendência central. Elas fornecem informações sobre a variabilidade ou a dispersão dos dados, complementando as medidas de tendência central. Algumas das principais medidas de dispersão incluem a amplitude, a variância e o desvio padrão.
- 2. Probabilidade: A teoria das probabilidades é fundamental para a estatística. Ela fornece a base matemática para lidar com a incerteza e a aleatoriedade. A probabilidade é essencial para a inferência estatística e a modelagem de fenômenos aleatórios.
- 3. Inferência Estatística: Esta área se concentra em fazer inferências sobre uma população com base em uma amostra representativa. Isso inclui a estimação de parâmetros populacionais, testes de hipóteses e a construção de intervalos de confiança.
A estatística é uma ferramenta crucial em diversas áreas, incluindo ciências, negócios, economia, medicina, engenharia, entre outras. Ela desempenha um papel fundamental na tomada de decisões informadas, fornecendo insights valiosos e fundamentando argumentos com base em evidências numéricas. Além disso, a estatística é frequentemente utilizada para realizar experimentos controlados, estudar fenômenos naturais e modelar o comportamento de sistemas complexos.
Estatística descritiva — Medidas de Tendência Central
- Média Aritmética: A média aritmética é uma medida comum de tendência central. Ela é calculada somando todos os valores em um conjunto de dados e dividindo pela quantidade total de valores.
Obs: A média é sensível a valores extremos, também conhecidos como outliers.
- Exemplo Prático com Python:
def media_aritmetica(valores):
soma = 0
for i in valores:
soma+=i # Somatório das amostras
return round(soma/len(valores), 3)
print(f"\nMédia Aritmética de [1, 2, 5, 3, 4]: \
{media_aritmetica([1, 2, 5, 3, 4])}\n")
# saída
# Média Aritmética de [1, 2, 5, 3, 4]: 3.0
- Média Geométrica: A média geométrica é uma medida estatística que representa a “média” dos valores de um conjunto de dados, mas ao contrário da média aritmética, ela considera as proporções dos valores. Essa medida é especialmente útil quando se trata de dados que envolvem crescimento exponencial, taxas de retorno ou situações em que as relações proporcionais são significativas. A fórmula da média geométrica para um conjunto de
n
valoresX1, X2, X3,...,Xn
Onde:
G
é a média geométrica.n
é o número total de valores no conjunto de dados.X1, X2, X3,...,Xn
são os valores individuais.
É importante notar que a média geométrica só pode ser calculada para conjuntos de dados contendo valores não negativos, pois a raiz n-ésima
de um produto de valores negativos resultaria em um número complexo.
A média geométrica é frequentemente usada em finanças para calcular taxas de retorno médias ao longo de vários períodos. Também é aplicada em áreas como ecologia, bioestatística e outras disciplinas onde a interpretação em termos de proporções é relevante. Ela destaca a importância relativa das diferentes partes de um conjunto de dados e pode ser uma alternativa útil à média aritmética em certos contextos.
- Exemplo Prático com Python:
import numpy as np
def media_geometrica(valores):
mult = 1
for i in valores:
mult*=i # Produtório das amostras
return round(np.power(mult, 1./len(valores)), 3)
print(f"\nMédia Geométrica de [1, 2, 5, 3, 4]: \
{media_geometrica([1, 2, 5, 3, 4])}\n")
# saída
# Média Geométrica de [1, 2, 5, 3, 4]: 2.605
- Média Harmônica: A média harmônica é outra medida de tendência central utilizada na estatística. Ela difere da média aritmética e da média geométrica em sua abordagem para calcular uma média. A média harmônica é especialmente útil em situações em que as relações inversas são importantes, como taxas médias de velocidade ou taxas médias de retorno financeiro. A fórmula da média harmônica para um conjunto de
n
valoresX1, X2, X3,...,Xn
é dada por:
Onde:
H
é a média harmônica.n
é o número total de valores no conjunto de dados.X1, X2, X3,...,Xn
são os valores individuais.
A média harmônica é mais sensível a valores extremos do que a média aritmética, o que significa que um único valor muito pequeno pode ter um impacto significativo na média harmônica. Por outro lado, ela é menos influenciada por valores extremamente grandes.
A aplicação comum da média harmônica inclui cálculos de velocidade média e taxas médias, onde as inversas das velocidades individuais ou taxas de retorno são somadas e depois invertidas novamente para obter a média. É uma medida específica para casos em que há uma relação inversa entre as variáveis e pode ser útil em contextos específicos.
- Exemplo Prático com Python:
def media_harmonica(valores):
soma = 0
for i in valores:
soma+=(1./i) # Somatório dos inversos das amostras
return round(len(valores)/soma, 3)
print(f"\nMédia Harmônica de [1, 2, 5, 3, 4]: \
{media_harmonica([1, 2, 5, 3, 4])}\n")
# saída
# Média Harmônica de [1, 2, 5, 3, 4]: 2.19
Relação entre as médias,
MA≥MG≥MH
, só existe uma possibilidade das três serem iguais, se e somente se todas as observações dos conjuntos forem as mesmas, exemplificação as células de códigos abaixo.
media_aritmetica([2, 2, 2])
media_geometrica([2, 2, 2])
media_harmonica([2, 2, 2])
# saídas
# 2.0
- Média Ponderada: A média ponderada é uma medida de tendência central que leva em consideração diferentes pesos atribuídos a diferentes valores em um conjunto de dados. Em vez de atribuir igual importância a todos os valores, a média ponderada permite que alguns valores tenham mais impacto na média do que outros, com base em seus pesos relativos. A fórmula geral para a média ponderada é:
Onde:
X1, X2, X3,...,Xn
são os valores individuais.w1, w2, w3,...,wn
são os pesos correspondentes a cada valor.
Os pesos indicam a importância relativa de cada valor na média. Valores com pesos mais altos terão um impacto maior na média ponderada. Por exemplo, se estivermos calculando a média ponderada das notas de um aluno, podemos atribuir pesos diferentes a cada prova com base em sua importância ou carga horária.
A média ponderada é frequentemente usada em diversas áreas, incluindo finanças, economia, estatísticas de negócios e avaliações de desempenho, onde alguns valores são mais significativos que outros. Ela oferece uma maneira flexível de calcular uma média que reflete a importância relativa dos diferentes componentes de um conjunto de dados.
- Exemplo Prático com Python:
def media_ponderada(pesos, amostras):
soma_notas = 0
soma_pesos = 0
for p, a in zip(pesos, amostras):
soma_notas += p*a
soma_pesos += p
return soma_notas/soma_pesos
mp = media_ponderada(pesos=[2, 3, 2], amostras=[5, 5, 5])
print(f"\nMédia Ponderada: pesos=[2, 3, 2], amostras=[5, 5, 5] = {mp}\n")
# saída
# Média Ponderada: pesos=[2, 3, 2], amostras=[5, 5, 5] = 5.0
Média Ponderada para Dados Agrupados em Classes: Quando trabalhamos com dados agrupados em classes, a média ponderada é calculada de maneira ligeiramente diferente em comparação com dados individuais. Nesse contexto, a média aritmética é chamada de “média ponderada por frequência” ou simplesmente “média ponderada”. A fórmula para calcular a média ponderada de dados agrupados em classes é a seguinte:
Onde:
X barra
é a média ponderada.fi
é a frequência da i-ésima classe.xi
é o ponto médio da i-ésima classe.N
é o total de observações (a soma de todas as frequências).
O ponto médio xi
de uma classe é calculado como a média dos limites inferior e superior da classe. A fórmula é xi=(Li/Ls)/2
, onde Li
é o limite inferior e Ls
é o limite superior da classe.
Essa fórmula reflete o conceito de média ponderada, onde cada ponto médio é ponderado pela sua frequência relativa à amostra total. A soma é então dividida pelo total de observações para obter a média.
A média ponderada para dados agrupados em classes é útil quando os dados estão apresentados em forma de histograma ou tabela de frequências. Isso permite uma análise estatística mais fácil e eficiente, especialmente quando lidamos com grandes conjuntos de dados.
- Exemplo Prático com Python:
def media_aritmetica_classes(classes, frequencias_classes):
x = 0
multiplicatorio = 1
for n, i in enumerate(classes):
li = min(i)
ls = max(i)
xi = (li+ls)/2
multiplicatorio += frequencias_classes[n]*xi
return multiplicatorio/sum(frequencias_classes)
mpc = media_aritmetica_classes(classes=[[1, 2, 3],
[4, 5, 6]],
frequencias_classes=[2, 3, 3])
print(f"\nMédia Ponderada classes:\
classes=[[1, 2, 3], [4, 5, 6]], frequencias_classes=[2, 3, 3] = {mpc}\n")
# saída
# Média Aritmética classes: classes=[[1, 2, 3], [4, 5, 6]],
# frequencias_classes=[2, 3, 3] = 2.5
Mediana
A mediana é uma medida de tendência central que representa o valor que divide um conjunto de dados ordenado ao meio. Isso significa que 50% dos valores estão abaixo da mediana e 50% estão acima. Ao contrário da média aritmética, a mediana não é afetada por valores extremos, sendo uma medida mais robusta em relação a outliers.
Para calcular a mediana, siga estes passos:
- 1. Organize os dados em (rol) ordem crescente ou decrescente.
- 2. Se o número de observações (n) for ímpar:
A mediana é o valor central do conjunto ordenado.
- 3. Se o número de observações (n) for par:
A mediana é a média dos dois valores centrais.
Onde:
xi
é o i-ésimo valor no conjunto de dados.n
é o número total de observações.
A mediana é especialmente útil quando lidamos com conjuntos de dados que podem conter valores atípicos ou quando a distribuição dos dados não é simétrica. Ela fornece uma medida de centralidade mais robusta em comparação com a média aritmética em tais situações.
Em termos de interpretação, a mediana é o valor que divide a distribuição ao meio, indicando que metade dos dados está abaixo e metade está acima desse ponto.
- Exemplo Prático com Python:
def mediana(conjunto_dados):
ordem_cd = np.sort(conjunto_dados)
if (len(ordem_cd) % 2==0):
index = int((len(ordem_cd))/2)
return (ordem_cd[index-1] + ordem_cd[index])/2.
else:
index = int((len(ordem_cd)+1)/2)
return ordem_cd[index-1]
print(f"\nMediana nº amostra impar: [1, 2, 3] = {mediana([1, 2, 3])}\n")
print(f"Mediana nº amostra par: [1, 2, 3, 4] = {mediana([1, 2, 3, 4])}\n")
# Saída
# Mediana nº amostra impar: [1, 2, 3] = 2
# Mediana nº amostra par: [1, 2, 3, 4] = 2.5
Para calcular a mediana para dados agrupados em classes, você pode seguir os seguintes passos:
1. Encontre a classe mediana:
Determine a classe que contém a mediana. Isso geralmente é feito olhando para as frequências acumuladas.
Se a mediana estiver na classe i
, você pode usar a fórmula:
onde:
Li
é o limite inferior da classe mediana;F[i-1]
é a frequência acumulada da classe imediatamente anterior à classe mediana;fi
é a frequência da classe mediana, eN
é o total de observações.
2. Calcule a mediana dentro da classe mediana:
- Uma vez que você encontrou a classe mediana, você pode calcular a mediana dentro dessa classe usando a fórmula da mediana ajustada para dados agrupados. Geralmente, essa fórmula é:
onde:
ci
é a amplitude da classe mediana (diferença entre os limites superior e inferior).- Exemplo Prático com Python:
classes = [[10,19], [20, 29], [30, 39], [40, 49], [50, 59]]
frequencias = [5, 8, 12, 10, 5]
def classe_mediana(classes, frequencias):
""" Determina a classe que contém a mediana."""
N = sum(frequencias)
f_acumulada = 0
f_acumulada_anterior = 0
for i, c in zip(frequencias, classes):
f_acumulada_anterior = f_acumulada
f_acumulada += i
if f_acumulada >= N/2:
return c[0], N/2, f_acumulada_anterior, i, c[1]+1-c[0]
def calculo_mediana_classe(dados):
""" Calcula a mediana da classe"""
return round(dados[0]+((dados[1]-dados[2])/dados[3])*dados[4], 2)
mediana = calculo_mediana_classe(classe_mediana(classes, frequencias))
print(f"\nMediana de dados agrupados = {mediana}\n")
# saída
# Mediana de dados agrupados = 35.83
Medidas Separatrizes
Medidas separatrizes são estatísticas utilizadas para dividir um conjunto de dados ordenado em partes iguais ou proporcionais. Elas ajudam a identificar a posição relativa de um valor específico dentro do conjunto de dados, indicando percentis ou quartis. As medidas separatrizes incluem:
1. Quartis:
- Os quartis dividem um conjunto de dados ordenado em quatro partes iguais.
- O primeiro quartil (Q1) é o valor abaixo do qual estão 25% dos dados.
- O segundo quartil (Q2) é equivalente à mediana e representa o valor abaixo do qual estão 50% dos dados.
- O terceiro quartil (Q3) é o valor abaixo do qual estão 75% dos dados.
- O quarto quartil (Q4) seria o valor abaixo do qual estão 100% dos dados, mas, na prática, ele coincide com o maior valor do conjunto.
- Exemplo Prático com Python:
def quartis(conjunto_dados):
conjunto_dados = np.sort(conjunto_dados)
t_conjunto = len(conjunto_dados)
q1 = conjunto_dados[:int(t_conjunto*0.25)]
q2 = conjunto_dados[:int(t_conjunto*0.50)]
q3 = conjunto_dados[:int(t_conjunto*0.75)]
print("\nQ1: ", q1)
print("\nQ2: ", q2)
print("\nQ3: ", q3)
print("\nQ4: ", conjunto_dados)
quartis([1, 2, 3, 4, 5, 6, 7, 8, 8, 8, 3, 4, 5, 6])
# saída
# Q1: [1 2 3]
# Q2: [1 2 3 3 4 4 5]
# Q3: [1 2 3 3 4 4 5 5 6 6]
# Q4: [1 2 3 3 4 4 5 5 6 6 7 8 8 8]
2. Percentis:
- Os percentis são medidas que dividem o conjunto de dados em 100 partes iguais.
- O percentil
Px
indica o valor abaixo do qualx%
dos dados estão. - Por exemplo, o percentil
25(P25)
é equivalente ao primeiro quartil (Q1). - Exemplo Prático com Python:
def percentis(conjunto_dados, px):
conjunto_dados = np.sort(conjunto_dados)
t_conjunto = len(conjunto_dados)
return conjunto_dados[:int(t_conjunto*(px/100.))]
print(f"\nPercentis P25 de \
[1, 4, 3, 5, 7, 3, 7, 3, 6, 3, 6, 3]: \
{percentis([1, 4, 3, 5, 7, 3, 7, 3, 6, 3, 6, 3], 25)}")
# saída
# Percentis P25 de [1, 4, 3, 5, 7, 3, 7, 3, 6, 3, 6, 3]: [1 3 3]
As medidas separatrizes são úteis para entender a distribuição dos dados e identificar pontos específicos dentro do conjunto. Por exemplo, se quisermos saber o valor abaixo do qual estão os 10%
dos dados mais baixos, podemos olhar para o décimo percentil P10
. Essas medidas são particularmente úteis quando o conjunto de dados é extenso, e a análise mais detalhada é necessária.