Medidas de Tendência Central — Estatística para Ciência de Dados

11 min readMar 10, 2024

Tema: Medidas de Tendência Central — Estatística Descritiva

Introdução

A estatística é uma disciplina da matemática que se dedica à coleta, análise, interpretação, apresentação e organização de dados. Seu objetivo principal é extrair informações significativas e conclusões confiáveis a partir de conjuntos de dados, ajudando a entender padrões, tendências e relações em fenômenos variados.

Existem três principais áreas na estatística:

1. Estatística Descritiva: Envolve a organização, resumo e apresentação de dados. Medidas como médias, medianas, modas, desvios padrão e gráficos são comumente utilizadas para descrever as características essenciais de um conjunto de dados.

Podemos dividir a estatística descritiva em dois grupos:

1.1 Medidas de Posição / Medidas de Tendência Central: As medidas de tendência central são estatísticas que procuram representar o valor central ou típico de um conjunto de dados. Elas são uma parte fundamental da estatística descritiva e ajudam a resumir e compreender a distribuição dos dados. As principais medidas de tendência central são a média, a mediana e a moda.
1.2 Medidas de Dispersão: As medidas de dispersão são estatísticas que indicam o quanto os valores de um conjunto de dados se afastam, ou dispersam, em relação a uma medida de tendência central. Elas fornecem informações sobre a variabilidade ou a dispersão dos dados, complementando as medidas de tendência central. Algumas das principais medidas de dispersão incluem a amplitude, a variância e o desvio padrão.
2. Probabilidade: A teoria das probabilidades é fundamental para a estatística. Ela fornece a base matemática para lidar com a incerteza e a aleatoriedade. A probabilidade é essencial para a inferência estatística e a modelagem de fenômenos aleatórios.
3. Inferência Estatística: Esta área se concentra em fazer inferências sobre uma população com base em uma amostra representativa. Isso inclui a estimação de parâmetros populacionais, testes de hipóteses e a construção de intervalos de confiança.

A estatística é uma ferramenta crucial em diversas áreas, incluindo ciências, negócios, economia, medicina, engenharia, entre outras. Ela desempenha um papel fundamental na tomada de decisões informadas, fornecendo insights valiosos e fundamentando argumentos com base em evidências numéricas. Além disso, a estatística é frequentemente utilizada para realizar experimentos controlados, estudar fenômenos naturais e modelar o comportamento de sistemas complexos.

Estatística descritiva — Medidas de Tendência Central

Média Aritmética: A média aritmética é uma medida comum de tendência central. Ela é calculada somando todos os valores em um conjunto de dados e dividindo pela quantidade total de valores.

Obs: A média é sensível a valores extremos, também conhecidos como outliers.

Exemplo Prático com Python:

def media_aritmetica(valores):
    soma = 0
    for i in valores:
        soma+=i  # Somatório das amostras
    return round(soma/len(valores), 3)

print(f"\nMédia Aritmética de [1, 2, 5, 3, 4]: \
{media_aritmetica([1, 2, 5, 3, 4])}\n")

# saída
# Média Aritmética de [1, 2, 5, 3, 4]: 3.0

Média Geométrica: A média geométrica é uma medida estatística que representa a “média” dos valores de um conjunto de dados, mas ao contrário da média aritmética, ela considera as proporções dos valores. Essa medida é especialmente útil quando se trata de dados que envolvem crescimento exponencial, taxas de retorno ou situações em que as relações proporcionais são significativas. A fórmula da média geométrica para um conjunto de n valores X1, X2, X3,...,Xn

Onde:

G é a média geométrica.
n é o número total de valores no conjunto de dados.
X1, X2, X3,...,Xn são os valores individuais.

É importante notar que a média geométrica só pode ser calculada para conjuntos de dados contendo valores não negativos, pois a raiz n-ésima de um produto de valores negativos resultaria em um número complexo.

A média geométrica é frequentemente usada em finanças para calcular taxas de retorno médias ao longo de vários períodos. Também é aplicada em áreas como ecologia, bioestatística e outras disciplinas onde a interpretação em termos de proporções é relevante. Ela destaca a importância relativa das diferentes partes de um conjunto de dados e pode ser uma alternativa útil à média aritmética em certos contextos.

Exemplo Prático com Python:

import numpy as np

def media_geometrica(valores):
    mult = 1
    for i in valores:
        mult*=i  # Produtório das amostras
    return round(np.power(mult, 1./len(valores)), 3)

print(f"\nMédia Geométrica de [1, 2, 5, 3, 4]: \
{media_geometrica([1, 2, 5, 3, 4])}\n")

# saída
# Média Geométrica de [1, 2, 5, 3, 4]: 2.605

Média Harmônica: A média harmônica é outra medida de tendência central utilizada na estatística. Ela difere da média aritmética e da média geométrica em sua abordagem para calcular uma média. A média harmônica é especialmente útil em situações em que as relações inversas são importantes, como taxas médias de velocidade ou taxas médias de retorno financeiro. A fórmula da média harmônica para um conjunto de n valores X1, X2, X3,...,Xn é dada por:

Onde:

H é a média harmônica.
n é o número total de valores no conjunto de dados.
X1, X2, X3,...,Xn são os valores individuais.

A média harmônica é mais sensível a valores extremos do que a média aritmética, o que significa que um único valor muito pequeno pode ter um impacto significativo na média harmônica. Por outro lado, ela é menos influenciada por valores extremamente grandes.

A aplicação comum da média harmônica inclui cálculos de velocidade média e taxas médias, onde as inversas das velocidades individuais ou taxas de retorno são somadas e depois invertidas novamente para obter a média. É uma medida específica para casos em que há uma relação inversa entre as variáveis e pode ser útil em contextos específicos.

Exemplo Prático com Python:

def media_harmonica(valores):
    soma = 0
    for i in valores:
        soma+=(1./i)  # Somatório dos inversos das amostras
    return round(len(valores)/soma, 3)

print(f"\nMédia Harmônica de [1, 2, 5, 3, 4]: \
{media_harmonica([1, 2, 5, 3, 4])}\n")

# saída
# Média Harmônica de [1, 2, 5, 3, 4]: 2.19

Relação entre as médias, MA≥MG≥MH, só existe uma possibilidade das três serem iguais, se e somente se todas as observações dos conjuntos forem as mesmas, exemplificação as células de códigos abaixo.

media_aritmetica([2, 2, 2])
media_geometrica([2, 2, 2])
media_harmonica([2, 2, 2])

# saídas
# 2.0

Média Ponderada: A média ponderada é uma medida de tendência central que leva em consideração diferentes pesos atribuídos a diferentes valores em um conjunto de dados. Em vez de atribuir igual importância a todos os valores, a média ponderada permite que alguns valores tenham mais impacto na média do que outros, com base em seus pesos relativos. A fórmula geral para a média ponderada é:

Onde:

X1, X2, X3,...,Xnsão os valores individuais.
w1, w2, w3,...,wnsão os pesos correspondentes a cada valor.

Os pesos indicam a importância relativa de cada valor na média. Valores com pesos mais altos terão um impacto maior na média ponderada. Por exemplo, se estivermos calculando a média ponderada das notas de um aluno, podemos atribuir pesos diferentes a cada prova com base em sua importância ou carga horária.

A média ponderada é frequentemente usada em diversas áreas, incluindo finanças, economia, estatísticas de negócios e avaliações de desempenho, onde alguns valores são mais significativos que outros. Ela oferece uma maneira flexível de calcular uma média que reflete a importância relativa dos diferentes componentes de um conjunto de dados.

Exemplo Prático com Python:

def media_ponderada(pesos, amostras):
    soma_notas = 0
    soma_pesos = 0
    for p, a in zip(pesos, amostras):
        soma_notas += p*a
        soma_pesos += p
    return soma_notas/soma_pesos


mp = media_ponderada(pesos=[2, 3, 2], amostras=[5, 5, 5])
print(f"\nMédia Ponderada: pesos=[2, 3, 2], amostras=[5, 5, 5] = {mp}\n")

# saída
# Média Ponderada: pesos=[2, 3, 2], amostras=[5, 5, 5] = 5.0

Média Ponderada para Dados Agrupados em Classes: Quando trabalhamos com dados agrupados em classes, a média ponderada é calculada de maneira ligeiramente diferente em comparação com dados individuais. Nesse contexto, a média aritmética é chamada de “média ponderada por frequência” ou simplesmente “média ponderada”. A fórmula para calcular a média ponderada de dados agrupados em classes é a seguinte:

Onde:

X barra é a média ponderada.
fi é a frequência da i-ésima classe.
xi é o ponto médio da i-ésima classe.
N é o total de observações (a soma de todas as frequências).

O ponto médio xi de uma classe é calculado como a média dos limites inferior e superior da classe. A fórmula é xi=(Li/Ls)/2 , onde Li é o limite inferior e Ls é o limite superior da classe.

Essa fórmula reflete o conceito de média ponderada, onde cada ponto médio é ponderado pela sua frequência relativa à amostra total. A soma é então dividida pelo total de observações para obter a média.

A média ponderada para dados agrupados em classes é útil quando os dados estão apresentados em forma de histograma ou tabela de frequências. Isso permite uma análise estatística mais fácil e eficiente, especialmente quando lidamos com grandes conjuntos de dados.

Exemplo Prático com Python:

def media_aritmetica_classes(classes, frequencias_classes):
    x = 0
    multiplicatorio = 1
    for n, i in enumerate(classes):
        li = min(i)
        ls = max(i)
        xi = (li+ls)/2
        multiplicatorio += frequencias_classes[n]*xi
    return multiplicatorio/sum(frequencias_classes)

mpc = media_aritmetica_classes(classes=[[1, 2, 3],
                                       [4, 5, 6]],
                                       frequencias_classes=[2, 3, 3])
print(f"\nMédia Ponderada classes:\
 classes=[[1, 2, 3], [4, 5, 6]], frequencias_classes=[2, 3, 3] = {mpc}\n")

# saída
# Média Aritmética classes: classes=[[1, 2, 3], [4, 5, 6]],
#    frequencias_classes=[2, 3, 3] = 2.5

Mediana

A mediana é uma medida de tendência central que representa o valor que divide um conjunto de dados ordenado ao meio. Isso significa que 50% dos valores estão abaixo da mediana e 50% estão acima. Ao contrário da média aritmética, a mediana não é afetada por valores extremos, sendo uma medida mais robusta em relação a outliers.

Para calcular a mediana, siga estes passos:

1. Organize os dados em (rol) ordem crescente ou decrescente.
2. Se o número de observações (n) for ímpar:

A mediana é o valor central do conjunto ordenado.

3. Se o número de observações (n) for par:

A mediana é a média dos dois valores centrais.

Onde:

xié o i-ésimo valor no conjunto de dados.
n é o número total de observações.

A mediana é especialmente útil quando lidamos com conjuntos de dados que podem conter valores atípicos ou quando a distribuição dos dados não é simétrica. Ela fornece uma medida de centralidade mais robusta em comparação com a média aritmética em tais situações.

Em termos de interpretação, a mediana é o valor que divide a distribuição ao meio, indicando que metade dos dados está abaixo e metade está acima desse ponto.

Exemplo Prático com Python:

def mediana(conjunto_dados):
    ordem_cd = np.sort(conjunto_dados)
    if (len(ordem_cd) % 2==0):
        index = int((len(ordem_cd))/2)
        return (ordem_cd[index-1] + ordem_cd[index])/2.
    else:
        index = int((len(ordem_cd)+1)/2)
        return ordem_cd[index-1]


print(f"\nMediana nº amostra impar: [1, 2, 3] = {mediana([1, 2, 3])}\n")
print(f"Mediana nº amostra par: [1, 2, 3, 4] = {mediana([1, 2, 3, 4])}\n")

# Saída
# Mediana nº amostra impar: [1, 2, 3] = 2
# Mediana nº amostra par: [1, 2, 3, 4] = 2.5

Para calcular a mediana para dados agrupados em classes, você pode seguir os seguintes passos:

1. Encontre a classe mediana:

Determine a classe que contém a mediana. Isso geralmente é feito olhando para as frequências acumuladas.

Se a mediana estiver na classe i, você pode usar a fórmula:

onde:

Li é o limite inferior da classe mediana;
F[i-1]é a frequência acumulada da classe imediatamente anterior à classe mediana;
fi é a frequência da classe mediana, e
N é o total de observações.

2. Calcule a mediana dentro da classe mediana:

Uma vez que você encontrou a classe mediana, você pode calcular a mediana dentro dessa classe usando a fórmula da mediana ajustada para dados agrupados. Geralmente, essa fórmula é:

onde:

ci é a amplitude da classe mediana (diferença entre os limites superior e inferior).
Exemplo Prático com Python:

classes = [[10,19], [20, 29], [30, 39], [40, 49], [50, 59]]
frequencias = [5, 8, 12, 10, 5]

def classe_mediana(classes, frequencias):
    """ Determina a classe que contém a mediana."""
    N = sum(frequencias)
    f_acumulada = 0
    f_acumulada_anterior = 0
    for i, c in zip(frequencias, classes):
        f_acumulada_anterior = f_acumulada
        f_acumulada += i
        if f_acumulada >= N/2:
            return c[0], N/2, f_acumulada_anterior, i, c[1]+1-c[0]


def calculo_mediana_classe(dados):
    """ Calcula a mediana da classe"""
    return round(dados[0]+((dados[1]-dados[2])/dados[3])*dados[4], 2)

mediana = calculo_mediana_classe(classe_mediana(classes, frequencias))
print(f"\nMediana de dados agrupados  = {mediana}\n")

# saída
# Mediana de dados agrupados  = 35.83

Medidas Separatrizes

Medidas separatrizes são estatísticas utilizadas para dividir um conjunto de dados ordenado em partes iguais ou proporcionais. Elas ajudam a identificar a posição relativa de um valor específico dentro do conjunto de dados, indicando percentis ou quartis. As medidas separatrizes incluem:

1. Quartis:

Os quartis dividem um conjunto de dados ordenado em quatro partes iguais.
O primeiro quartil (Q1) é o valor abaixo do qual estão 25% dos dados.
O segundo quartil (Q2) é equivalente à mediana e representa o valor abaixo do qual estão 50% dos dados.
O terceiro quartil (Q3) é o valor abaixo do qual estão 75% dos dados.
O quarto quartil (Q4) seria o valor abaixo do qual estão 100% dos dados, mas, na prática, ele coincide com o maior valor do conjunto.
Exemplo Prático com Python:

def quartis(conjunto_dados):
    conjunto_dados = np.sort(conjunto_dados)
    t_conjunto = len(conjunto_dados)
    q1 = conjunto_dados[:int(t_conjunto*0.25)]
    q2 = conjunto_dados[:int(t_conjunto*0.50)]
    q3 = conjunto_dados[:int(t_conjunto*0.75)]
    print("\nQ1: ", q1)
    print("\nQ2: ", q2)
    print("\nQ3: ", q3)
    print("\nQ4: ", conjunto_dados)

quartis([1, 2, 3, 4, 5, 6, 7, 8, 8, 8, 3, 4, 5, 6])

# saída
# Q1:  [1 2 3]
# Q2:  [1 2 3 3 4 4 5]
# Q3:  [1 2 3 3 4 4 5 5 6 6]
# Q4:  [1 2 3 3 4 4 5 5 6 6 7 8 8 8]

2. Percentis:

Os percentis são medidas que dividem o conjunto de dados em 100 partes iguais.
O percentil Px indica o valor abaixo do qual x% dos dados estão.
Por exemplo, o percentil25(P25) é equivalente ao primeiro quartil (Q1).
Exemplo Prático com Python:

def percentis(conjunto_dados, px):
    conjunto_dados = np.sort(conjunto_dados)
    t_conjunto = len(conjunto_dados)
    return conjunto_dados[:int(t_conjunto*(px/100.))]

print(f"\nPercentis P25 de \
[1, 4, 3, 5, 7, 3, 7, 3, 6, 3, 6, 3]: \
{percentis([1, 4, 3, 5, 7, 3, 7, 3, 6, 3, 6, 3], 25)}")

# saída
# Percentis P25 de [1, 4, 3, 5, 7, 3, 7, 3, 6, 3, 6, 3]: [1 3 3]

As medidas separatrizes são úteis para entender a distribuição dos dados e identificar pontos específicos dentro do conjunto. Por exemplo, se quisermos saber o valor abaixo do qual estão os 10% dos dados mais baixos, podemos olhar para o décimo percentil P10. Essas medidas são particularmente úteis quando o conjunto de dados é extenso, e a análise mais detalhada é necessária.

CÓDIGO NO GITHUB

GitHub - Oseiasdfarias/estatistica-para-ciencia-de-dados: Meu material de estudo para Estatística…

Meu material de estudo para Estatística aplicada a ciência de Dados - Oseiasdfarias/estatistica-para-ciencia-de-dados

github.com

REFERÊNCIAS

Canal EstaTiDados. Aula 1 — Medidas de Tendência Central — Estatística

Medidas de Tendência Central — Estatística para Ciência de Dados

Introdução

Estatística descritiva — Medidas de Tendência Central

Mediana

Medidas Separatrizes

CÓDIGO NO GITHUB

GitHub - Oseiasdfarias/estatistica-para-ciencia-de-dados: Meu material de estudo para Estatística…

Meu material de estudo para Estatística aplicada a ciência de Dados - Oseiasdfarias/estatistica-para-ciencia-de-dados

REFERÊNCIAS

Written by Oséias Farias

No responses yet