Testes Estatísticos e Representação de Dados

Um dos principais objetivos da investigação e dos estudos médicos é perceber quais as associações ou os resultados não resultam do acaso. De acordo com o desenho do estudo e os dados que este fornece, pode aceitar-se ou rejeitar-se uma hipótese, permitindo a determinação de uma correlação. Os testes estatísticos são ferramentas usadas por investigadores para obter informação e significados de conjuntos de dados variáveis. Estes testes vêm em várias formas, incluindo, por exemplo, os testes qui-quadrado e exatos de Fisher, e são escolhidos dependendo das necessidades dos investigadores e das características das variáveis analisadas. Os resultados do estudo podem ser considerados estatisticamente significativos com base em p-values calculados e níveis de significância predeterminados (conhecidos como nível α). Os intervalos de confiança são outra forma de expressar a significância de um resultado estatístico sem usar um p-value.

Última atualização: Aug 1, 2022

Responsibilidade editorial: Stanley Oiseth, Lindsay Jones, Evelin Maza

Introdução

O teste de hipóteses é usado para avaliar a plausibilidade de uma hipótese através da análise dos dados do estudo.

Por exemplo, uma empresa cria um novo fármaco X destinado ao tratamento da hipertensão. A empresa quer saber se o fármaco X de facto funciona para baixar a PA, pelo que precisa de fazer testes de hipóteses.

Passos para testar uma hipótese:

  1. Formular a hipótese.
  2. Escolher qual o teste estatístico a usar.
  3. Definir o nível de significância.
  4. Calcular as estatísticas de teste a partir dos dados usando o teste apropriado/escolhido.
  5. Conclusões:
    • É tomada a decisão de rejeitar ou não a hipótese nula do passo 1.
    • Esta decisão é baseada nos níveis predeterminados de significância do passo 3.

Formular uma Hipótese

Uma hipótese é uma resposta preliminar a uma questão de investigação (ou seja, uma “suposição” sobre quais serão os resultados). Existem 2 tipos de hipóteses: a hipótese nula e a hipótese alternativa.

Hipótese nula

  • A hipótese nula (H0) afirma que não há diferença entre as populações estudadas (ou, dito de outra forma, não há relação entre as variáveis testadas).
  • Escrita como uma fórmula, H0: µ1 = µ2 , onde µ representa as médias (ou medições médias) dos grupos 1 e 2, respetivamente
  • Exemplo: O fármaco X foi criado para baixar a PA. Desenha-se uma investigação para testar se o fármaco X realmente reduz a PA. O fármaco X é administrado a 1 grupo, enquanto um 2º grupo recebe um placebo. A hipótese nula afirmaria que o fármaco X não tem efeito sobre a PA e que ambos os grupos terão a mesma PA média no final do período de estudo.

Hipótese alternativa

  • A hipótese alternativa (H1) afirma que há diferença entre as populações estudadas.
  • Escrita como uma fórmula, H1: µ1 ≠ µ2
  • Exemplo: Na experiência descrita acima, a hipótese alternativa é que o fármaco X reduz a PA, e que os pacientes do grupo do estudo que fazem o fármaco X terão PA menor do que os pacientes do grupo placebo no final do período de estudo.
  • H1 é uma afirmação que os investigadores pensam ser verdadeira.

O que o estudo realmente testa?

  • Os testes de hipóteses em amostras nunca podem verificar uma hipótese com certeza e só podem dizer que uma hipótese tem uma certa probabilidade de ser verdadeira ou falsa.
  • Um estudo de investigação que envolve hipóteses ou rejeitará ou não rejeitará a hipótese nula.

Exemplos

Exemplo 1: rejeitar a hipótese nula

No exemplo acima, se os resultados do ensaio demonstrarem que o fármaco X de facto reduz significativamente a PA (ou seja, existe evidência estatística suficiente para o suportar), então a hipótese nula (postulando que não há diferença entre os grupos) é rejeitada com uma determinada probabilidade. Note-se que estes resultados não podem confirmar a hipótese alternativa, mas apenas a suportam com uma dada probabilidade, determinada pela distribuição da amostra na população testada

Exemplo 2: não rejeitar a hipótese nula

No exemplo acima, se os resultados do ensaio demonstrarem que o fármaco X não baixou significativamente a PA, então o estudo não rejeitou a hipótese nula. Mais uma vez, note-se que os resultados não podem confirmar a hipótese nula, mas apenas suportá-la com uma dada probabilidade, determinada pela distribuição da amostra na população testada.

Tipos de erros e potência

  • Erro tipo I:
    • A hipótese nula é verdadeira, mas é rejeitada.
    • A chance de cometer um erro do tipo I é representada como α.
  • Erro tipo II:
    • A hipótese nula é falsa, mas é aceite/não rejeitada.
    • A chance de cometer um erro tipo II é representada como β.
  • Potência:
    • A probabilidade de um teste rejeitar corretamente uma hipótese nula falsa
    • Potência = 1 – β
    • A potência depende de:
      • Tamanho da amostra (por exemplo, maior tamanho da amostra → ↑ potência)
      • Tamanho do efeito esperado (por exemplo, efeito esperado maior/maior → ↑ potência)
Types of errors

Tipos de erro

Imagem por Lecturio.

Determinar a Significância Estatística

A significância estatística é a ideia de que é altamente improvável que todos os resultados dos testes sejam produzidos simplesmente por acaso. Para determinar a significância estatística, é preciso definir um valor α e calcular um valor p (p-value).

P-values

Pode ser criado um gráfico no qual os possíveis resultados do estudo são colocados no eixo x e a probabilidade de observar cada resultado é colocada no eixo y. A área sob a curva representa o valor de p (p-value).

  • O p-value é a probabilidade de obter um determinado resultado, assumindo que a hipótese nula é verdadeira.
    • Por outras palavras, o p-value é a probabilidade de se obter esse resultado se não houvesse relação entre as variáveis e os resultados ocorressem simplesmente por acaso.
    • Como todas as probabilidades, o p-value está entre 0 e 1.
  • P-values mais altos (áreas sob a curva maiores):
    • Indicam uma probabilidade maior de que a hipótese nula seja verdadeira
    • Sugere que não há relação entre as suas variáveis
    • Exemplo: No exemplo acima, um p-value de 0,6 significaria que é improvável que o fármaco X esteja associado a uma PA mais baixa.
  • P-values mais baixos (áreas sob a curva menores):
    • Indicam uma probabilidade baixa de que a hipótese nula seja verdadeira
    • Sugere que é improvável que uma correlação observada entre as suas variáveis se deva simplesmente ao acaso e que provavelmente existe uma relação verdadeira
    • Exemplo: No exemplo acima, um p-value de 0,02 sugere que o fármaco X está associado a uma PA mais baixa.
  • Se o p-value for inferior ao seu nível de significância predeterminado (nível α), você pode rejeitar a hipótese nula, porque provavelmente há uma relação real entre suas variáveis.
  • Quanto menor o p-value, mais confiante você pode estar de que a relação entre as suas variáveis é verdadeira (e não se deve ao acaso).

Mnemónica:

If the p is low, the null (hypothesis) must go.” (Se o p for baixo, o nulo (hipótese) deve desaparecer.)

A graphical representation of the p-value and α-levels

Representação gráfica do p-value e níveis α:
Observe, neste exemplo, que o p-value observado é menor que o nível predeterminado de significância estatística (neste caso, 95%). Isto significa que a hipótese nula deve ser rejeitada porque o resultado observado seria muito improvável se a hipótese nula (de que não existe relação entre as variáveis) fosse verdadeira.

Imagem por Lecturio.

Nível α

  • O nível α é um valor p que representa um “nível de significância” determinado arbitrariamente.
  • O nível α deve ser escolhido antes da realização de um estudo.
  • Por convenção, o nível α normalmente é definido em 0,05 ou 0,01.
  • O nível α é o risco que você está disposto a correr de tomar uma decisão errada, na qual rejeita incorretamente a hipótese nula (quando ela é de facto verdadeira).
  • Exemplo:
    • Um nível α de 0,05 significa que você concluirá que existe uma relação entre suas variáveis se o p-value for < 0,05.
    • Isto significa que você está disposto a aceitar até 5% de chance de cometer um erro tipo 1.
  • No exemplo fármaco X para a PA, se o p-value fosse 0,03, você concluiria que:
    • O fármaco X está associado a uma PA mais baixa → esta é uma rejeição da hipótese nula
    • Há uma chance de 3% de você ter cometido um erro do tipo 1: que a hipótese nula era de facto verdadeira e o fármaco X não está realmente associado a uma PA mais baixa.

Intervalos de confiança

  • Um IC é a probabilidade de que o seu resultado esteja entre um intervalo de valores definido.
    • Os ICs medem o grau de incerteza na amostragem.
    • O IC é o intervalo de médias que você obteria ao obter amostras sucessivas da mesma população repetidamente.
    • Os ICs são calculados usando o tamanho da amostra, a média da amostra e o desvio padrão (normalmente são usadas calculadoras online e tabelas padrão).
  • O nível de confiança para ICs é a probabilidade de que o IC contenha o resultado verdadeiro
    • Mais frequentemente, usa-se um nível de confiança de 95% (embora o nível de confiança geralmente varie de 90% a 99%)
    • Um IC de 95% é um intervalo de valores com 95% de certeza de conter a verdadeira média da população.
    • Assim como o nível α, o nível de confiança do IC é escolhido antes de testar os dados.
    • Quanto maior a confiança necessária, maior será o intervalo.
  • Exemplo: Os investigadores querem determinar a altura média numa população de 1.000 homens. As alturas são medidas numa amostra aleatória de 50 desses homens.
    • Encontra-se uma altura média de 70 polegadas (177 cm).
    • O IC de 95% é calculado entre 68 e 72 polegadas (172,2 cm e 182,8 cm).
    • Isto significa que, se os investigadores recolherem 100 amostras aleatórias dessa mesma população, 95% das vezes, a média ficará entre 68 e 72 polegadas. (Isto não significa que 95% dos dados nessa 1 amostra estejam entre 68 e 72 polegadas.)
    • Se for desejado um nível de confiança mais alto, o intervalo será alargado; por exemplo, um IC de 99% pode resultar num IC de 66 a 74 polegadas (167,6 cm e 187,9 cm).
90% confidence interval on a standard normal curve

Um intervalo de confiança de 95% numa curva normal típica

Imagem por Lecturio.

Armadilhas no teste de hipóteses

  • Não baseie sua hipótese no que você vê nos dados.
  • Não faça da sua H0 o que quer mostrar como verdade.
  • Verifique as condições.
  • Não aceite a H0, em vez disso, não a rejeite.
  • Não confunda significância prática e significância estatística (por exemplo, com um tamanho de amostra grande o suficiente, pode descobrir que o fármaco X reduz a PA sistólica em 2 mmHg. Mesmo que isto seja estatisticamente significativo, é clinicamente significativo para o seu paciente?)
  • Se não rejeitar o H0, não assuma que um tamanho de amostra maior levará à rejeição.
  • Certifique-se que reflete se é razoável supor que os eventos são independentes.
  • Não interprete os p-values como a probabilidade de que a H0 seja verdadeira.
  • Mesmo um teste realizado perfeitamente pode estar errado.

Testes Estatísticos

Escolher o teste certo

A escolha do teste baseia-se em:

  • Os tipos de variáveis que está a testar (tanto a “exposição” do seu teste quanto o seu “resultado”)
    • Quantitativo: contínuo (idade, peso, altura) versus discreto (número de pacientes)
    • Categórico: ordinal (classificações; ex.: notas, tamanho da roupa), nominal (grupos com nomes; ex. estado civil) ou binário (dados com apenas uma resposta “sim/não”; ex., vivo ou morto)
  • Se os seus dados cumprem ou não determinados critérios conhecidos como suposições; suposições comuns incluem:
    • Os pontos dos dados são todos independentes uns dos outros.
    • A variação dentro de um único grupo é semelhante entre todos os grupos.
    • Os dados seguem uma distribuição normal (curva em forma de sino).

Deve sempre questionar-se a razoabilidade do modelo. Se o modelo está errado, todo o resto também está.

Tenha cuidado com variáveis que não são verdadeiramente independentes.

Variáveis contínuas e categóricas

Representações gráficas de dados contínuos e categóricos

Imagem por Lecturio. Licença: CC BY-NC-SA 4.0

Tipos de testes

As 3 categorias principais de testes estatísticos são:

  1. Testes de regressão: avaliam as relações de causa e efeito
  2. Testes de comparação: comparam as médias de diferentes grupos (requerem dados de resultados quantitativos)
  3. Testes de correlação: procuram associações entre diferentes variáveis
Tabela: Tipos de testes estatísticos
Nome de teste O que o teste está a testar Tipos de variáveis/dados Exemplo
Testes de regressão
Regressão linear simples Como é que uma alteração na variável de previsão/entrada (input) afeta a variável de resultado
  • Preditor: contínuo
  • Resultado: contínuo
Como é que o peso (preditor) afeta a esperança de vida (resultado)?
Regressão linear múltipla Como é que as alterações nas combinações de ≥ 2 variáveis preditoras podem prever alterações no resultado
  • Preditor: contínuo
  • Resultado: contínuo
Como é que o peso e o status socioeconómico (preditores) afetam a esperança de vida (resultado)?
Regressão logística Como é que ≥ 1 variáveis preditoras podem afetar um resultado binário
  • Preditor: contínuo
  • Resultado: binário
Qual é o efeito do peso (preditor) na sobrevivência (resultado binário: morto ou vivo)?
Testes de comparação
Teste t (t-test) emparelhado Compara as médias de 2 grupos da mesma população
  • Preditor: categórico
  • Resultado: quantitativo
Comparar os pesos dos bebés (resultado) antes e depois da alimentação (preditor).
Teste t (t-test) independente Compara as médias de 2 grupos de diferentes populações
  • Preditor: categórico
  • Resultado: quantitativo
Qual é a diferença na altura média (resultado) entre 2 equipas de basquete diferentes (preditor)?
Análise de variância (ANOVA) Compara as médias de > 2 grupos
  • Preditor: categórico
  • Resultado: quantitativo
Qual é a diferença nos níveis de glicose no sangue (resultado) 1, 2 e 3 horas após uma refeição (preditores)?
Testes de correlação
Teste qui-quadrado Testa a força da associação entre 2 variáveis categóricas com um tamanho de amostra maior
  • Variável 1: categórica
  • Variável 2: categórica
Comparar se a aceitação na faculdade de medicina (variável 1) é mais provável se o candidato nasceu no Reino Unido (variável 2).
Teste exato de Fisher Testa a força da associação entre 2 variáveis categóricas com um tamanho de amostra menor
  • Variável 1: categórica
  • Variável 2: categórica
Igual ao qui-quadrado, mas com tamanhos de amostra menores
Teste de r de Pearson Testa a força da associação entre 2 variáveis contínuas
  • Variável 1: contínua
  • Variável 2: contínua
Comparar como o nível plasmático de HbA 1c (variável 1) se relaciona com os níveis plasmáticos de triglicéridos (variável 2) em pacientes diabéticos.

Teste de qui-quadrado (χ2)

Testes de qui-quadrado são usados frequentemente para analisar dados categóricos e determinar se 2 variáveis categóricas estão relacionadas.

  • O que os testes de qui-quadrado conseguem avaliar:
    • Se está presente uma associação estatisticamente significativa entre 2 variáveis
    • Dados analisados: normalmente dados categóricos “contados”, o que significa que você tem várias categorias nomeadas e os seus pontos de dados são os valores contados para cada categoria.
    • Mais preciso em amostras grandes do que o teste exato de Fisher
  • O que os testes qui-quadrado não conseguem avaliar:
    • A força dessa associação
    • Se a relação é causal

Para realizar um teste qui-quadrado são necessárias 2 informações: os graus de liberdade (número de categorias menos 1) e o nível α (que é escolhido pelo investigador e geralmente definido como 0,05). Além disso, os dados devem ser organizados numa tabela.

Exemplo: Se você quisesse ver se os malabaristas eram mais propensos a nascer durante uma determinada estação do ano, os dados poderiam ser registrados na tabela seguinte:

Categoria (i): estação de nascimento Frequência observada de malabaristas em cada estação de nascimento
Primavera 66
Verão 82
Outono 74
Inverno 78
Número total de malabaristas na amostra: 300

Para começar, as frequências esperadas para cada célula na tabela acima precisam de ser determinadas usando a equação:

$$ Frequência\ esperada = np_{0i} $$

onde n = o tamanho da amostra e p0i é a proporção hipotética em cada categoria i.

No exemplo acima, n = 300 e p0i é ¼, então a frequência esperada em cada célula é 300 * 0,25 = 75 em cada célula.

A estatística de teste é então calculada pela fórmula padrão do qui-quadrado:

$$ \chi ^{2} = \sum _{todas\ as\ células} \frac{(observado-esperado)^{2}}{esperado} $$

onde 𝝌2 é a estatística de teste que está a ser calculada. Para cada “célula” ou categoria, a frequência esperada é subtraída da frequência observada; este valor é elevado ao quadrado e depois dividido pela frequência esperada. Depois de este número ser calculado para cada categoria, os números são somados.

Exemplo de cálculo de 𝝌2: Usando o exemplo acima, a frequência esperada em cada célula é 75, então o teste de 𝝌2 pode ser calculada da seguinte forma:

Categoria (i): estação de nascimento Frequência observada de malabaristas com cada estação de nascimento (Observado – esperado) 2 /esperado
Primavra 66 (66 ‒ 75) 2 / 75 = 1,08
Verão 82 (82 ‒ 75) 2 / 75 = 0,653
Outono 74 (74 ‒ 75) 2 / 75 = 0,013
Inverno 78 (78 ‒ 75) 2 / 75 = 0,12

𝝌 2 = 1,08 + 0,653 + 0,013 + 0,12 = 1,866

Determinar se a estatística de teste é ou não estatisticamente significativa:

Para determinar se esta estatística de teste é estatisticamente significativa, a tabela de qui-quadrado é usada para obter o número crítico de qui-quadrado.

  • A tabela tem graus de liberdade (número de categorias menos 1) no eixo y e o nível α no eixo x.
  • Usando os graus de liberdade e o nível α do estudo, você encontra o número crítico no gráfico (veja o gráfico de exemplo abaixo).
  • O número crítico é usado para determinar a significância estatística comparando-o com a estatística de teste.
    • Se a estatística de teste > valor crítico:
      • As frequências observadas estão longe das frequências esperadas
      • Rejeita-se a hipótese nula em favor da hipótese alternativa baseada neste nível α.
    • Se a estatística de teste < valor crítico:
      • As frequências observadas estavam próximas das frequências esperadas
      • Não se rejeita a hipótese nula com base neste nível α.
Exemplo de uma tabela qui-quadrado

Exemplo da tabela de valores críticos para o teste de 𝝌2:
No eixo y, V representa os graus de liberdade (ou seja, o número de categorias em estudo menos 1); os níveis de significância (níveis α) são mostrados ao longo do eixo x. Os valores críticos correspondentes são encontrados na tabela e comparados com a estatística de teste calculada.

Imagem por Lecturio. Licença: CC BY-NC-SA 4.0

Exemplo de teste 𝝌2: Os malabaristas são mais propensos a nascer numa determinada estação com um nível de significância de 0,05?

  • Existem 4 estações diferentes, então existem 3 graus de liberdade.
  • nível α = 0,05
  • Usando a tabela acima, o número crítico é 7,81
  • Portanto, rejeitaremos nossa hipótese nula se a estatística de teste for > 7,81.
Cálculos assumindo que a frequência esperada em cada célula é 75
Categoria (i): estação de nascimento Frequência observada de malabaristas com cada estação de nascimento (Observado ‒ esperado) 2 /esperado
Primavera 66 (66 ‒ 75) 2 / 75 = 1,08
Verão 82 (82 ‒ 75) 2 / 75 = 0,653
Outono 74 (74 ‒ 75) 2 / 75 = 0,013
Inverno 78 (78 ‒ 75) 2 / 75 = 0,12

𝝌2= 1,08 + 0,653 + 0,013 + 0,12 = 1,866

Como 1,866 é < 7,81 (o nosso valor crítico), precisamos de não rejeitar (ou seja, aceitar) a hipótese nula e concluir que a estação de nascimento não está associada ao malabarismo.

Armadilhas comuns:

  • Não usar o qui-quadrado a menos que os dados sejam contados.
  • Cuidado com tamanhos de amostra grandes, pois os graus de liberdade não aumentam.

O teste exato de Fisher

Semelhante ao 𝝌2, o teste exato de Fisher é um teste estatístico usado para determinar se existem associações não aleatórias entre 2 variáveis categóricas.

  • Usado para analisar dados encontrados em tabelas de contingência e determinar o desvio dos dados em relação à hipótese nula (ou seja, o p-value)
    • Por exemplo: comparar 2 possíveis “exposições” (fumar versus não fumar) com 2 resultados possíveis (desenvolver cancro do pulmão versus saudável)
    • As tabelas de contingência podem ter > 2 “exposições” ou > 2 resultados
  • Mais preciso para conjuntos de dados pequenos
  • O teste de Fisher fornece p-values exatos com base na tabela.
  • Fórmula complicada para calcular a estatística do teste, normalmente calculada com software.

Monta-se uma tabela de contingência 2 × 2 assim:

Y Z Total da linha
W A B A + B
X C D C + D
Total da coluna A + C B + D A + B + C + D (= n )

A estatística do teste, p , é calculada a partir desta tabela usando a seguinte fórmula:

$$ p = \frac{(\frac{a+b}{a})(\frac{c+d}{c})}{(\frac{n}{a+c})} = \frac{(\frac{a+b}{b})(\frac{c+d}{d})}{(\frac{n}{b+d})} = \frac{(a+b)! (c+d)! (a+c)! (b+d)!}{a! b! c! d! n!} $$

onde p = p-value; A, B, C e D são números das células numa tabela de contingência básica 2 × 2; e n = total de A + B + C + D.

Vídeos recomendados

Representação Gráfica de Dados

Propósito

Antes de ser feito qualquer cálculo, os dados devem ser apresentados num formato gráfico simples (por exemplo, gráfico de barras, gráfico de dispersão, histograma).

  • As características da distribuição dos dados indicarão as ferramentas estatísticas que serão necessárias para a análise.
  • Os gráficos são o 1º passo na análise de dados, permitindo a visualização imediata de distribuições e padrões, que determinarão os próximos passos da análise estatística.
  • Os outliers podem ser uma indicação de erros matemáticos ou experimentais.
  • Há muitas formas de representar graficamente os dados.
  • Após a conclusão dos cálculos, a apresentação visual pode ajudar o leitor a conceituar os resultados.

Exibir uma relação entre variáveis

Tabelas de contingência:

  • Tabelas que mostram as frequências relativas de diferentes combinações de variáveis
  • Exemplo: Comparar os resultados de um teste de rastreio (positivo ou negativo) com se os indivíduos realmente têm ou não uma doença. (Nota: Este tipo específico de tabela de contingência pode ser usado para calcular a sensibilidade e especificidade de um teste de rastreio.)
Tabela de contingência para falsos positivos e negativos

Tabela de contingência identificando falsos positivos (b) e falsos negativos (c)

Imagem por Lecturio. Licença: CC BY-NC-SA 4.0

Diagrama de dispersão (scatter diagram):

  • Um método usado frequentemente para exibir a relação entre 2 variáveis numéricas ou 1 variável numérica e 1 variável categórica
  • Os pontos representam os valores de pontos de dados individuais.
  • Permite o cálculo de uma “linha de melhor ajuste” representando os dados como um todo
  • Permite fácil visualização de todo o conjunto de dados
  • Exemplo: diagrama de dispersão que mostra a relação entre 2 variáveis numéricas
Gráfico de dispersão

Exemplo de um diagrama de dispersão

Imagem: “Scatterplot” por Qwertyus. Licença: CC0 1.0

Gráficos de caixa (box plots):

  • Mostra a dispersão e os centros do conjunto de dados
  • Expressa visualmente um resumo de 5 números:
    1. O valor mínimo é mostrado no final do lado esquerdo da caixa.
    2. O primeiro quartil (Q1) está na extremidade esquerda da caixa.
    3. A mediana é mostrada como a linha no centro da caixa
    4. O terceiro quartil (Q3) está na extremidade direita da caixa.
    5. O valor máximo é mostrado no final do lado direito da caixa.
  • Normalmente usado ao comparar médias e distribuições entre 2 populações
  • Exemplo: O gráfico de caixa a seguir compara os períodos médios de incubação entre diferentes variantes do novo coronavírus (nCoV), SARS e síndrome respiratória do Médio Oriente (MERS).
Boxplot do período de incubação do sars-cov-2

Exemplo de um gráfico de caixa

Imagem: “Box-and-whisker-plots” por Jantien A. Backer, Don Klinkenberg, Jacco Wallinga. Licença: CC BY 4.0

Curvas de sobrevivência de Kaplan-Meier

  • Um tipo de análise estatística usada para estimar os dados de tempo até ao evento – normalmente, dados de sobrevivência.
  • Usadas frequentemente em estudos médicos que mostram como um determinado tratamento pode afetar/prolongar a sobrevida.
  • A linha representa o número de pacientes sobreviventes (ou que ainda não atingiram um determinado ponto final) num determinado momento.
  • Exemplo: A curva de sobrevivência abaixo mostra como 2 assinaturas genéticas diferentes afetam a sobrevivência. O estudo começa no ponto de tempo 0, com 100% dos 2 grupos sobrevivente. Cada quebra na linha representa os indivíduos que morrem em cada grupo, diminuindo a percentagem de indivíduos que permanecem vivos. Após 3 anos, aproximadamente 50% das pessoas com a assinatura do gene A ainda estão vivas, em comparação com apenas 5% que têm a assinatura do gene B.
Exemplo de um gráfico de kaplan-meier

Exemplo de um gráfico de Kaplan-Meier

Imagem: “An example of a Kaplan Meier plot” por Rw251. Licença: CC0 1.0

Apresentação de variáveis numéricas

Tabelas (uma tabela de frequência é um exemplo):

  • A forma mais simples de fazer gráficos de dados
  • Os dados são exibidos em colunas e linhas.

Histogramas:

  • Bom para demonstrar os resultados de dados contínuos, como:
    • Pesos
    • Alturas
    • Durações de tempo
  • Semelhante, mas não igual, aos gráficos de barras (que exibem dados categóricos)
  • Uma exibição de histograma divide os dados contínuos em intervalos ou amplitudes.
  • A altura de cada barra representa o número de pontos de dados que se enquadram nesse intervalo.
  • Como os histogramas representam dados contínuos, são desenhados sem intervalos entre as barras.
  • Exemplo: Um histograma que mostra quantas pessoas perderam ou ganharam peso durante um período de estudo de 2 semanas. Neste exemplo, 1 pessoa perdeu entre 2,5 e 3 libras (1,1 kg e 1,4 kg), 27 pessoas ganharam entre 0 e 0,5 libras (0 kg e 0,2 kg) e 6 pessoas ganharam entre 1 e 1,5 libras (0,4 kg e 0,6 kg).
Exemplo de um histograma

Exemplo de um histograma

Imagem: “Example of a histogram” por Jkv. Licença: Domínio Público

Gráficos de polígonos de frequência:

  • Um gráfico de polígono de frequência traça as frequências de cada ponto de dados (ou intervalo num histograma) e conecta-os com uma linha.
  • Bom para entender a forma de uma distribuição
Exemplo de um gráfico de polígono de frequência

Gráfico de polígonos de frequência para salários de 31 equipes da NFL

Imagem: “Example of a frequency polygon chart” por JLW87. Licença: Public Domain

Apresentação de variáveis categóricas

Tabelas de frequência, gráficos de barras/histogramas e gráficos circulares são 3 das formas mais comuns de apresentar dados categóricos.

Tabelas de frequência:

  • Exibem números e/ou percentagens para cada valor de uma variável
  • Exemplo: Vá até 100 semáforos diferentes e registe se o semáforo estava vermelho, amarelo ou verde na sua chegada.
Tabela: Exemplo de uma tabela de frequência
Cor do semáforo Frequência
Vermelho 65
Amarelo 5
Verde 30

Gráfico de barras:

  • O comprimento de cada barra indica o número ou frequência dessa variável no conjunto de dados; as barras podem ser exibidas verticalmente ou horizontalmente
  • Exemplo: um gráfico de barras mostrando a discriminação por raça/etnia no Texas em 2015.
Exemplo de gráfico de barras

Exemplo de gráfico de barras

Imagem: “Bar Chart of Race & Ethnicity in Texas” por Datawheel. Licença: CC0 1.0

Gráfico circular:

  • Demonstra proporções relativas entre diferentes variáveis categóricas
  • Exemplo: O gráfico circular seguinte mostra os resultados das eleições para o Parlamento Europeu em 2004, com cada cor representando um partido político diferente e a percentagem de votos que recebeu.
Exemplo de um gráfico de pizza

Exemplo de um gráfico circular

Imagem: “A pie chart for the example data” por Liftarn. Licença: Public Domain

Referências

  1. Greenhalgh, T. (2014). How to Read a Paper: The Basics of Evidence-Based Medicine. Chichester, UK: Wiley.
  2. Cochran, W. G. (1952). The chi-square test of goodness of fit. Annals of Mathematical Statistics 23(3):315–345.
  3. Yates, F. (1934). Contingency table involving small numbers and the χ2 test. Supplement to the Journal of the Royal Statistical Society 1(2):217–235.
  4. Kale, A. (2009). Chapter 2 of Basics of Research Methodology. Essentials of Research Methodology and Dissertation Writing, 7–14.
  5. Till, Y., Matei, A. (n.d.). Basics of Sampling for Survey Research. SAGE Handbook of Survey Methodology, pp. 311–328.
  6. Shober, P. et al. (2018). Statistical significance versus clinical importance of observed effect sizes: what do p values and confidence intervals really represent? Anesthesia & Analgesia 126:1068–1072.
  7. Katz, D. L., et al. (Eds.), Jekel’s Epidemiology, Biostatistics, Preventive Medicine, and Public Health, pp. 105–118. Retrieved July 8, 2021, from https://search.library.uq.edu.au/primo-explore/fulldisplay?vid=61UQ&search_scope=61UQ_All&tab=61uq_all&docid=61UQ_ALMA2193525390003131&lang=en_US&context=L

Aprende mais com a Lecturio:

Complementa o teu estudo da faculdade com o companheiro de estudo tudo-em-um da Lecturio, através de métodos de ensino baseados em evidência.

Estuda onde quiseres

A Lecturio Medical complementa o teu estudo através de métodos de ensino baseados em evidência, vídeos de palestras, perguntas e muito mais – tudo combinado num só lugar e fácil de usar.

User Reviews

Details