Ferramentas do usuário

Ferramentas do site


Barra lateral

lcf5876:historico-disciplina:2018:programa:03-distribuicoes:03-01-funcoes-distribuicoes
R logo LCF-5876 Computação no Ambiente R:
Aplicações em Ecologia
e Recursos Florestais
3. DISTRIBUIÇÕES ESTOCÁSTICAS

3.1. Funções Definidoras

3.1.1. Funções que Definem Distribuições Estocásticas


O conceito de “distribuição estocástica” é um conceito fundamental na análise de dados, sendo que na Estatística também se usa as expressões “variável aleatória” e “distribuição de probabilidades” como sinônimos desse conceito.

As famílias de distribuições estocásticas podem ser definidas por duas funções matemáticas:

  • Função de Densidade Probabilística que define o gráfico da distribuição, e
  • Função de Distribuição que facilita o cálculo de probabilidades com base na distribuição.

Para cada função de densidade corresponde uma única função de distribuição, e vice-versa.

O que define uma FAMÍLIA de distribuições é a forma matemática (funcional) da função de densidade ou função de distribuição. Os termos constantes nessas função são chamados de parâmetros e quando se atribui aos parâmetros valores numéricos determinados, se define uma distribuição estocástica particular.

Por exemplo: a família da distribuição normal tem dois parâmetros: média e desvio padrão. Uma distribuição normal particular é aquela com média 10 e desvio padrão 5.

3.1.2. Tipos de Distribuições Estocásticas


A função de densidade tem como contra-domínio os números reais não negativos, já a função de distribuição tem contra-domínio no intervalo de 0 a 1 ([0,1]).

Tanto a função de densidade quanto a função de distribuição têm sempre o mesmo domínio, que define dois tipos de famílias de distribuições:

  • Distribuições DISCRETAS: quando o domínio é formado por um conjunto numérico contável ou infinito contável, como o conjunto dos números inteiros, por exemplo; e
  • Distribuições CONTÍNUAS: quando o domínio é formado por um conjunto númérico incomensurável, com o conjunto dos números reais ou um sub-conjunto dele.

DISTRIBIÇÃO DISCRETA

DISTRIBIÇÃO CONTÍNUA


Exemplo de Funções de Densidade Definido Famílias e Distribuições Estocásticas

Um exemplo de família estocástica discreta é a Família Binomial que define a chance de se obter $x$ sucessos em $N$ experimentos binários independentes (sucesso/falha), sendo que probabilidade de sucesso em cada experimento é $p$. Essa família tem função de densidade com a seguinte forma:

$$f(x) = {N \choose x}\, p^x\, (1-p)^{N-x}; \qquad p>0;\quad 0 \leq x \leq N\, ,$$

onde o número de experimentos ($N$) e a probabilidade de sucesso em cada experimento ($p$) são os parâmetros.

Uma distribuição estocástica particular desta família é aquela em que o número de experimentos é $N=10$ e a probabilidade de sucesso é $p=0.5$:

$$f(x) = {10 \choose x}\, (0.5)^x\, (1-0.5)^{10-x}; \qquad x \in \{0,1,2,3,4,5,6,7,8,9,10\} ,$$

cujo gráfico fica:


Para exemplificar uma família estocástica contínua, podemos utilizar a Família Exponencial que foi inicialmente definida com um bom modelo da probabilidade de falha de um equipamento em função do tempo de uso, assumindo-se que a taxa instantânea de falha ($\lambda$) é constante. Essa família tem densidade:

$$ f(x) = \lambda\,\hbox{exp}\left(-\lambda\, x\right); \qquad \lambda > 0; \quad 0 \leq x \leq \infty,$$

onde a taxa instantânea de falha $\lambda$ é o único parâmetro.

Uma distribuição estocástica particular da família exponencial é aquela cujo parâmetro é $\lambda = 0.1$:

$$ f(x) = 0.1\,\hbox{exp}\left(-0.1\, x\right); \qquad 0 \leq x \leq \infty\,,$$

cujo gráfico fica:


3.1.3. Funções no R


Função de Densidade

As funções de densidade das famílias de distribuições são modeladas por funções com o nome “dnome_da_distribuição”, onde a letra d denota a “densidade”. Os argumentos dessa função são:

  • x: o vetor de valores do domínio para os quais se deseja o valor da densidade que é retornada pela função;
  • os valores dos parâmetros da distribuição, nesse caso cada parâmetro é um argumento e, portanto, o número de argumentos é igual ao número de parâmetros de cada família de distribuições; esses argumentos não aceitam vetores, somente escalares; e
  • log = FALSE: um argumento lógico que indica se os valores a serem retornados pela função são a densidade ou o logaritmo natural da densidade.
> x <- 0:10
> y <- dbinom(x, size=10, prob=0.5)
> barplot(y, names.arg=x, col="orange",
+   xlab="Número de Sucessos (x)", 
+   main="Distribuição Binomial: N=10, p=0.5")
> x <- seq(0,100, length=200)
> y <- dexp(x, rate=0.01)
> plot(x,y, type="l", lwd=2, col="orange", 
+   xlab = "Tempo de Uso (x)",
+   ylab = "Densidade Probabilística (f(x))", 
+   main="Distribuição Exponencial: taxa=0.01")

Função de Probabilidade Acumulada

Já as funções de distribuição têm no R a forma, “pnome_da_distribuição” (p indica “probabilidade”), tendo como argumentos:

  • x: o vetor de valores do domínio para os quais se deseja o valor da função de distribuição, ou seja, a probabilidade de se observar um valor igual ou menor que x (probabilidade acumulada até x);
  • os valores dos parâmetros da distribuição, que não aceitam vetores, somente escalares;
  • lower.tail = TRUE: argumento lógico que indica que a probabilidade deve ser a probabilidade acumulada (p); se lower.tail = TRUE a função retorna a probabilidade 1-p; e
  • log = FALSE: argumento lógico que indica se a função deve retornar o logaritmo natural da probabilidade.
> x <- 0:10
> y <- pbinom(x, size=10, prob=0.5)
> barplot(y, names.arg=x, col="orange",
+   xlab="Número de Sucessos (x)", 
+   main="Distribuição Binomial: N=10, p=0.5")
> x <- seq(0, 100, length=100)
> y <- pexp(x, rate=0.1)
> plot(x,y, type="l", col="orange", lwd=2,
+    xlab="Tempode uso (x)",
+    ylab="Probabilidade Acumulada (F(x))",
+    main="Distribuição Exponencial: taxa=0.1")
> 

Quantis Teóricos das Distribuições

O R tem duas outras funções associadas a cada família de distribuições. Uma delas é a função inversa da função de distribuição, isto é, uma função que informada com a probabilidade acumulada ela retorna o quantil correspondente. Essa função é chamada de função quantílica e sua forma no R é “qnome_da_distribuição” (q indica “quantil”), tendo como argumentos:

  • p: o vetor com os valores de probabilidade acumulada para os quais se deseja os qantis;
  • os valores dos parâmetros da distribuição, que não aceitam vetores, somente escalares; e
  • os argumentos lower.tail e log são como na função de distribuição.

Funções de Distribuição e Quantílica da Exponencial ($\lambda=0.1$)

> p <- seq(0, 1, length=100)
> y <- qexp(p, rate=0.1)
> plot(p,y, type="l", col="orange", lwd=2,
+    xlab="Probabilidade Acumulada (P(X<x))",
+    ylab="Tempo de uso (x)",
+    main="Função Quantílica da Distribuição Exponencial: taxa=0.1")
> 

Amostras Aleatórias

Outra função que existe para cada família de distribuição é a função que gera uma amostra aleatória da distribuição desejada: “rnome_da_distribuição” (r indica “random number”). Ou seja, ela retorna um vetor de números aleatórios que seguem a distribuição desejada. Seus argumentos são:

  • n: o tamanho da amostra aleatória, ou o comprimento do vetor de números aleatórios; e
  • os valores dos parâmetros da distribuição; novamente a função não aceitam vetores, somente escalares.

Amostra Aleatória da Exponencial ($\lambda=0.1$)

> n <- 200
> y <- rexp(n, rate=0.1)
> plot(y, type="h", col="purple",
+   xlab="200 Números Aleatórios",
+   ylab="Valores",
+   main="Amostra Aleatória da Exponencial\n taxa=0.1")
> n <- 200
> y <- sort(rexp(n, rate=0.1), decreasing=T)
> plot(y, type="h", col="purple",
+   xlab="200 Números Aleatórios em Ordem",
+   ylab="Valores",
+   main="Amostra Aleatória da Exponencial\n taxa=0.1")

3.1.4. Famílias de Distribuição Estocástica no R


Resumindo: para cada família de distribuição estocástica, o R tem quatro funções associadas:

  • dnome_da_distribuição”: retorna a densidade da distribuição;
  • pnome_da_distribuição”: retorna a probabildiade acumulada da distribuição;
  • qnome_da_distribuição”: retorna o quantil teórico da distribuição; e
  • rnome_da_distribuição”: retorna uma amostra aleatória da distribuição.

A tabela abaixo apresenta essas funções para cada uma das famílias de distribuição estocástica presentes no R. Os nomes dos argumentos representam os parâmetros de cada família são apresentados com seus nomes (em inglês), por exemplo, no caso da família Gaussiana (Normal), os parâmetros (=argumentos) são mean (média) e sd (standard deviation = desvio padrão).

Família de Distribuição Nome no R Nomes dos Argumentos que Representam os Parâmetros
beta beta shape1, shape2, ncp
binomial binom size, prob
Cauchy cauchy location, scale
qui-quadrado chisq df, ncp
exponential exp rate
F f df1, df2, ncp
gamma gamma shape, scale
geométrica geom prob
hypergeométrica hyper m, n, k
log-normal lnorm meanlog, sdlog
logística logis location, scale
binomial negativa nbinom size, prob
Gaussiana (Normal) norm mean, sd
Poisson pois lambda
t de Student t df, ncp
uniforme unif min, max
Weibull weibull shape, scale
Wilcoxon wilcox m, n


lcf5876/historico-disciplina/2018/programa/03-distribuicoes/03-01-funcoes-distribuicoes.txt · Última modificação: 2020/03/06 16:14 por joaoluis