Una variabile aleatoria discreta è una variabile che può assumere solo un numero finito o numerabile di valori distinti. Questi valori sono spesso interi, ma non necessariamente.
Consideriamo un esempio semplice: il lancio di un dado onesto a sei facce. La variabile aleatoria \(X\) che rappresenta il risultato del lancio può assumere i valori \(\{1, 2, 3, 4, 5, 6\}\). La probabilità di ciascun valore è \(P(X=k) = \frac{1}{6}\) per \(k \in \{1, 2, 3, 4, 5, 6\}\), e \(P(X=k) = 0\) altrimenti.
La funzione di probabilità (Probability Mass Function, PMF) per una variabile aleatoria discreta \(X\) è definita come:
dove \(k\) sono i possibili valori che \(X\) può assumere.
(Immaginate un diagramma a barre con 6 barre di uguale altezza 1/6, corrispondenti ai valori 1, 2, 3, 4, 5, 6 sull'asse orizzontale).
La funzione di ripartizione (Cumulative Distribution Function, CDF) per una variabile aleatoria discreta \(X\) è definita come:
La CDF è una funzione a gradoni, che aumenta solo in corrispondenza dei valori che la variabile aleatoria può assumere.
Una variabile aleatoria continua, d'altra parte, può assumere qualsiasi valore all'interno di un intervallo specificato (finito o infinito) della retta reale. A differenza delle variabili discrete, per una variabile continua la probabilità che essa assuma un valore esattamente specifico è teoricamente zero.
Consideriamo l'esempio dell'altezza di una persona. L'altezza può essere \(1.75\) metri, \(1.753\) metri, \(1.75321\) metri, e così via. Tra due valori qualsiasi, possiamo sempre trovare un altro valore.
Invece di una funzione di probabilità, per le variabili aleatorie continue utilizziamo la funzione di densità di probabilità (Probability Density Function, PDF), denotata con \(f_X(x)\). La PDF ha le seguenti proprietà:
Immaginiamo di avere una variabile aleatoria discreta che può assumere un numero sempre maggiore di valori in un intervallo, con la distanza tra i valori che diventa sempre più piccola. Il diagramma a barre della sua PMF inizierebbe ad avere barre sempre più strette e numerose. Nel limite, quando il numero di possibili valori diventa infinito e la distanza tra loro infinitesima, le barre si "fondono" in una curva continua: la PDF.
Consideriamo una variabile aleatoria discreta che assume valori in \([0, 1]\) con probabilità uniforme su un numero crescente di punti.
(Immaginate 3 barre di altezza simile).
(Immaginate 11 barre più strette e di altezza simile).
(Immaginate una linea orizzontale all'altezza 1 sull'intervallo [0, 1] dell'asse x).
La funzione di ripartizione (Cumulative Distribution Function, CDF) per una variabile aleatoria continua \(X\) è definita come:
La CDF di una variabile aleatoria continua è una funzione continua e non decrescente, che varia da 0 a 1.
La PDF è la derivata della CDF, dove esiste:
Per una variabile aleatoria continua \(X\) con PDF \(f_X(x)\):
Questi parametri descrivono rispettivamente: la posizione centrale (valor medio), la dispersione (varianza), e la scala della distribuzione (deviazione standard).
Graficamente, la PDF è un rettangolo di altezza \(\frac{1}{b - a}\) sull'intervallo \([a, b]\).
Parametri caratteristici:
Graficamente, la PDF è una curva a forma di campana simmetrica attorno alla media \(\mu\).
Parametri caratteristici:
Graficamente, la PDF è una curva che decresce esponenzialmente a partire da \(\lambda\) per \(x=0\).
Parametri caratteristici:
La Funzione di Ripartizione (CDF), \(F(t)\), di una variabile aleatoria continua \(T\) è definita come la probabilità che la variabile \(T\) assuma un valore minore o uguale a un certo \(t\). Matematicamente, si esprime come:
Per la distribuzione esponenziale, la PDF è \(f_X(x) = \lambda e^{-\lambda x}\) per \(x \ge 0\) e \(0\) altrove. Dobbiamo considerare due casi per l'integrale:
Se \(t < 0\), la funzione di densità \(f_X(x)\) è \(0\) per tutti i valori di \(x\) fino a \(t\). Quindi l'integrale è:
Questo è intuitivo, poiché il tempo di attesa non può essere negativo.
Se \(t \geq 0\), l'integrale va da \(-\infty\) a \(t\). Tuttavia, poiché la PDF è \(0\) per \(x < 0\), possiamo iniziare l'integrazione da \(0\):
Per risolvere questo integrale, applichiamo la sostituzione \(u = -\lambda x\), da cui \(du = -\lambda dx\), e quindi \(dx = -\frac{1}{\lambda} du\).
Quando \(x=0\), \(u = -\lambda(0) = 0\).
Quando \(x=t\), \(u = -\lambda t\).
Sostituendo nell'integrale, otteniamo:
Invertendo gli estremi di integrazione per eliminare il segno meno:
Quindi, la CDF per la distribuzione esponenziale è:
Questa funzione rappresenta la probabilità che il tempo di attesa sia minore o uguale a \(t\). Intuitivamente, \(e^{-\lambda t}\) è la probabilità che l'evento non sia ancora avvenuto al tempo \(t\), quindi \(1 - e^{-\lambda t}\) è la probabilità che l'evento sia avvenuto entro il tempo \(t\).
Data una variabile aleatoria normale \(X \sim \mathcal{N}(\mu, \sigma^2)\), è possibile trasformarla in una variabile normale standard \(Z \sim \mathcal{N}(0, 1)\) attraverso la formula:
Perché standardizzare?
Le tavole di Shepard (o tavole Z) forniscono i valori della funzione di ripartizione \(\Phi(z) = P(Z \leq z)\) per la normale standard. Ad esempio:
Esempio pratico: Nell'esercizio sulla distribuzione gaussiana:
Curiosità storica: Le tavole della normale standard furono pubblicate per la prima volta da Shepard nel 1903, e sono state strumento essenziale per i calcoli statistici prima dell'avvento dei computer.
Data la funzione:
a) Verificare che sia una funzione densità di probabilità valida
b) Determinare la funzione di ripartizione F(x)
c) Calcolare valor medio, varianza e deviazione standard
(Prova a svolgere l'esercizio. Clicca sul bottone per vedere la soluzione completa)
La durata in ore di un componente elettronico ha una funzione di densità di probabilità data da:
a) Determinare il valore della costante \(k\) affinché \(h(x)\) sia una funzione densità di probabilità valida.
b) Calcolare la probabilità che il componente duri più di 2 ore.
c) Calcolare la probabilità che il componente duri tra 1.5 e 2.5 ore.
d) Calcolare il valor medio, la varianza e la deviazione standard.
(Prova a svolgere l'esercizio. Clicca sul bottone per vedere la soluzione completa)
Perché \(h(x)\) sia una PDF valida, l'integrale su tutto il suo dominio deve essere uguale a 1:
Calcoliamo l'integrale improprio:
Imponendo che l'integrale sia uguale a 1:
Quindi, la PDF è:
La probabilità che il componente duri più di 2 ore è del 25%.
Calcoliamo i valori agli estremi:
La probabilità che il componente duri tra 1.5 e 2.5 ore è approssimativamente del 28.44%.
Per una variabile aleatoria continua \(X\) con PDF \(h(x)\):
Calcoliamo il valor medio:
Calcoliamo la varianza:
Sviluppiamo il calcolo:
Calcoliamo la deviazione standard:
Una variabile aleatoria X è uniformemente distribuita sull'intervallo [0, 5]. Determinare:
a) La funzione di densità di probabilità
b) La probabilità P(1 ≤ X ≤ 3)
a) PDF: \[ f(x) = \begin{cases} \frac{1}{5} & 0 \leq x \leq 5 \\ 0 & \text{altrimenti} \end{cases} \]
b) Calcolo della probabilità:
Un numero reale viene scelto casualmente nell'intervallo [-5, 10]. Calcolare:
a) Il valore atteso E[X]
b) La probabilità P(-2 ≤ X ≤ 7)
a) Valore atteso: \[ E[X] = \frac{a + b}{2} = \frac{-5 + 10}{2} = 2.5 \]
b) Probabilità: \[ P(-2 \leq X \leq 7) = \frac{7 - (-2)}{10 - (-5)} = \frac{9}{15} = 0.6 \]
c) PDF: \[ f(x) = \begin{cases} \frac{1}{15} & -5 \leq x \leq 10 \\ 0 & \text{altrimenti} \end{cases} \]
L'altezza degli studenti di un certo istituto è approssimativamente distribuita secondo una legge normale con media \(\mu = 170\) cm e deviazione standard \(\sigma = 10\) cm. Qual è la probabilità che uno studente scelto a caso sia alto tra i 160 cm e i 180 cm?
(Prova a svolgere l'esercizio. Clicca sul bottone per vedere la soluzione completa)
Sia \(X\) la variabile aleatoria che rappresenta l'altezza degli studenti. Sappiamo che \(X \sim \mathcal{N}(170, 10^2)\).
Vogliamo calcolare \(P(160 \leq X \leq 180)\).
Standardizziamo i valori utilizzando la formula \(Z = \frac{X - \mu}{\sigma}\):
Quindi, la probabilità cercata è equivalente a \(P(-1 \leq Z \leq 1)\), dove \(Z\) è una variabile aleatoria normale standard.
Consultando le tavole della normale standard (tavole di Shepard o tavole Z), che tipicamente forniscono l'area tra 0 e Z:
La funzione \(\Phi(Z)\) rappresenta l'area sotto la curva normale standard da \(-\infty\) a \(Z\). Se le tue tavole forniscono l'area tra 0 e Z (es. \(P(0 \leq Z \leq Z_{tabella})\)), per ottenere \(\Phi(1)\) procediamo così:
Per un valore negativo di Z come -1, possiamo usare la simmetria della distribuzione normale. L'area a sinistra di -1 è uguale all'area a destra di +1, o in termini di \(\Phi\): \(\Phi(-Z) = 1 - \Phi(Z)\). Quindi:
La probabilità che uno studente scelto a caso sia alto tra i 160 cm e i 180 cm è di circa il 68.26%.
Il peso degli studenti di un certo istituto è approssimativamente distribuito secondo una legge normale con media \(\mu = 70\) kg e deviazione standard \(\sigma = 5\) kg. Qual è la probabilità che uno studente scelto a caso pesi tra i 60 kg e i 80 kg?
(Prova a svolgere l'esercizio. Clicca sul bottone per vedere la soluzione completa)
Sia \(Y\) la variabile aleatoria che rappresenta il peso degli studenti. Sappiamo che \(Y \sim \mathcal{N}(70, 5^2)\).
Vogliamo calcolare \(P(60 \leq Y \leq 80)\).
Standardizziamo i valori utilizzando la formula \(Z = \frac{Y - \mu}{\sigma}\):
Quindi, la probabilità cercata è equivalente a \(P(-2 \leq Z \leq 2)\), dove \(Z\) è una variabile aleatoria normale standard.
Consultando le tavole della normale standard (tavole di Shepard o tavole Z), che tipicamente forniscono l'area tra 0 e Z:
La funzione \(\Phi(Z)\) rappresenta l'area sotto la curva normale standard da \(-\infty\) a \(Z\). Se le tue tavole forniscono l'area tra 0 e Z (es. \(P(0 \leq Z \leq Z_{tabella})\)), per ottenere \(\Phi(2)\) procediamo così:
Per un valore negativo di Z come -2, possiamo usare la simmetria della distribuzione normale. L'area a sinistra di -2 è uguale all'area a destra di +2, o in termini di \(\Phi\): \(\Phi(-Z) = 1 - \Phi(Z)\). Quindi:
La probabilità che uno studente scelto a caso pesi tra i 60 kg e i 80 kg è di circa il 95.44%.
Il tempo di attesa (in minuti) alla cassa di un supermercato può essere modellato con una distribuzione esponenziale con un tasso medio di \(\lambda = 0.2\) clienti al minuto. Calcolare la probabilità che un cliente debba attendere:
a) Meno di 5 minuti.
b) Più di 10 minuti.
c) Tra 5 e 10 minuti.
(Prova a svolgere l'esercizio. Clicca sul bottone per vedere la soluzione completa)
Sia \(T\) la variabile aleatoria che rappresenta il tempo di attesa. Sappiamo che \(T \sim Exp(0.2)\), quindi la sua PDF è \(f(t) = 0.2 e^{-0.2t}\) per \(t \geq 0\).
La CDF della distribuzione esponenziale è \(F(t) = 1 - e^{-\lambda t}\) per \(t \geq 0\).
La probabilità di attendere meno di 5 minuti è di circa il 63.21%.
La probabilità di attendere più di 10 minuti è di circa il 13.53%.
La probabilità di attendere tra 5 e 10 minuti è di circa il 23.26%.
Il tempo di funzionamento di un dispositivo elettronico, misurato in ore, segue una distribuzione esponenziale con un tasso medio di guasto \(\lambda = 0.5\) guasti all'ora.
a) Determinare la probabilità che il dispositivo funzioni per più di 3 ore senza guasti.
b) Calcolare la probabilità che il dispositivo funzioni tra 2 e 5 ore senza guasti.
c) Calcolare il tempo medio di funzionamento del dispositivo.
(Prova a svolgere l'esercizio. Clicca sul bottone per vedere la soluzione completa)
Sia \(T\) la variabile aleatoria che rappresenta il tempo di funzionamento del dispositivo. Sappiamo che \(T \sim Exp(0.5)\), quindi la sua PDF è \(f(t) = 0.5 e^{-0.5t}\) per \(t \geq 0\).
La CDF della distribuzione esponenziale è \(F(t) = 1 - e^{-\lambda t}\) per \(t \geq 0\).
La probabilità che il dispositivo funzioni per più di 3 ore è di circa il 22.31%.
La probabilità che il dispositivo funzioni tra 2 e 5 ore è di circa il 28.58%.