Statistiche di apprendimento, dalla presentazione alle misure di distribuzione dei dati

La statistica è una scienza matematica che studia la raccolta, l'elaborazione, l'analisi e la presentazione dei dati. Le statistiche sono ampiamente utilizzate nelle compagnie di assicurazione, una delle quali è quella di determinare l'importo del premio in una polizza assicurativa. Ogni assicurato è tenuto a pagare un contributo chiamato premio. Il premio pagato è conforme alla copertura assicurativa che ottiene.

Qui, la compagnia di assicurazioni utilizza le statistiche in modo che l'importo del premio sia conforme all'importo della copertura che può essere fornita al titolare dell'assicurazione. In questo modo, entrambe le parti ne traggono vantaggio.

Come accennato in precedenza, le statistiche non solo raccolgono ed elaborano, ma presentano anche dati. Le statistiche utilizzano anche diverse misure di distribuzione dei dati nell'elaborazione dei dati. Oggi discuteremo i tipi di presentazione e la dimensione della diffusione dei dati nelle statistiche.

Tipi di presentazione dei dati

I tipi di presentazione dei dati nelle statistiche includono tabelle di distribuzione della frequenza, istogrammi, poligoni e ogive.

La prima forma di presentazione dei dati consiste nell'utilizzare una tabella di distribuzione della frequenza. Come suggerisce il nome, utilizziamo le tabelle per visualizzare il tipo e la quantità di dati ottenuti. La tabella di distribuzione della frequenza ha anche diversi tipi, vale a dire la tabella di distribuzione della frequenza per dati singoli e dati di gruppo.

(Leggi anche: Due dati di misurazione nelle statistiche)

Una singola tabella di distribuzione della frequenza dei dati viene utilizzata per presentare piccole quantità di dati, almeno meno di 30 dati. Un esempio di presentazione dei dati utilizzando una singola tabella di distribuzione della frequenza dei dati è il seguente.

I dati seguenti sono i punteggi dei test di 30 studenti. Pubblica in un'unica tabella di distribuzione della frequenza dei dati!

4 8 7 9 10 3 4 6 7 6 5 7 7 8 9 6 6 8 7 9 4 5 6 7 8 10 4 5 6 7

Se prestiamo attenzione, il punteggio del test più basso ottenuto è 3, mentre il punteggio più alto è 10. Quindi da questi punteggi, conta quanti studenti lo ottengono. Per un voto di 3, ad esempio, solo 1 studente. Per il grado 4, ci sono 4 studenti e così via. Questa figura viene quindi presentata in una tabella come la seguente.

turbine a terra del parco eolico offshore

Il prossimo tipo di tabella di distribuzione della frequenza è la tabella di distribuzione della frequenza dei dati di gruppo. Questa tabella viene utilizzata per presentare molti dati, che sono oltre 30 dati. Diamo un'occhiata all'esempio qui sotto.

Quanto segue è l'altezza delle piante di peperoncino (in millimetri) in una piantagione di peperoncino. Presenta i dati in una tabella di distribuzione dei dati di gruppo!

123131120128126124125122

121126124123122 120125126

123123134125125126128135

120 126 124133 126127123 126

122125123132124132128124

A differenza dei dati singoli, qui dobbiamo calcolare il numero di classi e le lunghezze delle classi che verranno visualizzate nella tabella. Utilizzando i dati sopra, ecco i calcoli.

Molti dati (n) = 40

Altezza massima (x max ) = 135

Altezza minima (x min ) = 120

Intervallo (J) = x max  - x min = 135-120 = 15

Numero di classi (k) = 1 + 3,3logn = 1 + 3,3 log40 = 6,2868… ≈ k = 6

Lunghezza classe (c) = J / k = 15/6 = 2,5 ≈ c = 3

Da questi risultati, possiamo visualizzare la tabella di distribuzione dei dati di gruppo come segue.

turbine a terra del parco eolico offshore

Successivamente, discuteremo altri tipi di presentazione dei dati raggruppati, in particolare sotto forma di istogrammi, poligoni di frequenza e ogive. Dai un'occhiata alla tabella delle frequenze qui sotto, che contiene informazioni sul peso per 80 membri di club sportivi.

turbine a terra del parco eolico offshore

Per presentare i dati utilizzando un grafico a istogramma, costruiamo prima un grafico cartesiano. L'asse x mostra i limiti superiore e inferiore di ogni classe, mentre l'asse y mostra la frequenza.

statistica4 (1)

A differenza di un istogramma, un grafico poligonale di frequenza prende il valore medio dell'intervallo di classe e lo visualizza con linee in base alla frequenza.

statistica5 (1)

Infine, presentando i dati utilizzando una curva di frequenza cumulativa positiva o negativa. Innanzitutto, contrassegna i valori di frequenza cumulativi di ciascuna classe di intervallo sull'asse y. Quindi, contrassegnare le coordinate dei punti in base alle coppie del limite superiore della classe di intervallo e della frequenza cumulativa. Collega i punti in una curva morbida.

Dimensione diffusione dati

Nelle statistiche, ci sono due tipi di misurazione dei dati, vale a dire la dimensione della concentrazione dei dati e la dimensione della distribuzione dei dati. Qual è la spiegazione e la differenza?

La dimensione del data center è un valore che rappresenta la posizione dei dati. Nella misura centrata sui dati, ci sono media, modalità e mediana.

La media o la media è il quoziente tra la somma di tutti i dati osservati con un numero elevato di dati. Possiamo formulare la media come segue.

Media = (Somma di tutti i dati) / (Molti dati)

Per capire meglio, lavoriamo sul seguente problema di esempio. Il numero di ore in una settimana necessarie a 5 persone per attività sociali nel loro ambiente è 10, 7, 13, 20 e 15 ore. Determina il numero medio di ore settimanali da dedicare alle attività sociali!

Sulla base dei problemi sopra, possiamo inserire i numeri nella formula come segue.

Media = (10 + 7 + 13 + 20 + 15) / 5 = 65/5 = 13

Ciò significa che il numero medio di ore che trascorrono in attività sociali è di 13 ore.

Oltre alla media o alla media, ci sono anche modalità. La modalità è il valore che appare più frequentemente nei dati. Diamo un'occhiata a un esempio del seguente problema.

Di seguito sono riportati i dati sul peso (in chilogrammi) di alcuni studenti della scuola media 7. Determina la modalità dei dati!

32, 35, 33, 32, 34, 31, 35, 35, 31, 34, 35, 3

Prima di tutto, dobbiamo contare il numero di volte in cui ogni valore appare nei dati. Sulla base di questi dati, otteniamo 31 (x3), 32 (x2), 33 (x1), 34 (x2) e 35 (x4). Poiché 35 si verifica più spesso, la modalità dei dati sopra è 35.

L'ultimo tipo di misura di centraggio è la mediana. La mediana divide i dati in due parti uguali, quindi la mediana è il valore medio dei dati ordinati.

Per determinare la mediana, dobbiamo prima ordinare tutti i dati in ordine crescente o decrescente. Secondo, definisci molti dati e simbolizzali come "n". Se n è dispari, la formula che usiamo è la seguente.

Mediana = numero di dati - ((n + 1) / 2)

Nel frattempo, se n è pari, usiamo la formula seguente.

Mediana = (dati con (n / 2) + dati con (n / 2 + 1)) / 2

La seconda misurazione dei dati nelle statistiche è una misura della diffusione dei dati. La dimensione della diffusione dei dati è un valore che indica la distanza dei dati dal data center. La dimensione della distribuzione dei dati è composta da intervallo, quartile e intervallo interquartile.

L'intervallo è la differenza tra il valore di dati più grande e il valore di dati più piccolo. Possiamo ottenere la copertura sottraendo i dati più grandi dai dati più piccoli. Ad esempio, se in una classe, lo studente più alto ha un'altezza di 160 cm e lo studente più basso ha un'altezza di 143 cm, avremo una portata di 23 cm.

Nel frattempo, il quartile è il raggruppamento dei dati statistici in quattro parti uguali. La dimensione del quartile è divisa in 3, ovvero il quartile inferiore (Q 1 ), il quartile medio (Q 2 o mediana) e il quartile superiore (Q 3 ). Per determinare ogni quartile, sono necessari diversi passaggi.

Per prima cosa, ordina i dati in ordine crescente o decrescente. In secondo luogo, determina il valore medio o mediano dei dati. In terzo luogo, determinare il quartile inferiore (Q 1 ), che è il valore medio del gruppo di dati al di sotto della mediana (Q 2) . Infine, determina il quartile superiore (Q 3 ), che è il valore medio del set di dati sopra la mediana (Q 2) .

L'ultimo tipo di misura della distribuzione dei dati è l'intervallo interquartile. L'intervallo interquartile è la differenza tra i quartili superiore e inferiore. La formula è la seguente.

Q d = Q 3 - Q 1