Cum se determină tipul de distribuție a probabilităților pentru date

Cuprins:

Anonim

După ce ați colectat date despre sistemul sau procesul dvs., următorul pas este să determinați ce tip de distribuție de probabilități ai. Tipurile de distribuții de probabilitate sunt: ​​uniforme discrete, Bernoulli, binomiale, binomiale negative, Poisson, geometrice, uniforme continue, normale (curba clopotului), distribuții exponențiale, gama și beta. Reducerea chiar și a câtorva din lista de posibilități face ca determinarea celei mai apropiate valori R să fie mult mai rapidă.

Elementele de care aveți nevoie

  • Grafică software

  • Mijloacele de calcul al valorii squared R (cea mai bună analiză)

Construiți datele pentru o reprezentare vizuală a tipului de date.

Unul din primii pași pentru a determina ce distribuție de date are - și, prin urmare, tipul de ecuație pe care să-l utilizați pentru a modela datele - este de a exclude ceea ce nu poate fi. • Dacă există virgule în setul de date, nu poate fi o distribuție uniformă discretă. • Dacă datele au mai mult de un vârf, nu este Poisson sau binomial. • Dacă are o singură curbă, nu are vârfuri secundare și are o panta lentă pe fiecare parte, poate fi Poisson sau distribuție gamma. Dar nu poate fi o distribuție uniformă discretă. • Dacă datele sunt distribuite în mod uniform și nu există o înclinare spre o parte, este sigur să excludem o distribuție gamma sau Weibull. • Dacă funcția are o distribuție uniformă sau un vârf în mijlocul rezultatelor grafice, nu este o distribuție geometrică sau o distribuție exponențială. • Dacă apariția unui factor variază cu o variabilă de mediu, probabil că nu este o distribuție Poisson.

După ce tipul de distribuție a probabilității a fost redus, efectuați o analiză R pătrat pentru fiecare tip posibil de distribuție a probabilității. Cel mai probabil cu cel mai înalt nivel R este probabil corect.

Eliminați un punct de date excedentar. Apoi recalculați R pătrat. Dacă același tip de distribuție a probabilității apare ca cea mai apropiată potrivire, atunci există o mare încredere că aceasta este distribuția corectă a probabilității de utilizat pentru setul de date.

sfaturi

  • În cazul în care datele prezintă vârfuri multiple pe o scară largă, este posibil ca două procese separate să se desfășoare sau produsul care face obiectul eșantionului să fie amestecat. Recoltați datele și apoi reanalizați.

Avertizare

Validați ecuațiile generate de seturile de date ulterioare pentru a confirma că acestea sunt încă corecte pentru setul de date. Este posibil ca factorii de mediu și derivarea proceselor să fi făcut incorecte ecuațiile și modelele actuale.