Kazalo:
Opredelitev - Kaj pomeni zaznavanje zunaj?
Zunanje odkrivanje je postopek odkrivanja in naknadne izključitve odstranjevalcev iz danega niza podatkov.
Zunanji del je lahko opredeljen kot podatek ali opazovanje, ki drastično odstopa od dane norme ali povprečja nabora podatkov. Zunanjost lahko nastane preprosto po naključju, lahko pa tudi nakazuje napako pri merjenju ali da ima določen nabor podatkov porazdeljenost z velikim repom.
Tukaj je preprost scenarij pri zunanjem odkrivanju, postopek merjenja dosledno ustvari odčitke med 1 in 10, v nekaterih redkih primerih pa dobimo meritve večje od 20.
Te redke meritve, ki presegajo normo, imenujemo zunajplastniki, saj "ležijo zunaj" običajne krivulje porazdelitve.
Tehopedija razlaga Outlier Detection
V resnici ni standardizirane in toge matematične metode za določitev zunanjega dela, ker se ta res razlikuje glede na niz ali množico podatkov, zato njegova določitev in odkrivanje postaneta na koncu subjektivna. Z nenehnim vzorčenjem v določenem podatkovnem polju se lahko določijo značilnosti zunanjega telesa, da se olajša odkrivanje.
Obstajajo vzorčne metode za zaznavanje odpuščenih ljudi in domnevajo, da so vsi podatki vzeti iz običajne porazdelitve in bodo kot odpuščene opredelili opažanja ali točke, za katere se zdi, da malo verjetno temeljijo na srednjem ali standardnem odklonu. Obstaja več načinov za odkrivanje zunanjih snovi:
- Grubbov test za odstranjevalce - temelji na predpostavki, da so podatki v normalni distribuciji in odstrani en zunanji del v času, ko se test ponavlja, dokler ni mogoče najti več ostankov.
- Dixonov test Q - Ta metoda tudi temelji na normalnosti nabora podatkov in preizkuša slabe podatke. Ugotovljeno je bilo, da bi bilo to treba uporabljati zmerno in nikoli več kot enkrat v zbirki podatkov.
- Chauvenetovo merilo - Uporablja se za analizo, če je zunanji del lažljiv ali je še vedno znotraj meja in se šteje kot del nabora. Vzameta se povprečni in standardni odklon in izračunana je verjetnost, da se pojavi zunanji del. Rezultati bodo določili, ali jo je treba vključiti ali ne.
- Piercesovo merilo - meja napake je določena za vrsto opazovanj, mimo katerih bodo vsa opažanja zavržena, saj že vključujejo tako veliko napako.
