Box & Whisker – Visuaalisen analytiikan työkalut, osa 3
Tässä blogisarjassa tulemme esittelemään hyödyllisiä työkaluja visuaaliseen analytiikkaan. Käytännössä esittelemme siis erilaisia tapoja visualisoida tietoa ja pyrimme tuomaan esille konkreettisia käyttötapauksia.
Kolmannen osan aiheena on box & whisker kaavio. Tällä lapsella vasta monta nimeä onkin ja jos sopii kaikille, niin käytän tuota englannin kielistä nimeä koska eniten käytetyt suomennukset lienevät ”laatikko ja janakaavio”, “ruutu- ja janakaavio” tai “laatikko- ja viiksikaavio”. Varsinkin tuo viiksiversio on sen verran hulvaton, ettei se sovi yhteen näinkin vakavan asian kanssa.
Box & whisker kaavio (tai box plot) on yksinkertainen visualisointi kuvaamaan muuttujan (mittarin) arvojen jakaumaa. Visualisointi on erittäin käytetty esimerkiksi analyytikoiden, lääkärien ja tutkijoiden parissa, mutta erittäin hyödyllinen myös yritysten tietojen analysointiin (IoT anyone?).
Box & whiskeristä on olemassa monta eri versiota ja valinta määräytyy hyvin pitkälti analysoitavan tiedon / tarpeen perusteella. Käsittelen tässä kirjoituksessa mielestäni sitä yleisintä ja yksinkertaisinta mallia joka perustuu mediaaneihin, siitä muodostettuihin neljänneksiin sekä janaan jonka päissä on pienin ja suurin arvo/havainto. Janassa voidaan käyttää myös useita muita arvoja, yleisimmät taitaa olla:
- Pienin ja suurin arvo
- 1.5 kertaa IQR (InterQuartile Range)
- Persentiilit (esim. 9% ja 91%, tai 2% ja 98%)
- Keskihajonnasta johdetut arvot
Yllä olevista kannattaa valita sellainen, millä tapauksesta riippuen saat parhaiten tunnistettua olennaisimmat outlierit (poikkeavat havainnot). Kaavio on myös hyvä työkalu muuttujien jakaumien muodon tarkasteluun. Esimerkiksi tehdään regressioanalyysi ja halutaan ensin pikaisesti vilkaista, että ovatko selittäjät likimain normaalisti-jakautuneita, vai onko joukossa vinoutuneita jakaumia. Jos jakauma on, vaikka vasemmalle vino, niin kaaviossa toinen viiksi on lyhyt ja toinen pitkä. Jos kuvio kutakuinkin symmetrinen, niin muuttuja on normaalijakautunut.
Mutta lähdetäänpä liikkeelle ihan perusteista, eli kuten nimikin kertoo, kyseessä on laatikko- ja janakaavion yhdistelmä. Suurimmassa roolissa on laatikko joka kattaa neljännespisteiden välisen osan eli suomeksi laatikon sisälle sijoittuu 50 % arvoista ja laatikkoon merkitään keskelle yleensä mediaani. Laatikon takana oleva jana ulottuu pienimpään ja suurimpaan arvoon.
Yllä näet yksinkertaisen box & whisker kaavion:
1. Y-akseli, riippuen kummin päin laatikon haluat tässä voi olla mittari tai dimensio, jos haluat että laatikko on ”pystyssä” kuten kuvassa, Y-akselille valitaan mittari (määrällinen ja jatkuva muuttuja)
2. X-akseli, riippuen kummin päin laatikon haluat tässä voi olla mittari tai dimensio, jos haluat että laatikko on ”pystyssä” kuten kuvassa, X-akselille valitaan dimensio (määrittelevä tekijä)
3. Tämä on se laatikko, jonka alarajana on 25. persentiili ja ylärajana 75. persentiili. Eli laatikon sisään jää 50% kaikista arvoista/havainnoista
4. Tämä viiva on mediaani kaikista arvoista/havainnoista
5. Viiksi / jana, eli alapäässä pieni arvo ja yläpäässä suurin arvo (jana siis kuvaa kaikkien arvojen vaihteluvälin), eli janan yläpään ja laatikon yläreunan välillä suurimmat 25% arvoista ja alapään ja laatikon alareunan välillä pienimmät 25% arvoista.
Mihinkäs tätä nyt sitten oikeasti voi käyttää ja tekeekö sillä oikeasti mitään? Oikeat vastaukset ovat: Yllättävän moneen asiaan ja tekee. Tämä visualisointi on erityisen näppärä siihen, että pystyt katsomaan nopeasti mille välille arvot sijoittuvat (mikä on pienin ja suurin arvo), mille välille suurin osa arvoista menee (paljon on sattumia laatikon sisällä tai sen lähellä), mikä on mediaani kaikista arvoista (viiva laatikon keskellä) ja miten tieto on jakautunut. Eli käytännössä näet poikkeamat erittäin helposti muiden arvojen joukosta. Aukesiko?
Box & whisker –kaavion vahvuudet on helppo osoittaa vertaamalla muihin visualisointitapoihin, alla histogrammi ja box & whisker samalla datalla, kumpi voisi mielestäsi olla selkeämpi kyseisen tiedon esittämiseen?
Alemmasta kuvasta on aika helppo nähdä ainakin seuraavat asiat:
- jakaumien sijainnit eroavat
- yksi on selkeästi oikealle vino
- yhdessä on muita isompi vaihteluväli
Histogrammin kohdalla tämä tieto taas on enemmän tai vähemmän piilossa ja kuvaaja on aika hankalasti luettava. Jos dimension luokkien määrä kasvaa, niin ylempi kuva menee vielä enemmän mössöksi, mutta Box & whisker säilyy edelleen informatiivisena.
Mennään konkreettiseen esimerkkiin. Jatkan siitä mihin viimeksi blogissani jäin yrityksen katteen metsästyksessä, eli minulla oli perattuna 96 yhteensä tappiolla myytyä tuotetta. Haluan selvittää voisiko tappiot johtua annetuista alennuksista?
Rajaan mukaan vain kyseisiin 96 tuotteeseen liittyvät myyntitapahtumat ja muodostan box & whisker –kaavion:
- Y-akselilla annetut alennukset (prosenttia, eli 0,2 on 20%)
- X-akselilla tuoteryhmät
- Jokainen piste (= arvo / havainto) on yksittäinen myyntitapahtuma
- Janan asetan 1.5 x IQR mukaisesti
Kaavio siis kuvaa myyntitapahtumilla annettujen alennusten hajontaa/jakautumista per tuoteryhmä. Mites tätä nyt sitten luetaan? Pystyn kaaviosta näkemään heti seuraavat asiat:
- Kaikkien tuoteryhmien annetuista alennuksista n. 75% on suurin piirtein samalla seinällä (alennusprosentti 0-7%) alennuksia annetaan aika tasaisesti riippumatta tuoteryhmästä ja eroja näkyy lähinnä maksimiarvoissa ja suurimpia alennuksia annetaan tuoteryhmissä Furniture ja Office Suppplies
- Eri tuoteryhmien myynnistä annettujen alennusten mediaanit ovat myös hyvin lähellä toisiaan eri tuoteryhmien kesken
- Alennusten vaihteluväli on aika suuri, esimerkiksi Furniture -tuoteryhmän osalta 0% – 25%
Vaikuttaisi että Furniture –tuoteryhmässä on useampia poikkeamia isojen alennusten muodossa?
Vaihtamalla eri dimensioita kuvaajaan, voitaisiin tarkastella tietoa ja sen hajontaa eri näkökulmista (tuote, asiakas, asiakassegmentti, myyntikanava, tehdas, myyjä, prosessi, tuotantolaite, jne) ja vaihtamalla mittaria voidaan tarkastella eri tietoja (alennukset, myynti, kate, testitulos, määrä, tutkimustulos, prosessin tulos, jne).
Edellinen ei oikeastaan vienyt agendaani hirveesti eteenpäin, joten jatkan tarkastelemalla samaa settiä alituoteryhmittäin:
Näyttäisi siltä, että Tables -alituoteryhmä erottuu joukosta? Alennukset vaikuttaisi olevan suuremmat kuin muissa alituoteryhmissä. Voisiko suurimmat tappiot selittyä siis kyseisen alituoteryhmän suurilla alennuksilla?
Otan lähempään tarkasteluun kyseisen alituoteryhmän tuotteet ja näyttää tosiaan siltä, että yli puolet eniten tappiota tuottavista tuotteista löytyy kyseisestä ryhmästä! Karsimalla yli 6%:n alennukset pois kaupat ovat lievästi plussalla! Hienoa, varmistin vielä, ettei myyntitapahtumilla ole riippuvuutta muiden tuotteiden kauppaan ja ehdotan johdolle alennusprosentteihin 6%:n kattoa kyseisen alituoteryhmän osalta. Myyntijohtaja lupasi viedä asian eteenpäin.
Box & whisker –kaavio on erittäin mielenkiintoinen visualisointi ja monessa tapauksessa erinomainen tapa löytää poikkeamat ja tutustua tarkemmin datan syvimpään olemukseen. Suurin osa tavallisista BI-työkaluista tukee visualisoinnin tekoa tavalla tai toisella. Kannattaa muistaa, ettei kaavio ole parhaimmillaan osana dashboardeja missään nimessä, joten enemmänkin osa ad-hoc visuaalista analytiikkaa, suosittelen kokeilemaan!