Területdiagramok típusai és a folyamgráf
A következőkben az idősoros elemzésekben gyakran használt területdiagramok (areachart) típusaival fogunk foglalkozni. (A szövegben megjelenő angol kifejezések részint a {ggplot2}
R csomag (library) terminológiájára, részint pedig az R statisztikáéra utalnak.) Ezek az x tengelyen az idő dimenziót ábrázolják, az y tengelyen pedig egy numerikus értékeket (values) jelenítenek meg, egy vagy több kategóriális változó (group) vonatkozásában. Az egyszerű területdiagram tulajdonképpen a pont- és a vonaldiagram kiterjesztett változata, amennyiben színekkel tölti ki (fill) az x tengely és a vonal közötti területet.
Több kategóriális változó esetén előfordulhat, hogy a területek átfedik egymást, és ez által rejtve maradnak az ábrázolt adatok egyes részei. Ezt a területek átláthatóságának, transzparenciájának (alpha) növelésével, vagy a területek egymásra halmozásával (vö. “stacked charts”) kezelhetjük. Létezik egy harmadik technika is, amikor egy mátrixot alakítunk ki különálló ábrákból (faceting). A halmozott területdiagramnak - miként az oszlop és sávdiagramoknak is - létezik egy speciális változata, a százalékosan halmozott területdiagram.
A következő ábrák - melyek az Eurostat adatai alapján készültek - a fent leírt típusokat szemléltetik1. Végezetül pedig kitérünk a folyamgráfra, ami tulajdonképpen a területdiagramok egy viszonylag újabb, speciális típusa.
Egyszerű területdiagram (Simple areachart)
Halmozott területdiagram (Stacked areachart)
Arányosan (100 százalékig) halmozott területdiagram
Folyamgráf (streamgraph)
A folyamgráf egy olyan halmozott területgráf, amely egy matematikai algoritmus szerint a központi, vízszintes tengely körül el van tolva, így folyamszerű, hullámzó alakot eredményez.
Elsőként ilyen adatvizualizációt a New York Times közölt 2008-ban2. (A módszertani részleteket lásd Byron és Wattenberg (2008)3.)
A folyamgráf egyrészt azért érdekes, mert szokatlan, ugyanakkor intuitív, mert az adatok trendjéről, volumenéről tömören informál. Úgymond egy “nagy képet” közöl. De amit nyerünk a réven, elveszthetjük a vámon: nem lehet az eredetileg megfigyelt skálán számszerűsítve értelmezni az adatokat, legalábbis a nullánál kisebb értékeket. Tehát a vertikális skála negatív értékeit ne próbáljuk a szokásos módon interpretálni. Fókuszáljunk a hullámok hosszára (időtartamára), a színekre (kategóriákra) és a hullámok legmagasabb pontjaira, az áradások tetőzésére és elapadására.
A folyamgráf akkor lehet igazán hasznos, ha sok kategóriát (pld. filmeket, mint az említett New York Times) vizsgálunk, hosszú időszakon keresztül.
Interaktív folyamgráf
Online publikációkhoz használhatunk interaktív megoldásokat. Ilyen például a Highchart.js, avagy a Flourish. Ez utóbbira példa az alábbi diagram.
(A posztban látható ábrák készítéséhez használt R program letölthető innen, a poszt forrása (R-markdown) tömorített (zip) formátumban pedig innen.)
-
Az Eurostat migr_asyappctza jelű adatbázisát használjuk, amely a menedékkérők számának alakulásáról tartalmaz idősoros adatokat. Az adatbázist előzőleg öt országra szűkítettük le: Németországra (DE), Görögországra (EL), Spanyolországra (ES), Magyarországra (HU) és Olaszországra (IT). ↩
-
Byron, Lee; Wattenberg, Martin (November–December 2008). “Stacked Graphs – Geometry & Aesthetics”. IEEE Transactions on Visualization and Computer Graphics. 14 (6). IEEE Computer Society: 1245–1252. doi:10.1109/TVCG.2008.166. ISSN 1077-2626. PMID 18988970. S2CID 15281429. ↩