Vannýtt gögn – glötuð tækifæri? (In Icelandic)

Kári S Friðriksson, M.Sc.
Oct 5, 2018
5 min read

Mikilvægi þess að geyma gögn með „snyrtilegum“ hætti

Mikill áhugi er á meðal fyrirtækja, stofnana og annarra rekstrareininga að nýta betur þau gögn sem þau búa yfir. Bylting í meðhöndlun gagna býður uppá ótal nýja möguleika við að öðlast betri innsýn og spágetu tengdum rekstri og stefnumótun. Mörg þeirra standa þó frammi fyrir ákveðnum hindrunum við að nýta gögnin eins og best mætti. Ein algeng hindrun er að gögn eru geymd í flóknum Excel-skjölum eða öðrum gagnagrunnum oft í framsetningu sem torveldar aðgengi og frekari greiningar.

Excel-skjöl í óreiðu

Algengt er að fyrirtæki geymi mikið af gögnum í Excel-skjölum, annað hvort eingöngu eða til viðbótar við formlegri gagnagrunna. Slík skjöl hafa marga kosti. Auðvelt er að slá inn upplýsingar, halda utan um fáeinar skráningar og gera einfalda útreikninga. Þau eiga það hins vegar til að blása út og verða erfið viðureignar, ef þannig má að orði komast. Þegar byrjað er á nýju Excel skjali er það sjaldan hannað frá upphafi með það í huga að auðvelt sé að vinna meira með það eða draga lærdóm af þeim gögnum sem þar eru geymd. Fyrir því geta legið ýmsar ástæður. Framsetningar sem hentar best við að skima eða skrá inn gögn geta verið frábrugnar þeim framsetningum sem henta best við að vinna úr gögnunum. Sé sambærilegum gögnum safnað af ólíku starfsfólki eða í misjöfnum tilgangi er hætt við að erfitt verði að sameina og samþætta þau síðar meir. Í hvert skipti sem það á svo að fara nýta gögnin er hætt við því að skjölin fari í enn frekari flækju.

Stöðluð framsetning – hrein gögn

Ef einhverjar líkur eru á því að gögn verði nýtt með öðrum hætti í framtíðinni en upphaflega var lagt upp með, er best að geyma allar Excel töflur með stöðluðum hætti. Hér er mælt með svokallaðri snyrti-framsetningu (e. tidy data). Það er framsetning sem uppfyllir eftirfarandi skilyrði:

Í hverjum dálk sé ein og aðeins ein breyta sem mælir einn ákveðinn eiginleika (t.d. hæð, upphæð, hitastig). Nafn breytunnar skal vera í efstu röð töflunar.
Hver röð skal innihalda eina athugun (einstakling, fyrirtæki, vöru).
Þannig tilheyrir hver reitur (hvert gildi) töflunnar einni breytu og einni athugun.
(Hver tafla inniheldur aðeins eina tegund af breytu. Sé stuðst við fleiri en eina töflu þurfa töflurnar sérstakar einkennisbreytur sem auðveldar sameiningu þeirra síðar.)

Síðusta skilyrðið er sett inní sviga, því ekki verður farið í ítarlegar útskýringar á því í hverju þau felast, en oft má ná talsverðu hagræði án þess að það sé uppfyllt. Hér verður látið nægja að minnast á að hagræði og sveigjanleiki getur verið fólgin í því að geyma gögn í minni, einsleitari töflum ef það er gert með þeim hætti að hægt er að sameina þær með lítilli fyrirhöfn eftir þörfum.

Þótt að fyrstu þrjú skilyrðin hljómi einföld getur verið erfitt að setja fram almenna skilgreiningu á því hvað sé breyta og hvað sé athugun. Sem betur fer á fólk hins vegar yfirleitt auðvelt með að átta sig á þessum mun þegar um ákveðin gögn er að ræða.

Töflur sem uppfylla fyrstu þrjú skilyrðin eru oft kölluð löng (e. long) en þau sem uppfylla öll fjögur eru kölluð hrein eða snyrtileg. Þessi hugtök eru þó stundum einnig notuð á víxl. Formlegri gagnagrunnar sem byggja á SQL forritunarmálinu fylgja oft þessum skilyrðum.

Af hverju skiptir þetta máli?

Fljótt á litið virðist þessi framsetning ekki endilega öðrum fremri og erfiðara getur verið að skima yfir gögnin en þegar þau eru sett fram með öðrum hætti. Þegar kafað er dýpra kemur hins vegar í ljós að mikið auðveldara er að vinna gögn ef þau eru snyrtileg, en ella. Helstu ástæður þess eru eftirfarandi:

Auðvelt er að búa til nýja breytu sem er reiknuð út frá öðrum breytum.
Auðvelt er að sameina tvær eða fleiri töflur.
Auðvelt er að greina gögnin eftir hópum (t.d. mánuðum, einstaklingum, atvinnugreinum o.s.frv.)
Auðvelt er að sía gögnin eftir hentugleika.
Auðvelt er að raða gögnunum eftir hentugleika (upphafleg röðun skiptir engu máli).
Auðvelt er að breyta yfir í víða framsetningu eftir því sem að hentar að hverju sinni (Það getur verið mun erfiðara að fara í hina áttina).
Auðvelt að nota tól á borð við pivot-töflur til að skoða mismunandi samantektir á gögnum hratt og auðveldlega (Hver sem er getur lært að skoða gögn í pivot-töflum á 15 mínútum).
Auðvelt er að búa til einföld mælaborð í Excel.
Auðvelt að flytja yfir í öflugri tól (t.d R eða SQL) og gera öflugri greiningar.
Auðveldara að setja gögnin fram myndrænt.
Auðveldara að nota vélarnám (e. machine learning) og önnur gervigreindartól til þess að gera öflugar greiningar eða spár.

Með öðrum orðum er mun auðveldara að öðlast innsýn og svara spurningum séu gögnin sett fram með snyrtilegu móti. Því hefur verið fleygt fram að um 80% af tíma fari í að hreinsa og móta gögn. Séu gögn þegar sett fram með ofangreindum hætti er hægt nýta megnið af tímanum við sjálfar rannsóknirnar.

Við munum nú skýra þetta nánar með dæmum.

Dæmi – Flugfarþegar

Eftirfarandi töflur hafa verið settar fram til að sýna á muninum á langri og víðri framsetningu. Gögnin eru fengin af vef Hagstofu Íslands.

Dæmi um langa framsetningu

Töflur geta aðeins verið „snyrtilegar“ með einum hætti en ósnyrtilegar á margan máta. Hér að neðan er dæmi um eina slíka framsetningu.

Víð framsetning gagnanna

Seinni framsetningin er dæmi um algeng frávik frá snyrtigögnum.

Heitin á dálkunum er í raun breyta (tími) og er jafnvel hægt að skilgreina sem tvær breytur (ár, mánuður).
Sumar upplýsingar koma fram á mörgum stöðum. Til að mynda sýnir röðin „útlendingar“ samtölu allra sem ekki eru Íslendingar og og röðin „Farþegar alls“ er summa allra raða ,fyrir utan röðina „útlendingar“, fyrir hvern mánuð.
Öll tölugildi í töflunni tilheyra einni og sömu breytunni.

Ekki má gleyma því að seinni framsetningin er á margan hátt þægilegri ef að verið er að skima gögnin. Hins vegar er auðvelt að fara úr fyrri framsetningunni yfir í þá seinni, t.d. með því að notast við pivot töflur. Þá býður fyrri framsetningin uppá mikinn sveigjanleika hvað varðar útreikninga og aðrar framsetningar.

Hvað er hægt að gera með gögn í óreyðu?

Excel er með ýmis tól sem hægt er að nota til að umbreyta eða sameina töflur. Hér má nefna föll á borð við lookup, transpose og index. En þetta eru föll sem hafa valdið mörgum martröð og er auðvelt að gera mistök – sérstaklega ef um er að ræða eitthvað meira en hin einföldustu umbreytanir.

Hins vegar er oft hægt að umbreyta gögnum án mikillar fyrirhafnar með því að færa gögnin í önnur forrit sem bjóða uppá áreiðanlegri og þægilegri tól til slíkra umbreytinga. Eftir að gögnunum hefur verið umbreytt yfir í snyrtilega framsetningu má aftur færa gögnin yfir í Excel.

Starf gagnavísindamannsins og þarfir viðskiptavina

Þeir sem vinna mikið með gögn eru oft kallaðir gagnavísindamenn. Að vissu leyti er um að ræða nýyrði fyrir störf sem lengi hafa verið til og kallast mismunandi nöfnum en hafa tekið stakkaskiptum vegna framþróunnar á sviði gagnavísinda og gervigreindar. Starf gagnavísindamannsins felst í því að ná sem mestu upplýsingum úr gögnum til þess að auka skilning eða auka skilvirkni í ákvörðunartöku. Í sumum tilfellum má jafnvel gera ákvarðanatöku sjálfdrifna.

Algengur ferill í starfi gagnavísindafólks

Reynsla okkar hjá Intellecon sýnir að þarfir fyrirtækja, stofnana og annarra rekstrareininga geta verið mismunandi og stundum er aðeins þörf á hluta af ferlinu. Á meðan vinna við stærri og flóknari verkefni og skýrslur geta tekið einhver ár hefur okkur oft tekist að gera viðskiptavinum mikið gagn á aðeins örfáum klukkustundum eða, eftir tilfellum, fáeinum dögum. Stundu má auka afkastagetu talsvert með því einu að endurskipuleggja Excel-skjöl, svo auðvelt sé að vinna með þau áfram. Í öðrum tilfellum getur verið verðmætt að setja fram svokallaða pivot-töflur eða einföld mælaborð í Excel sem leyfir viðskiptavinum að skoða gögn með mun skilvirkari hætti en ella.