Tuesday, October 5, 2010

Statistikaameti uus andmete kasutamise kord: teadlase poolne pilk

Oktoobrikuust kehtestab Statistikaamet (SA) uue mikroandmete kasutamise korra. Lühidalt: kui varem oli teatud eesmärkidel, nagu poliitika analüüs või teadustöö, võimalik anonüümseid andmeid kasutada oma (töö)arvutis, siis uue korra kohaselt jäävad andmed ainult SA serveritele. Edaspidi tuleb andmete kasutamiseks taotleda luba kindlal eesmärgil ning kindlatele inimestele. Andmeid saab kasutada kas läbi päringute või otse serverile logides. SA vihjab, et tulevikus on kavas ka uurimistööga seotud kulud küsida kasutajate käest. Allpool kommenteerin neid mõtteid veidi kasutaja seisukohast.

  • Piirangud teevad analüüsi kulukamaks. Loa taotlemine kindlale projektile on aeglane (Taani kogemus ütleb et selleks kulub 1-2 kuud) ning kasutustasu on võimalik maksta ainult niisuguste projektide jaoks millel on juba raha taga. Uued ideed on sageli hägusad ja riskantsed ning sageli ilma finantskatteta. Praktikas tähendab see, et ligipääs on olemas ainult piisavalt võimekatel töögruppidel, ning et uusi mõtteid katsetatakse olemasolevate projektide all.

  • Teiseks, võõras arvuti ei ole mugav. Kõige paindlikum ja kiirem on andmeid analüüsida oma arvutis programmidega mida sa oskad kasutada. (just sellepärast näeme kontoris iga töötaja laual oma arvutit, mitte ühte ühtset masinat kõigile kontorinurgas). Moodsad meetodid ja töövahendid on sageli väga tihedalt seotud interneti ligipääsuga ning võimalusega oma programme pidevalt uuendada ning ümber seadistada. SA serverite kasutamisel oleks niisugused võimalused väga piiratud, ning puuduvad veebipõhiste päringute korral hoopis.

  • Ühisel arvutil on alati probleemid ressursside (eriti mälu) jagamisega. Selles mõttes oleks parim lahendus cloud, millel iga kasutaja saaks oma virtuaalse serveri.

  • Üks probleemne valdkond on programmide silumine. Tehnilistel põhjustel on selleks tarvis üksikuid andmete kirjeid näha (neid kus programm ei tööta). Teiseks on vaja kiiret tagasisidet. Kumbagi võimalust praegu pakutud LISSY kasutusliides ei võimalda.

  • Seega muutuvad kriitiliseks testandmed, mille kasutamise võimalusele SA vihjab. Kui nad on piisavalt kvaliteetsed (näiteks on säilitatud leibkondade ja paneeli identifikaatorite struktuur), siis võib komplekssete ülesannete lahendamine olla jätkuvalt võimalik. Vastasel juhul mitte.

  • Tõenäoliselt oleks mõistlik läbi mõelda eri tüüpi andmetele vajalik turvalisuse tase. Vähemtundlik informatsioon võiks olla endisel viisil kättesaadav.

Kokkuvõttes, andmete kasutamise korra piiramine on teadlaste jaoks väga suur tagasilöök. Taani andmebaaside kasutamise tundjana hindan, et töökiirus langeb 2-10x, ning komplekssete probleemide lahendamine muutub võimatuks (aga see sõltub testandmete kvaliteedist).

Piir isikuandmete turvalisuse ning kasutamise lihtsuse vahel on poliitiline küsimus. Hästikaitstud andmebaasides võib julgesti hoida väga tundlikku infot. Samas, raskestikasutatava info väärtus on ühiskonna jaoks väga väike. Andmeid, mida üldse kasutada ei saa, ei olegi mõtet koguda.