Tuesday, July 26, 2016
Wednesday, June 24, 2015
Where Do People Meet? Urban Segregation in Cellular Data
Immigrants and ethnic minorities often live more or less separately from the majority population. This fact is sometimes touted as a major problem that hampers social integration. But does the place where we live actually matter? Anecdotal evidence suggests that we do not interact much with our neighbors. Why should we worry then who they are?
To shed more light on this issue we analyzed the spatial behavior of Estonian speaking and Russian speaking population in Tallinn, Estonia. It is an interesting city as it is almost 50-50 split between the corresponding ethnic groups. We used cellphone data for the analysis. Mobile operators always record which antenna talks to our phones, and such data essentially form a spatial track of our activities where one can see our approximate location and time. It is relatively straightforward to analyze the tracks and deduce who were close to each other, and when and where it happened. Looking at the repeated patterns of calls we can also guess where people live and work. In this way we can see who can potentially meet each other, and where such meetings might occur.
So, are Estonian speakers close to Russian speakers in Tallinn? Well, it depends on when. We find that when at home and at work, both groups are substantially segregated. However, this is much less true when people are elsewhere and busy with other tasks, such as shopping, but also during various leisure-time activities. Even more, such free-time segregation is not closely related to the environment in the place of residence and place of work (see the figures). Even those who live in almost completely Estonian or Russian neighborhoods experience a rather mixed free-time environment.


What do these results tell us? There are several interesting conclusions.
- residential segregation may be less of a concern than often suggested. We spend much of our active time elsewhere, and much of the time we are at home we sleep.
- As a typical European city, Tallinn has a dense urban core where a substantial part of these meeting occur. It suggests that a dense vibrant downtown is favorable for bringing together people of different background. The results for Los Angeles may well be different.
- Finally, we do not know what is behind these meetings. Most of these are probably related to just being close to each other in a crowded city. But so are our relations with our neighbors: most of them we would not even recognize on street. There is need for more analysis on what are the "meaningful places" in terms of where do we actually socialize with people.
The full article is available at http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0126093
Tuesday, October 5, 2010
Statistikaameti uus andmete kasutamise kord: teadlase poolne pilk
Oktoobrikuust kehtestab Statistikaamet (SA) uue mikroandmete kasutamise korra. Lühidalt: kui varem oli teatud eesmärkidel, nagu poliitika analüüs või teadustöö, võimalik anonüümseid andmeid kasutada oma (töö)arvutis, siis uue korra kohaselt jäävad andmed ainult SA serveritele. Edaspidi tuleb andmete kasutamiseks taotleda luba kindlal eesmärgil ning kindlatele inimestele. Andmeid saab kasutada kas läbi päringute või otse serverile logides. SA vihjab, et tulevikus on kavas ka uurimistööga seotud kulud küsida kasutajate käest. Allpool kommenteerin neid mõtteid veidi kasutaja seisukohast.
Piirangud teevad analüüsi kulukamaks. Loa taotlemine kindlale projektile on aeglane (Taani kogemus ütleb et selleks kulub 1-2 kuud) ning kasutustasu on võimalik maksta ainult niisuguste projektide jaoks millel on juba raha taga. Uued ideed on sageli hägusad ja riskantsed ning sageli ilma finantskatteta. Praktikas tähendab see, et ligipääs on olemas ainult piisavalt võimekatel töögruppidel, ning et uusi mõtteid katsetatakse olemasolevate projektide all.
Teiseks, võõras arvuti ei ole mugav. Kõige paindlikum ja kiirem on andmeid analüüsida oma arvutis programmidega mida sa oskad kasutada. (just sellepärast näeme kontoris iga töötaja laual oma arvutit, mitte ühte ühtset masinat kõigile kontorinurgas). Moodsad meetodid ja töövahendid on sageli väga tihedalt seotud interneti ligipääsuga ning võimalusega oma programme pidevalt uuendada ning ümber seadistada. SA serverite kasutamisel oleks niisugused võimalused väga piiratud, ning puuduvad veebipõhiste päringute korral hoopis.
Ühisel arvutil on alati probleemid ressursside (eriti mälu) jagamisega. Selles mõttes oleks parim lahendus
cloud , millel iga kasutaja saaks oma virtuaalse serveri.Üks probleemne valdkond on programmide silumine. Tehnilistel põhjustel on selleks tarvis üksikuid andmete kirjeid näha (neid kus programm ei tööta). Teiseks on vaja kiiret tagasisidet. Kumbagi võimalust praegu pakutud LISSY kasutusliides ei võimalda.
Seega muutuvad kriitiliseks testandmed, mille kasutamise võimalusele SA vihjab. Kui nad on piisavalt kvaliteetsed (näiteks on säilitatud leibkondade ja paneeli identifikaatorite struktuur), siis võib komplekssete ülesannete lahendamine olla jätkuvalt võimalik. Vastasel juhul mitte.
Tõenäoliselt oleks mõistlik läbi mõelda eri tüüpi andmetele vajalik turvalisuse tase. Vähemtundlik informatsioon võiks olla endisel viisil kättesaadav.
Kokkuvõttes, andmete kasutamise korra piiramine on teadlaste jaoks väga suur tagasilöök. Taani andmebaaside kasutamise tundjana hindan, et töökiirus langeb 2-10x, ning komplekssete probleemide lahendamine muutub võimatuks (aga see sõltub testandmete kvaliteedist).
Piir isikuandmete turvalisuse ning kasutamise lihtsuse vahel on poliitiline küsimus. Hästikaitstud andmebaasides võib julgesti hoida väga tundlikku infot. Samas, raskestikasutatava info väärtus on ühiskonna jaoks väga väike. Andmeid, mida üldse kasutada ei saa, ei olegi mõtet koguda.