Informace, média a knižní kultura/Metody výzkumu/Digitální data
Tato stránka je součástí projektu: | |
Příslušnost: skupinová |
Tato stránka není ještě hotová.
Digitální data
editovatonline, přednáší Jakub Sedláček
- budeme se bavit o sběru dat, či webscrapingu
- příště potřebujeme Chrome, protože dostaneme rozšíření do chrome
- budeme se zabývat s cs selektory, kde se dá říct co je nadpis, co je to či ono
- naučíme se data sbírat a jaký programovací jazyk si pak vybereme je na nás
Digitální stopa jako nástroj výzkumu
editovat- vychází se z empirické sociologie
- v protikladu stojí platformy typu facebook, které data sbírají, zpracovávají a dále prodávají, čímž empirickou sociologií překračují
- studium chování vlastností chování lidí
- 3 rovina
- výzkumná
- komerční
- nástroje dohledu - čína, systém sociálního kreditu
- měli bysme studovat sociální stopu
- online věci už se netýkají, jen ajtáků, ale může to studovat kde kdo
- účast na výzkumu není opt in, ale opt out (mmusím nesouhlasit, ale to nejde, protože by ta data nešla užívat)
- facebook potřebujem do práce, školy, takže je to problematického
- nestačí ho jen nepoužívat, protože o nás FB sbírá data i mimo své služby, takže se musí používat různých facebookovské plugginy a další blokovací nástroje
- i lidi, kteří fb nikdy nepoužili mají ve fb databázi svoji záložku a jsou tam o nich nějaké informace
- digitální stopa = otisk veškerých aktivit v databázích sociálních sítí toho co o nás vysledovaly
- i data z fyzického světa, gps, tep srdce z digitálních hodinek apod.
KOMERČNÍ VYUŽITÍ DIGITÁLNÍ STOPY
editovat- díky GDPR se dají některé věci facebooku zakázat
- například využití našeho jména v social action (např. Janu Novákovy se líbí to a to)
- dále se dá zakázat používání údajů, které FB získal od jiných provozovatelů
- například i u dat, která netušíme, že mohou něco sdělovat, tak sdělují
- například sběr časových značek fotek z flikru, může říkat, kde se lidi budou vyskytovat -- a dá se na ně cílit reklama
- data set my personality
- osobní test, který se šířil dávno na webu
- člověk si udělal osobnostní test
- výzkumníci si k tomu sebrali lajky a pakk s tím dát eleborovali
- vyplnilo 6 milionů lidí
- pleaserobme.com
- sebrali se data z twitteru a informovalo se, že uživatel je mimo domov a může být vykradený - snaha upozornit na zneužitelnost dat - umělecký projekt
- CambridgeAnalytica
- kniha MindFuck, film ???
- kombinovala se demografická data, odpovědi v testu osobnosti
- to bylo zpřístupnováno dalším výzkumníkům
- CambridgeAnalytica chtěla data z MyPersonality, ale oni to nechtěli, tak CA zkopírovala jejich metodu
- pouze 300 tisíc lidí ho vyplnilo
- využila chybu fb a sebrala lajky u 87 milionů profilů
- nicméně šlo o legální cestu
- nelegální bylo komerční využívání dat
- následně se na to cíleli politické kampaně pomocí těchto profilů
- je otázka, jestli to vůbec lidi ovlivnilo
- a také, jestli to mohlo mít větší efekt, než to co fb nabízel a nabízí legálně
- např. lajkuju antisemický stránky, a někdo na to mohl zacílit reklamu
ZÁKAZNICKÉ KARTIČKY
editovat- sbírají se nakupovací návyky
- DOTAZ: jestli není vidoe o kartičkách, které by mohla pustit mamce?
- ODPOVĚD: pošlou se 3 vide, která ale nejsou česky
- hodně videí je pro děti, ale ne pro seniory
- snaha dostat zdravotní data od nemocnic v USA
- snahy dostat data o uživatelých z banky
- takže to není jen o dávání dat 3. osobám
SYSTÉMY DOHLEDU
editovat- v Číně nikdo neví jakým způsobem to normálně funguje
- dělá se skore občana, faktory nejsou vždy známé
- placení daní, pokuty, jestli dostatečně cvičíte atd. --otázka je proč ta data nejsou známá, vždyt by to bylo ke prospěchu oboum stranám?
- přináší to zvýhodnění
- nebo znemožnují koupit si letenku, nezvýší plat, neubytujete se v lepším hotelu, nebudou moci vaše děti na vysokou školu
- jsou studie, že by hodinky mohli v reálném čase rozpoznávat emoce
- jakou emoci prožívám při používáním nějakého materiálu
- například Amazoon to vyvíjí z hlasu
- i mimo totalitní režimy
- americký pohraniční úředník si vyjma pasu vyžádá i přístup k účtu na sociálních sítí
- systémy s dobrovolnou účastí
- např. chytrá karanténa - mobilní operátoři a bankovní data - vzpomínková mapa
- realita taková nebyla
- e-rouška pomocí bluetooth jestli jsme se potkali
- totalitní režimy to sbírají at kdo chce, nebo ne?
DIGITÁLNÍ STOPA Z POHLEDU VÝZKUMNÍKA
editovat- soubor všech data a metadat, které zůstávají v digitálních systémech jako otisk ativity uživatelů
- digital trace data, ditigal footprints, social transactional data, big data (nutno specifikovat), big social data
- nové myšlenkové a metodologické směry
- computational social science
- propojení informatiky a sociálních věd
- ditigal humanities, ditigal sociology
- computational social science
BID DATA
editovat- data, která standardní sw není schopen rychle zpracovat
- telefoní operátoři sbíraj část dat, ale je to dost dat, k nějakému zpracování -- jak vymažu afiliaci svého telefonu k nějaké firmě?
- v budoucnu může být univerzání služba, ve které budou všichni --a nebude takovou službu nabízet stát v rámci e-governmentu?
- subjektivní data, mohou zkreslovat, ale digitální data jsou solidnějším obrazem reality v určité nice
- například když mám říct, kde jsem kdy byl, tak mi ta data si pomohou
- nebo s kolika přáteli sem se bavil o fake news, tak se to z big dat vygeneruje
- výhody
- v prostředí sociální sítě, lze používat teréní experiment
- výzkum volebního chování na FB, studie 2012
- zapojilo se 61 milionů subjektů, což je unikát
- archivy digitální stopy vhodné pro přirozené experimenty
- nevýhody
- je to málo prozkoumané
- analýza sekundárních dat, primární má vždy platforma
- problém je, že lajky před rokem 2009 na fb nebyly a v roce 2016 se doplnili další lajky, takže to komplikuje výzkumnou analytiku
- problém jsou fejkové profily, a také to, že některé věci o sobě veřejně neříkám (ale do neveřejného dotazníku bych je řekl)
- takže studie sledující studenty univerzity, sleduje jen ty, kteřý to uvádí na svém fb
- problém jsou fejkové profily, a také to, že některé věci o sobě veřejně neříkám (ale do neveřejného dotazníku bych je řekl)
- nejvíc čechů uvádí Harvard a Vysoká škola života
- je studie na to, že lidé lajkují něco o co mají zájem
- ale je 5 let stará
- a účastnilo se ji 500 studentů
- takže je otázka, jestli je to dobrý odraz reality
- takže je potřeba se nebát popisovat ty nedostatky, které to může mít
- jiné cesta ke studia online fenoménů není
- víc a víc lidí se přesouvá do onlinu, takže řada triviálních věcí na FB může mýt větší dopad na lidi, než dlouhé politické dotazy
NEDOSTUPNOST DIGITÁLNÍ STOPY PRO VÝZKUM
editovat- někdy se s platformou nedá spolupracovat
- dostat data např. od FB je nemožné
- ti co data nemají, nemohou ani kriticky hodnotit metodologii
- občas se daří spolupráce s menšími platformama
- tedy řešením je webscrapping, kde se data seberou z webu
- výzkumník musí mít specializované dovednosti, kde si na to vytvoří nástroje
- takže je to pomalejší, než když ty data poberu
- načítání dat z webu není vždy možné, takže se něco nepovedeme
- pro provozovatele je to nevýhodné, protože mu vytěžujeme server a šaháme mu na data, které nechce aby se mu sahalo
- API base reasearch
- standard po CambridgeAnalytica
- provozovatel platformy tudy zpřístupňuje data
- je to rychlejší než webscrapping
- mypersonality, cambridgeanalytica bylo to samé
- netvizz - analyzovat fb příspěvky jakejkoli věcí, studovat network svých přátel přátel etc
- aplikace
- článek o tom nasbíral 600 citací
- pak to zařízla CA a GDPR, takže ss omezili využítí dat přes API
- takže nezávislej výzkum ostrouhal a ss získali výhodu, že ty data jsou jen u ss
- takže když měl někdo naplánovaný výzkum tak pohořel --takže je potřeba si dávat bacha při plánování výzkumu, pokud chci sbírat data od někoho
- postupně se ale situace mění k lepšímu - fb to začíná ve vztahu k akademické sféře brát vážně
- data, která nabízí data
- šlo z fb sbírat i podrobnosti o skupinách, komentářích, dnes už se nabízí, jen agregované metriky
- nicméně jsou snahy i data zašpinit, aby se ta data nedali využívat
- nicméně fb otevíral, jen díky kritice týkající se voleb kongresem USA
- důkazní materiál v trestněprávním řízení
- fb zaznamenává i to co se do chatu napíše a nikdy neodešle
- propast mezi využitím dat ve výzkumu a tím co drží firmy narůstá
- na uisku se dá pracovat s těmi todaty, zatímco jinde je těžké si to obhájit
- v digitální stopě se dělaj hlavně sociologické výzkumy
- DU: podívat se na zásadní články, týkající se této problematiky
- jsou to starší studie, ale proto, že dříve to šlo zkoumat
- ty studie ukazujou, že hodnocení člověka na základy big data vyšlo lépe, než když je hodnotil člověk v rámci dotazníku
- ČEŠI V ZAJETÍ SOCIÁLNÍCH BUBLIN
- WHO IS SHAPING YOUR AGENDA (šlerka)
- antiimigrační hnutí na českém internetu
- ANALYZING POLITICAL COMMUNICATION WITH DIGITAL TRACE DATA
- hodně o twitteru
- twitter vypouští data v rámci transparency report jednou ročně
- studie mapující štěstí v průběhu třech let
- co vede k velkému štěstí a velkému smutku
- studie mapující štěstí v průběhu třech let
- Sedláček: Digitální stopa: Konec empirické sociologie?
- příště online a chce to určitě ntb, webscrapping