Wikidata/Presentace 2012-06-18
Wikidata
editovatSkin:
- chick (úprava skinu pro přednášku – viz User:Kychot/chick.css)
- monobook
I když SW MediaWiki stojí na nějakém databázovém stroji, jeho databázové tabulky uživatelsky nezpřístupňuje a ani neumožňuje vytvářet nějaké tabulky "navíc" pro potřebu uživatelů.
Potřeba databázových struktur:
- Wikiverzita: Každá vědecká práce stojí na nějakých strukturovaných datech, která je nutno analyzovat
- Stránky srozumitelné nejen lidem, ale (do jisté míry) i strojům
- Formalizovaný zápis dat
- Wikipedie a další sesterské projekty:
– u všeho toho problémy:
- s konzistencí dat
- s udržováním, aktualizací
- využití mezi různými a různojazyčnými projekty
- CSV – pro lidi dost nečitelné
- Tabulky – potřebují boty
- Boti – nesystémové řešení
- Podstránky – nejde v hlavním NS na WP aj.
- Je to celá rodina extensí
- Primárně určené pro Sémantický web (sémantickou wiki)
- ontologie tam jsou implementovány prostřednictvím abstraktního datového modelu RDF
- RDF (Resource Description Framework) = triplety ve tvaru subjekt-predikát-objekt.
- u MediaWiki:
- subjekt – implicitně stránka, na které se predikát vyskytuje
- predikát – vlastnosti kategorie + jmenného prostoru
- objekt – nějaká hodnota (literál) anebo odkaz na jiný subjekt
V terminologii SMW se namísto označení predikát–objekt používá termínů property–value, což se syntakticky zapisuje jako:
property_name::value
Příklad zápisu stránky s názvem Petr Heřman v SMW; z takových stránek je pak např. možné automaticky generovat rodokmeny:
[[firstName::Petr]] se narodil v roce [[birthDate::1953]] v [[birthPlace::Praha|Praze]] [[father::Stanislav Heřman|Stanislavovi]] a [[mother::Věra Dohnalová|Věře]]. V roce [[marriageDate::1976]] se pak oženil s [[wife::Alena Veselovská|Alenou]] a postupně se jim narodili [[Number::4|čtyři]] syni: [[son::Dalibor Heřman|Dalibor]], [[son::Vít Heřman|Vít]], [[son::Slávek Heřman|Slávek]] a [[son::Matěj Heřman|Matěj]].
Semigraficky vyjádřené triády jednotlivých tvrzení:
Petr_Heřman ╻ firstName ━┻━ Petr Petr_Heřman ╻ birthDate ━┻━ 1953 Petr_Heřman ╻ birthPlace ━┻━ Praha Petr_Heřman ╻ father ━┻━ Stanislav_Heřman
… etc.
Tím, že objektem může být i odkaz na jiný objekt, mohou vznikat např. zřetězení typu:
Petr_Heřman ╻ father ━┻━ Stanislav_Heřman ╻ father ━┻━ František_Heřman ╻ wife ━┻━ Růžena_Dopitová ╻ grandson ━┻━ Petr_Heřman
… etc.
Související extense:
- Semantic Forms – formuláře pro přidávání, editaci a dotazování dat
- Semantic Drilldown – mění fokus v hierarchii (posun mezi sumárními a detailními daty)
- Semantic Result Formats – řada formátů pro zadávání inline dotazů
Dohromady to umožňuje např. tisk různých tabulek, seznamů atd., vyhovujících zadaným kritériím.
Wikidata na WV
editovat- 2009-06-01 proponován projekt Wikidata na Wikiverzitě; plán postupu:
- testovací wiki na serveru, kde jsou tyto extense implementovány
- vyzkoušení extenzí na serveru s právy roota.
- stránka "Wikidata" na en:, de: a získání spolupracovníků a mezinárodní podpory projektu
- Žádost o instalaci příslušných extensí na betawikiversity:
- Žádost o grant nadace m:Wikimedia chapters/WMF grants na fiskální rok 2010/11
wikidata.referata.com
editovat- 2009-06-01 – založení projektu wikidata na serveru referata (Yaron Koren, developer sémantických extenzí)
- example/books – příklad databáze knih
- Digital recorders – příklad
- Danza del Cinquecento – další projekt, tentokrát s cílem systematicky vytvořit databázi italských renesančních tanců
- projekty semantika a rodokmeny byly omylem vymazány
Possibly a pilot run on one of the smaller wikis wouldn't be a bad idea
- 2010-10-04 Žádost o implementaci na WV
Wikimania 2012
editovat- Wikidata as a platform
- Wikidata implementation and integration
- How Wikidata fits into the global web of data
Projekty na metě
editovat- 2004–2011 – různé podobné projekty: meta:Wikidata/Archive
- únor-duben 2012 – vzniká proposice finálního projektu na Metě meta:Wikidata
- květen 2012: rozjíždí se funkční demo, tak konečně to začíná mít nějaký spád
- Navrhovaný nový projekt: prvý další Wikimedia projekt po Wikiverzitě v roce 2006; na úrovni Commons
- Svobodný: Data na Wikidatech budou šířena pod svobodnou licencí
- Komunitní: komunita si bude vytvářet pravidla pro vytváření obsahu na Wikidatech.
- Mnohajazyčný: Editace, konzumace, procházení a znovuvyužívání obsahu
- Sekundární databáze: Uchovávají se nejen data, ale i jejich zdroje -> verifikovatelnost
- Sběr strukturovaných dat: data ve strukturovaném tvaru; využití:
- dalšími projekty Wikimedia
- třetími stranami
- možnost počítačového zpracování (exploatace)
- Podpora projektů Wikimedia – prvořadé úkoly:
- interwiki
- infoboxy
- Široké využití: Wikidata bude moci využívat kdokoliv pro široký okruh nejrůznějších služeb.
Demo
editovat(2012-05-18): Dělají to hlavně Němci, takže:
- http://wikidata-test.wikimedia.de/
- http://wikidata-test-repo.wikimedia.de/ – Repository
- http://wikidata-test-client.wikimedia.de/ – Client
- je to o struktuře dat, nikoli o syntaxi, ani API, ani o vnitřní reprezentaci nebo implementaci – ale to všechno z tohoto modelu posléze vychází
- popis pomocí UML = Unified Modeling Language
- pro serializaci vymyšlený WON = Wikidata Object Notation
- neřeší se, jaká konkrétní data budou WD obsahovat – to bude záležitostí WD komunity
- je to nutné pochopit pro představu, co WD mohou a nemohou obsahovat (a řešit) a jak bude probíhat interakce mezi WD a dalšími projekty
- východiskem je zřejmě současný stav struktury dat na WP a dalších projektech – primárním záměrem je jejich podpora, avšak předpokládá se otevřenost širšímu využití
- je to kompromis mezi univerzalitou a praktickou použitelností
- je to aktuální věc, která se v této chvíli diskutuje a připomínkuje
Snak
editovat– základní jednotka informace = elementární tvrzení. Jeho subjektem je nějaký element, což může být entita (Item, Property nebo Datový typ) anebo Statement.
- PropertyValueSnak (Element Property Value) ≙ triáda v RDF modelu: subject–property–value
- PropertyNoValueSnak (Element Property) – třeba někdo nemá žádné dítě
- PropertySomeValueSnak (Element Property) – ∃ nějaké jeho dítě (nebo děti)
- PropertyIntervalSnak (Element Property Interval) – predikát platí ∀ values ∈ Interval – např. V. Havel byl prezidentem 2. února 1993 – 2. února 2003
- PropertySomeIntervalSnak (Element Property) – ∃ nějaký interval ≠ ∅
- InstanceOfSnak(Element Item) – jedna entita je instancí jiné entity (ve smyslu třídy) – např. Hamlet ∈ tragédie
- PropertySubclassOfSnak (Element Item) – jedna entita je podtřídou jiné entity – např. třída tragédie ⊂ divadelní hry
Value
editovat– hodnota – to, co může být na "pravé straně přiřazení" (tj. elementu přiřazujeme nějakou vlastnost)
Hierarchie různých tříd hodnot:
meta:File:Wikidata model Elements UML.png
- Value
- DataValue (nemá IRI)
- Element
- Entity (mají IRI)
- Datatype
- Item
- Property
- Statement (nemá IRI)
- Entity (mají IRI)
Identifikace
editovat- Entity – mají IRI = Internationalized Resource Identifier = zobecnění URI Uniform Resource Identifier
- Datové hodnoty (DataValues) – jsou identifikovány svým obsahem (např. velikost × jednotka, datum, interval, string atd.)
- Tvrzení (Statements) – jsou identifikovány částí svého obsahu – např. někdo změní počet obyvatel Prahy ⇒ jedná se o jiné tvrzení
I když nějaké hodnoty nemají IRI, mohou interně anebo kvůli exportu nějak pojmenovány.
Item
editovatpoložka = subjekt
- prakticky cokoli – může o tom (alespoň teoreticky) např. ∃ stránka na WP.
- jednoznačný identifikátor: např. "wd1234567890"
- je to entita
ItemDescription
editovatpopis položky, popis item – složitější struktura:
- label – hlavní návěští v různých jazycích
- description – krátký popis toho, co se míní tím labelem
- TitleRecords – např. odkazy na stránky WP v různých jazycích
- seznam tvrzení (Statements)
Statement
editovat– tvrzení. má jeden nebo více Snaků:
- Main Snak (hlavní snak) – povinný – jeho subjektem je Item
- Auxiliary Snaks (vzdálené snaky) – nepovinné – jejich subjektem je hlavní snak, který je jimi rozváděn či upřesňován
– soubor všech těchto snaků se nazývá claim – tvrzení, názor, prohlášení, ...?
- StatementRank – volitelné kriterium pro výběr či třídění Statements – výpisu, přístupová práva atd.:
- Default – nejdůležitější, nejaktuálnější
- Normal – věříme, že jsou korektní, ale pro základní zobrazení jsou příliš ukecané
- Other – mohou být i neaktuální, obsahovat chyby, kontroverze aj. – pro archiv, vědu, diskuse atd.
- ReferenceRecords (seznam referencí) – seznam zdrojů – mohou to být jiné Items ve WP, externí zdroje aj.
PropertyDescription
editovat- o tom, co která vlastnost (property) vlastně vyjadřuje
- jaké datové typy mohou být jejími argumenty, z jakých mohou být tříd
- je to analogické ItemDescription (společnou nadtřídou je EntityDescription)
- stále se diskutuje o tom, co všechno by to mělo obsahovat
Datové typy
editovat- čísla (teoreticky nekonečná přesnost)
- čísla s jednotkou
- datum + čas
- webové zdroje a další IRI
- zeměpisné souřadnice
- zeměpisné tvary (nedohledatelné)
- WD items (rovněž)
- Nepřeložené stringy
- Jednojazyčné texty
- Mnohajazyčné texty