Wikidata/Presentace 2012-06-18

Wikidata editovat

Pod reálnou lípou/Praha, 18. června 2012 editovat

Skin:

Motivace editovat

I když SW MediaWiki stojí na nějakém databázovém stroji, jeho databázové tabulky uživatelsky nezpřístupňuje a ani neumožňuje vytvářet nějaké tabulky "navíc" pro potřebu uživatelů.

Potřeba databázových struktur:

– u všeho toho problémy:

 • s konzistencí dat
 • s udržováním, aktualizací
 • využití mezi různými a různojazyčnými projekty

Obezličky editovat

Extense editovat

Sémantické extense MediaWiki (SMW) editovat

 • Je to celá rodina extensí
 • Primárně určené pro Sémantický web (sémantickou wiki)
 • ontologie tam jsou implementovány prostřednictvím abstraktního datového modelu RDF
  • RDF (Resource Description Framework) = triplety ve tvaru subjekt-predikát-objekt.
 • u MediaWiki:
  • subjekt – implicitně stránka, na které se predikát vyskytuje
  • predikát – vlastnosti kategorie + jmenného prostoru
  • objekt – nějaká hodnota (literál) anebo odkaz na jiný subjekt

V terminologii SMW se namísto označení predikát–objekt používá termínů property–value, což se syntakticky zapisuje jako:

property_name::value

Příklad zápisu stránky s názvem Petr Heřman v SMW; z takových stránek je pak např. možné automaticky generovat rodokmeny:

 [[firstName::Petr]] se narodil v roce [[birthDate::1953]] v [[birthPlace::Praha|Praze]]
 [[father::Stanislav Heřman|Stanislavovi]] a [[mother::Věra Dohnalová|Věře]].
 V roce [[marriageDate::1976]] se pak oženil s [[wife::Alena Veselovská|Alenou]]
 a postupně se jim narodili [[Number::4|čtyři]] syni: [[son::Dalibor Heřman|Dalibor]],
 [[son::Vít Heřman|Vít]], [[son::Slávek Heřman|Slávek]] a [[son::Matěj Heřman|Matěj]].

Semigraficky vyjádřené triády jednotlivých tvrzení:

    Petr_Heřman
      ╻
 firstName ━┻━ Petr

    Petr_Heřman
      ╻
 birthDate ━┻━ 1953

    Petr_Heřman
      ╻
birthPlace ━┻━ Praha

    Petr_Heřman
      ╻
  father ━┻━ Stanislav_Heřman

… etc.

Tím, že objektem může být i odkaz na jiný objekt, mohou vznikat např. zřetězení typu:

    Petr_Heřman
      ╻
  father ━┻━ Stanislav_Heřman
            ╻
        father ━┻━ František_Heřman
                  ╻
               wife ━┻━ Růžena_Dopitová
                       ╻
                  grandson ━┻━ Petr_Heřman

… etc.

Související extense:

 • Semantic Forms – formuláře pro přidávání, editaci a dotazování dat
 • Semantic Drilldown – mění fokus v hierarchii (posun mezi sumárními a detailními daty)
 • Semantic Result Formats – řada formátů pro zadávání inline dotazů

Dohromady to umožňuje např. tisk různých tabulek, seznamů atd., vyhovujících zadaným kritériím.

Wikidata na WV editovat

 • 2009-06-01 proponován projekt Wikidata na Wikiverzitě; plán postupu:
  1. testovací wiki na serveru, kde jsou tyto extense implementovány
  2. vyzkoušení extenzí na serveru s právy roota.
  3. stránka "Wikidata" na en:, de: a získání spolupracovníků a mezinárodní podpory projektu
  4. Žádost o instalaci příslušných extensí na betawikiversity:
  5. Žádost o grant nadace m:Wikimedia chapters/WMF grants na fiskální rok 2010/11

wikidata.referata.com editovat

Bugzilla editovat

Possibly a pilot run on one of the smaller wikis wouldn't be a bad idea

Wikimania 2012 editovat

Projekty na metě editovat

 • 2004–2011 – různé podobné projekty: meta:Wikidata/Archive
 • únor-duben 2012 – vzniká proposice finálního projektu na Metě meta:Wikidata
 • květen 2012: rozjíždí se funkční demo, tak konečně to začíná mít nějaký spád

Wikidata editovat

Úvod editovat

 1. Navrhovaný nový projekt: prvý další Wikimedia projekt po Wikiverzitě v roce 2006; na úrovni Commons
 2. Svobodný: Data na Wikidatech budou šířena pod svobodnou licencí
 3. Komunitní: komunita si bude vytvářet pravidla pro vytváření obsahu na Wikidatech.
 4. Mnohajazyčný: Editace, konzumace, procházení a znovuvyužívání obsahu
 5. Sekundární databáze: Uchovávají se nejen data, ale i jejich zdroje -> verifikovatelnost
 6. Sběr strukturovaných dat: data ve strukturovaném tvaru; využití:
  • dalšími projekty Wikimedia
  • třetími stranami
  • možnost počítačového zpracování (exploatace)
 7. Podpora projektů Wikimedia – prvořadé úkoly:
  • interwiki
  • infoboxy
 8. Široké využití: Wikidata bude moci využívat kdokoliv pro široký okruh nejrůznějších služeb.

Demo editovat

(2012-05-18): Dělají to hlavně Němci, takže:

Datový model editovat

 1. je to o struktuře dat, nikoli o syntaxi, ani API, ani o vnitřní reprezentaci nebo implementaci – ale to všechno z tohoto modelu posléze vychází
 2. popis pomocí UML = Unified Modeling Language
  • pro serializaci vymyšlený WON = Wikidata Object Notation
 3. neřeší se, jaká konkrétní data budou WD obsahovat – to bude záležitostí WD komunity
 4. je to nutné pochopit pro představu, co WD mohou a nemohou obsahovat (a řešit) a jak bude probíhat interakce mezi WD a dalšími projekty
 5. východiskem je zřejmě současný stav struktury dat na WP a dalších projektech – primárním záměrem je jejich podpora, avšak předpokládá se otevřenost širšímu využití
 6. je to kompromis mezi univerzalitou a praktickou použitelností
 7. je to aktuální věc, která se v této chvíli diskutuje a připomínkuje

Snak editovat

– základní jednotka informace = elementární tvrzení. Jeho subjektem je nějaký element, což může být entita (Item, Property nebo Datový typ) anebo Statement.

 1. PropertyValueSnak (Element Property Value) ≙ triáda v RDF modelu: subject–property–value
 2. PropertyNoValueSnak (Element Property) – třeba někdo nemá žádné dítě
 3. PropertySomeValueSnak (Element Property) – ∃ nějaké jeho dítě (nebo děti)
 4. PropertyIntervalSnak (Element Property Interval) – predikát platí ∀ values ∈ Interval – např. V. Havel byl prezidentem 2. února 1993 – 2. února 2003
 5. PropertySomeIntervalSnak (Element Property) – ∃ nějaký interval ≠ ∅
 6. InstanceOfSnak(Element Item) – jedna entita je instancí jiné entity (ve smyslu třídy) – např. Hamlet ∈ tragédie
 7. PropertySubclassOfSnak (Element Item) – jedna entita je podtřídou jiné entity – např. třída tragédie ⊂ divadelní hry

Value editovat

hodnota – to, co může být na "pravé straně přiřazení" (tj. elementu přiřazujeme nějakou vlastnost)

Hierarchie různých tříd hodnot:

meta:File:Wikidata model Elements UML.png

 • Value
  • DataValue (nemá IRI)
  • Element
   • Entity (mají IRI)
    • Datatype
    • Item
    • Property
   • Statement (nemá IRI)

Identifikace editovat

 • Entity – mají IRI = Internationalized Resource Identifier = zobecnění URI Uniform Resource Identifier
 • Datové hodnoty (DataValues) – jsou identifikovány svým obsahem (např. velikost × jednotka, datum, interval, string atd.)
 • Tvrzení (Statements) – jsou identifikovány částí svého obsahu – např. někdo změní počet obyvatel Prahy ⇒ jedná se o jiné tvrzení

I když nějaké hodnoty nemají IRI, mohou interně anebo kvůli exportu nějak pojmenovány.

Item editovat

položka = subjekt

 • prakticky cokoli – může o tom (alespoň teoreticky) např. ∃ stránka na WP.
 • jednoznačný identifikátor: např. "wd1234567890"
 • je to entita

ItemDescription editovat

popis položky, popis item – složitější struktura:

 • label – hlavní návěští v různých jazycích
 • description – krátký popis toho, co se míní tím labelem
 • TitleRecords – např. odkazy na stránky WP v různých jazycích
 • seznam tvrzení (Statements)

Statement editovat

tvrzení. má jeden nebo více Snaků:

 • Main Snak (hlavní snak) – povinný – jeho subjektem je Item
 • Auxiliary Snaks (vzdálené snaky) – nepovinné – jejich subjektem je hlavní snak, který je jimi rozváděn či upřesňován

– soubor všech těchto snaků se nazývá claimtvrzení, názor, prohlášení, ...?

 • StatementRank – volitelné kriterium pro výběr či třídění Statements – výpisu, přístupová práva atd.:
  1. Default – nejdůležitější, nejaktuálnější
  2. Normal – věříme, že jsou korektní, ale pro základní zobrazení jsou příliš ukecané
  3. Other – mohou být i neaktuální, obsahovat chyby, kontroverze aj. – pro archiv, vědu, diskuse atd.
 • ReferenceRecords (seznam referencí) – seznam zdrojů – mohou to být jiné Items ve WP, externí zdroje aj.

PropertyDescription editovat

 • o tom, co která vlastnost (property) vlastně vyjadřuje
 • jaké datové typy mohou být jejími argumenty, z jakých mohou být tříd
 • je to analogické ItemDescription (společnou nadtřídou je EntityDescription)
 • stále se diskutuje o tom, co všechno by to mělo obsahovat

Datové typy editovat

 • čísla (teoreticky nekonečná přesnost)
 • čísla s jednotkou
 • datum + čas
 • webové zdroje a další IRI
 • zeměpisné souřadnice
 • zeměpisné tvary (nedohledatelné)
 • WD items (rovněž)
 • Nepřeložené stringy
 • Jednojazyčné texty
 • Mnohajazyčné texty