Wikidata/Presentace 2012-06-18

Wikidata

editovat

Skin:

I když SW MediaWiki stojí na nějakém databázovém stroji, jeho databázové tabulky uživatelsky nezpřístupňuje a ani neumožňuje vytvářet nějaké tabulky "navíc" pro potřebu uživatelů.

Potřeba databázových struktur:

– u všeho toho problémy:

  • s konzistencí dat
  • s udržováním, aktualizací
  • využití mezi různými a různojazyčnými projekty
  • Je to celá rodina extensí
  • Primárně určené pro Sémantický web (sémantickou wiki)
  • ontologie tam jsou implementovány prostřednictvím abstraktního datového modelu RDF
    • RDF (Resource Description Framework) = triplety ve tvaru subjekt-predikát-objekt.
  • u MediaWiki:
    • subjekt – implicitně stránka, na které se predikát vyskytuje
    • predikát – vlastnosti kategorie + jmenného prostoru
    • objekt – nějaká hodnota (literál) anebo odkaz na jiný subjekt

V terminologii SMW se namísto označení predikát–objekt používá termínů property–value, což se syntakticky zapisuje jako:

property_name::value

Příklad zápisu stránky s názvem Petr Heřman v SMW; z takových stránek je pak např. možné automaticky generovat rodokmeny:

 [[firstName::Petr]] se narodil v roce [[birthDate::1953]] v [[birthPlace::Praha|Praze]]
 [[father::Stanislav Heřman|Stanislavovi]] a [[mother::Věra Dohnalová|Věře]].
 V roce [[marriageDate::1976]] se pak oženil s [[wife::Alena Veselovská|Alenou]]
 a postupně se jim narodili [[Number::4|čtyři]] syni: [[son::Dalibor Heřman|Dalibor]],
 [[son::Vít Heřman|Vít]], [[son::Slávek Heřman|Slávek]] a [[son::Matěj Heřman|Matěj]].

Semigraficky vyjádřené triády jednotlivých tvrzení:

        Petr_Heřman
            ╻
 firstName ━┻━ Petr

        Petr_Heřman
            ╻
 birthDate ━┻━ 1953

        Petr_Heřman
            ╻
birthPlace ━┻━ Praha

        Petr_Heřman
            ╻
    father ━┻━ Stanislav_Heřman

… etc.

Tím, že objektem může být i odkaz na jiný objekt, mohou vznikat např. zřetězení typu:

        Petr_Heřman
            ╻
    father ━┻━ Stanislav_Heřman
                        ╻
                father ━┻━ František_Heřman
                                    ╻
                              wife ━┻━ Růžena_Dopitová
                                             ╻
                                   grandson ━┻━ Petr_Heřman

… etc.

Související extense:

  • Semantic Forms – formuláře pro přidávání, editaci a dotazování dat
  • Semantic Drilldown – mění fokus v hierarchii (posun mezi sumárními a detailními daty)
  • Semantic Result Formats – řada formátů pro zadávání inline dotazů

Dohromady to umožňuje např. tisk různých tabulek, seznamů atd., vyhovujících zadaným kritériím.

Wikidata na WV

editovat
  • 2009-06-01 proponován projekt Wikidata na Wikiverzitě; plán postupu:
    1. testovací wiki na serveru, kde jsou tyto extense implementovány
    2. vyzkoušení extenzí na serveru s právy roota.
    3. stránka "Wikidata" na en:, de: a získání spolupracovníků a mezinárodní podpory projektu
    4. Žádost o instalaci příslušných extensí na betawikiversity:
    5. Žádost o grant nadace m:Wikimedia chapters/WMF grants na fiskální rok 2010/11

wikidata.referata.com

editovat
Possibly a pilot run on one of the smaller wikis wouldn't be a bad idea

Wikimania 2012

editovat

Projekty na metě

editovat
  • 2004–2011 – různé podobné projekty: meta:Wikidata/Archive
  • únor-duben 2012 – vzniká proposice finálního projektu na Metě meta:Wikidata
  • květen 2012: rozjíždí se funkční demo, tak konečně to začíná mít nějaký spád
  1. Navrhovaný nový projekt: prvý další Wikimedia projekt po Wikiverzitě v roce 2006; na úrovni Commons
  2. Svobodný: Data na Wikidatech budou šířena pod svobodnou licencí
  3. Komunitní: komunita si bude vytvářet pravidla pro vytváření obsahu na Wikidatech.
  4. Mnohajazyčný: Editace, konzumace, procházení a znovuvyužívání obsahu
  5. Sekundární databáze: Uchovávají se nejen data, ale i jejich zdroje -> verifikovatelnost
  6. Sběr strukturovaných dat: data ve strukturovaném tvaru; využití:
    • dalšími projekty Wikimedia
    • třetími stranami
    • možnost počítačového zpracování (exploatace)
  7. Podpora projektů Wikimedia – prvořadé úkoly:
    • interwiki
    • infoboxy
  8. Široké využití: Wikidata bude moci využívat kdokoliv pro široký okruh nejrůznějších služeb.

(2012-05-18): Dělají to hlavně Němci, takže:

  1. je to o struktuře dat, nikoli o syntaxi, ani API, ani o vnitřní reprezentaci nebo implementaci – ale to všechno z tohoto modelu posléze vychází
  2. popis pomocí UML = Unified Modeling Language
    • pro serializaci vymyšlený WON = Wikidata Object Notation
  3. neřeší se, jaká konkrétní data budou WD obsahovat – to bude záležitostí WD komunity
  4. je to nutné pochopit pro představu, co WD mohou a nemohou obsahovat (a řešit) a jak bude probíhat interakce mezi WD a dalšími projekty
  5. východiskem je zřejmě současný stav struktury dat na WP a dalších projektech – primárním záměrem je jejich podpora, avšak předpokládá se otevřenost širšímu využití
  6. je to kompromis mezi univerzalitou a praktickou použitelností
  7. je to aktuální věc, která se v této chvíli diskutuje a připomínkuje

– základní jednotka informace = elementární tvrzení. Jeho subjektem je nějaký element, což může být entita (Item, Property nebo Datový typ) anebo Statement.

  1. PropertyValueSnak (Element Property Value) ≙ triáda v RDF modelu: subject–property–value
  2. PropertyNoValueSnak (Element Property) – třeba někdo nemá žádné dítě
  3. PropertySomeValueSnak (Element Property) – ∃ nějaké jeho dítě (nebo děti)
  4. PropertyIntervalSnak (Element Property Interval) – predikát platí ∀ values ∈ Interval – např. V. Havel byl prezidentem 2. února 1993 – 2. února 2003
  5. PropertySomeIntervalSnak (Element Property) – ∃ nějaký interval ≠ ∅
  6. InstanceOfSnak(Element Item) – jedna entita je instancí jiné entity (ve smyslu třídy) – např. Hamlet ∈ tragédie
  7. PropertySubclassOfSnak (Element Item) – jedna entita je podtřídou jiné entity – např. třída tragédie ⊂ divadelní hry

hodnota – to, co může být na "pravé straně přiřazení" (tj. elementu přiřazujeme nějakou vlastnost)

Hierarchie různých tříd hodnot:

meta:File:Wikidata model Elements UML.png

  • Value
    • DataValue (nemá IRI)
    • Element
      • Entity (mají IRI)
        • Datatype
        • Item
        • Property
      • Statement (nemá IRI)

Identifikace

editovat
  • Entity – mají IRI = Internationalized Resource Identifier = zobecnění URI Uniform Resource Identifier
  • Datové hodnoty (DataValues) – jsou identifikovány svým obsahem (např. velikost × jednotka, datum, interval, string atd.)
  • Tvrzení (Statements) – jsou identifikovány částí svého obsahu – např. někdo změní počet obyvatel Prahy ⇒ jedná se o jiné tvrzení

I když nějaké hodnoty nemají IRI, mohou interně anebo kvůli exportu nějak pojmenovány.

položka = subjekt

  • prakticky cokoli – může o tom (alespoň teoreticky) např. ∃ stránka na WP.
  • jednoznačný identifikátor: např. "wd1234567890"
  • je to entita

ItemDescription

editovat

popis položky, popis item – složitější struktura:

  • label – hlavní návěští v různých jazycích
  • description – krátký popis toho, co se míní tím labelem
  • TitleRecords – např. odkazy na stránky WP v různých jazycích
  • seznam tvrzení (Statements)

Statement

editovat

tvrzení. má jeden nebo více Snaků:

  • Main Snak (hlavní snak) – povinný – jeho subjektem je Item
  • Auxiliary Snaks (vzdálené snaky) – nepovinné – jejich subjektem je hlavní snak, který je jimi rozváděn či upřesňován

– soubor všech těchto snaků se nazývá claimtvrzení, názor, prohlášení, ...?

  • StatementRank – volitelné kriterium pro výběr či třídění Statements – výpisu, přístupová práva atd.:
    1. Default – nejdůležitější, nejaktuálnější
    2. Normal – věříme, že jsou korektní, ale pro základní zobrazení jsou příliš ukecané
    3. Other – mohou být i neaktuální, obsahovat chyby, kontroverze aj. – pro archiv, vědu, diskuse atd.
  • ReferenceRecords (seznam referencí) – seznam zdrojů – mohou to být jiné Items ve WP, externí zdroje aj.

PropertyDescription

editovat
  • o tom, co která vlastnost (property) vlastně vyjadřuje
  • jaké datové typy mohou být jejími argumenty, z jakých mohou být tříd
  • je to analogické ItemDescription (společnou nadtřídou je EntityDescription)
  • stále se diskutuje o tom, co všechno by to mělo obsahovat

Datové typy

editovat
  • čísla (teoreticky nekonečná přesnost)
  • čísla s jednotkou
  • datum + čas
  • webové zdroje a další IRI
  • zeměpisné souřadnice
  • zeměpisné tvary (nedohledatelné)
  • WD items (rovněž)
  • Nepřeložené stringy
  • Jednojazyčné texty
  • Mnohajazyčné texty