Analýzy dat v Encyklopedii
Nástroj umožňuje najít všechny uzly, které jsou dosažitelné z vybraného uzlu cestou maximálně zvolené délky. Vypíše všechny uzly do tabulky.
Je třeba zvolit uzel (vybrat sekci a vložit ID požadovaného uzlu, které je doporučeno získat procházením encyklopedie v jiném okně; po jeho zadání je pro kontrolu zobrazen název vybraného uzlu). Dále se požaduje zadání maximální hloubky, do níž má být síť prozkoumána (v praxi nemá příliš smyslu zadávat vysoká čísla, neboť výsledky jsou pak už značně nepřehledné) a nabízí dvě možnosti nastavení svého chování.
Je to za prvé určení, jak zacházet s opakovaně nalezenými uzly; při zatrhnutí "nezobrazovat" bude každý uzel zobrazen jen jednou a vznikne tak prostý přehled všech uzlů nacházejících se v síti v zadané vzdálenosti (hloubce) od zvoleného uzlu; při zaškrtnutí nerozvíjet bude každý znovunalezený uzel sice zobrazen, ale síť nebude přes něj dále prozkoumávána; konečně možnost "ponechat" zobrazí všechny uzly i opakovaně bez omezení, a vede tak k zobrazení kompletní struktury sítě kolem zvoleného do zadané hloubky (při větších hloubkách velmi rozsáhlé výsledky).
Za druhé pak možnost respektování dat existence vazeb a uzlů; při zvolení "nerespektovat" je síť procházena po všech vazbách, bez ohledu na jakákoliv data; při zadání "respektovat" se v celé síti procházejí jen ty vazby (příp. uzly), které existují v době existence zvoleného uzlu; konečně "respektovat, ale ignorovat vazby/uzly bez zadaného data" umožňuje ignorovat vazby/uzly, které nemají žádné datum, neboť taková data se považují za neznámá a při standardním procházení sítě se tyto vazby/uzly procházejí vždy – v praxi však mohou častěji znamenat pouze nezadané, nikoliv neznámé datum, a proto jejich vynechání většinou zkvalitní výsledky.
Konečně je možno (kliknutím na Zvolit vazby) zobrazit nabídku všech vazeb v EE se vyskytujících a zvolit pouze některé z nich, resp. vybrat vazby, které se při procházení sítě nemají používat. Implicitně jsou zvoleny k používání všechny.
Nástroj umožňuje najít ty uzly, které s vybraným uzlem nejvíce souvisí. Souvislost se počítá jako podle délky váhovaný počet cest mezi dvěma uzly (přičemž se berou v úvahu cesty maximálně zvolené délky). Vypíše seznam souvisejících uzlů seřazené podle souvislosti se zvoleným.
Je třeba zvolit uzel (vybrat sekci a vložit ID požadovaného uzlu, které je doporučeno získat procházením encyklopedie v jiném okně; po jeho zadání je pro kontrolu zobrazen název vybraného uzlu). Dále se požaduje zadání maximální délky cest, které se mají ještě brát v potaz (v praxi nemá příliš smyslu zadávat vysoká čísla, neboť od určitého okamžiku kvalita výsledků spíše klesá, protože v sémantické síti na určitou vzdálenost už souvisí vše se vším; proto je maximální délka cesty omezena na 8). Je možno zadat, kolik nejvíce souvisejících uzlů má být vypsáno.
Dále je možnost zvolit zda mají být respektována data existence vazeb a uzlů; při zvolení "nerespektovat" jsou k výpočtu souvislosti používány všechny vazby, bez ohledu na jakákoliv data; při zadání "respektovat" se používají jen ty vazby (příp. uzly), které existují v době existence zvoleného uzlu; konečně "respektovat, ale ignorovat vazby/uzly bez zadaného data" umožňuje ignorovat vazby/uzly, které nemají žádné datum, neboť taková data se považují za neznámá a při standardním procházení sítě se tyto vazby/uzly procházejí vždy – v praxi však mohou častěji znamenat pouze nezadané, nikoliv neznámé datum, a proto jejich vynechání většinou zkvalitní výsledky.
Konečně je možno (kliknutím na Zvolit vazby) zobrazit nabídku všech vazeb v EE se vyskytujících a zvolit pouze některé z nich, resp. vybrat vazby, které se při procházení sítě nemají používat. Implicitně jsou zvoleny k používání všechny.
Nástroj umožňuje najít všechny cesty mezi dvěma zadanými uzly až do zvolené maximální délky. Vypíše všechny cesty od nejkratší po nejdelší.
Je třeba zvolit dva uzly (vybrat sekci a vložit ID požadovaného uzlu, které je doporučeno získat procházením encyklopedie v jiném okně; po jeho zadání je pro kontrolu zobrazen název vybraného uzlu). Dále je třeba zadat maximální délku cesty (v praxi nemá příliš smyslu zadávat vysoká čísla, neboť od určitého okamžiku kvalita výsledků spíše klesá, protože v sémantické síti na určitou vzdálenost už sousedí vše se vším).
Dále se nabízí možnost vybrat, zda mají být respektována data existence vazeb a uzlů; při zvolení "nerespektovat" jsou nalézány všechny cesty mezi oběma uzly bez ohledu na jakákoliv data; při zadání "respektovat" nalézají jen ty cesty, které existují v době existence zvoleného uzlu; konečně "respektovat, ale ignorovat vazby/uzly bez zadaného data" umožňuje ignorovat vazby/uzly, které nemají žádné datum, neboť taková data se považují za neznámá a při standardním procházení sítě se tyto vazby/uzly procházejí vždy – v praxi však mohou častěji znamenat pouze nezadané, nikoliv neznámé datum, a proto jejich vynechání většinou zkvalitní výsledky.
Konečně je možno (kliknutím na Zvolit vazby) zobrazit nabídku všech vazeb v EE se vyskytujících a zvolit pouze některé z nich, resp. vybrat vazby, které se při hledání cest v síti nemají používat. Implicitně jsou zvoleny k používání všechny.
Nástroj umožňuje najít ty uzly, které jsou vybranému uzlu nejvíce podobné na základě své struktury, tj. typů a kategorií vazeb na jiné uzly. Podobnost se počítá jako rozdíl počtu vazeb jednotlivých kategorií, které z uzlu vedou. Je zobrazen seznam podobných uzlů seřazený podle podobnosti.
Je třeba zvolit uzel (vybrat sekci a vložit ID požadovaného uzlu, které je doporučeno získat procházením encyklopedie v jiném okně; po jeho zadání je pro kontrolu zobrazen název vybraného uzlu). Krom toho je možno vybrat, zda se má podobnost počítat na základě přesného počtu vazeb jednotlivých kategorií, a nebo zda se mají u každé kategorie vazeb rozlišovat pouze tři hodnoty – žádná vazba dané kategorie, jedna vazba dané kategorie, více než jedna vazba dané kategorie. Toto zmenšení přesnosti výpočtu vede často k lepším výsledkům, neboť jsou zanedbány rozdíly v kardinalitě, které často nejsou pro potřeby určování podobnosti struktury uzlů tak významné. Konečně je možno zadat, kolik nejpodobnějších uzlů má být vypsáno.
Nástroj umožňuje rozdělení všech uzlů zvolené sekce do skupin na základě jejich struktury, tj. typů a kategorií vazeb na jiné uzly, pomocí shlukové analýzy. Vypíše všechny nalezené shluky, jejich středy a všechny uzly do nich patřící.
Je třeba pouze zvolit sekci a spustit shlukování – automatické shlukování nalezne optimální rozdělení objektů do shluků a to zobrazí; poté je možno kliknutím na tlačítka Více shluků, resp. méně shluků nalézt suboptimální rozdělení splňující požadavek na více, resp. méně shluků. Operace je velmi náročná a může trvat dlouho. Při pokusu o automatické shlukování může dojít k vypsání chybové hlášky serveru; pak je nutno spustit shlukování ruční.
Druhá možnost je spustit shlukování ruční, se zadanou hodnotou parametru sigma, která nepřímo udává, do kolika shluků bude prostor dat rozdělen. Toto je rychlejší varianta, kterou lze použít i u rozsáhlých sekcí, u nichž není možno provést automatické shlukování. Pro zmenšení, resp. zvětšení počtu nalezených uzlů je možno zvětšit, resp. zmenšit hodnotu sigma.