Next Previous Contents

1. Úvod

Bonito je grafické uživatelské rozhraní korpusového manažeru Manatee. Umožňuje tvořit dotazy a klást je na různé korpusy. Výsledek je potom přehledně zobrazen, je možné ho různě upravovat a lze na něm počítat rozličné statistiky.

1.1 Korpus

Korpus je zde chápán jako posloupnost tzv. pozic. Každou pozici tvoří jedno slovo, číslo, interpunkční znaménko apod. Vlastní rozdělení do pozic je u většiny korpusů provedeno automaticky externími nástroji, nijak nezávisí na systémech Manatee či Bonito a může se tedy korpus od korpusu lišit.

Každá pozice je tvořena množinou pozičních atributů. Každý atribut obsahuje nějakou jednoduchou textovou informaci (slovo, základní tvar, slovní druh atd.). Pozice libovolného korpusu obsahuje vždy minimálně atribut se jménem word, který obsahuje vlastní slovo na dané pozici. Různé korpusy obsahují různé soubory atributů. Některé obsahují pouze zmíněný atribut word, jiné obsahují u každého slova jeho základní tvar (atribut lemma) a gramatickou informaci (atribut tag). Některé korpusy mají gramatickou informaci rozdělenou do více specifických atributů.

V korpusu mohou být zaznamenány také různé strukturní značky jako například hranice vět, odstavců, dokumentů apod. Některé typy těchto značek mají navíc u každého výskytu značky v textu uloženu další informaci. Například mnoho korpusů má celý text rozdělený na dokumenty strukturní značkou <doc>, která většinou obsahuje identifikátor zdroje dokumentu.

U některých značkovaných korpusů je zvykem gramatickou informaci uloženou u každého slova nazývat značkou. Tento typ značek ovšem netvoří výše definované strukturní značky, naopak jsou značky (gramatické informace) uloženy v některém z pozičních atributů.

1.2 Korpusový manažer

Výsledkem dotazu na korpus je tzv. konkordanční seznam, který tvoří všechny pozice korpusu odpovídající zadanému dotazu. Konkordanční seznam se potom zobrazuje ve formátu KWIC (Key Word(s) In Context), kdy jsou hledaná slova se svými kontexty zobrazena přehledně pod sebou. Konkordanční seznam je někdy zkráceně nazýván konkordancí. Zkratka KWIC reprezentuje v programu hledané slovo či posloupnost slov.


Next Previous Contents