Historie korpusu DIALOG

 

„В сущности слово является двусторонним актом. Оно в равной
степени определяется как тем, чье оно, так и тем, для кого оно. ...
Слово – общая территория между говорящим и собеседником.“
(В. Н. Волошинов, 1929)
 
„It is unwise to rely on a single corpus, however large or well designed
it might be: all corpora have in-built biases, and findings should therefore
be checked in different independent corpora.“
(M. Stubbs, 2000)

 

Korpus DIALOG čerpá materiál z archivu nahrávek televizních diskusních pořadů a jejich přepisů, který je budován v Ústavu pro jazyk český Akademie věd České republiky od konce roku 1996. Archiv založila vedoucí oddělení stylistiky a lingvistiky textu Světla Čmejrková během řešení mezioborového grantového projektu GA ČR Dialog ve světě lidí a strojů (1996–2001, kód projektu 405/96/K096).

Po skončení projektu přišel nápad zpracovat archiv nahrávek a přepisů do podoby elektronického korpusu. Tohoto úkolu se ujal tým juniorského grantového projektu GA AV ČR Mluvená čeština v televizních diskusních pořadech (2003–2005, kód projektu B9061304): Světla Čmejrková, Lucie Jílková (vedoucí projektu v letech 2003–2004), Petr Kaderka, Jana Klímová, Kamila Mrázková, Zdeňka Svobodová (vedoucí projektu v letech 2004–2005) a Nino Peterek (Ústav formální a aplikované lingvistiky MFF UK).

Světla Čmejrková navrhla dát budoucímu korpusu jméno DIALOG. Korpus DIALOG svým jménem odkazuje jednak k názvu projektu Dialog ve světě lidí a strojů, a tím i k počátkům sběru materiálu, jednak k základnímu teoreticko-metodologickému východisku projektu – k dialogu jako základní existenční formě řeči a k dialogičnosti jako základnímu principu sémiózy (srov. výše slova Valentina Vološinova).

Projekt byl veden myšlenkou, že pro lingvistickou práci je důležité analyzovat množství různorodých dat a že není správné opírat se o jediný materiálový zdroj (srov. výše slova Michaela Stubbse). Budování televizního korpusu jako speciálního korpusu mluvené češtiny tak bylo spojováno s očekáváním, že poskytne vhled do současné podoby veřejné mluvené češtiny a do způsobů vedení mediálního dialogu.

Výsledkem práce na projektu bylo kromě řady studií (viz rubriku Publikace) vytvoření rozsáhlého korpusu DIALOG (přes 2 mil. textových slov), z něhož byla na přelomu roku 2005 a 2006 uveřejněna na internetu malá ukázka pod názvem DIALOG 0.1.

Na tuto práci navázal juniorský grantový projekt GA AV ČR Mluvená čeština ve veřejných dialozích: dobudování, zpřístupnění a průzkum korpusu DIALOG (2007–2009, kód projektu KJB900610701) s tímto pracovním týmem: Martin Havlík, Eva Havlová, Petr Kaderka (vedoucí projektu), Jana Klímová, Patricie Kubáčková, Nino Peterek (autor softwarového řešení projektu, Ústav formální a aplikované lingvistiky MFF UK), Zdeňka Svobodová.

Nový pracovní tým se od počátku snažil vypořádat se základním metodologickým požadavkem, který si stanovil: nebylo by správné omezit studium mluvené komunikace na analýzu přepisu, hlavním materiálem pro analýzu musí zůstat audiovizuální nahrávka. Na základě tohoto požadavku vytvořil Nino Peterek vyhledávací systém Dialogy.Org, který umožňuje k vyhledané pasáži přehrát videozáznam (více ke způsobům vyhledávání v rubrice Jak hledat v korpusu).

V roce 2008 zveřejnil pracovní tým projektu dvě multimediální verze korpusu DIALOG: korpus DIALOG 0.1m a korpus DIALOG 0.2 (více o nich v rubrice Struktura korpusu).

Petr Kaderka
(2008)