Analýza prezidentských projevů

Český rozhlas včera na svém webu zveřejnil přepisy vánočních a novoročních projevů všech československých a českých prezidentů od roku 1934 do současnosti. Bezesporu se jedná o velmi zajímavá data, která si zaslouží analýzu. První vlaštovkou byl Michal Dvořák, který si všiml, že náš současný prezident ve svém projevu lehce nadužívá první osobu singuláru, což demonstroval jednoduchou statistikou. Frekvenční analýza, kterou použil, je jistě mocný nástroj, ale nedokáže odhalit složitější zákonitosti. Proto jsem se nad korpusem projevů rozhodl provést Latentní Sémantickou Analýzu.

Nejprve jsem dal dohromady všechny texty jednotlivých prezidentů, ty rozdělil na slova a zlemmatizoval je pomocí nástroje MorphoDiTa. Tím vzniklo 11 dokumentů, každý reprezentující texty jednoho prezidenta. Zájemci si je můžou stáhnout zde. Na každý dokument jsem dále aplikovat frekvenční normalizaci TF-IDF a výsledek transformoval do dvoudimenzionálního prostoru pomocí latentní sémantické analýzy (LSA).

Výsledek je znázorněn na následujícím obrázku.

lsa

Je těžké smysluplně interpretovat jednotlivé osy grafu, můžeme se však dívat na vzdálenosti prezidentů ve vzniklém sémantickém prostoru. Z grafu je vidět, že algoritmus bezpečně oddělil demokratické prezidenty od nedemokratických, kteří vytvořili shluk v pravé horní části grafu. Mezi demokratickými prezidenty stojí trochu stranou T. G. Masaryk. To může být dáno tím, že byl u něho k dispozici pouze jeden velmi krátký projev z roku 1934 a data jsou tak ovlivněna šumem. Velmi zajímavé je postavení M. Zemana a E. Háchy, kteří spolu tvoří samostatný shluk. Stojíme tedy před otázkou, co mají tito dva prezidenti společného. Na LSA je pěkné to, že dokáže zachytit i vztahy, které v textech vůbec nejsou explicitně zmíněné, a dává tak prostor pro zamyšlení. Co je tedy spojuje?


Share on FacebookTweet about this on TwitterShare on Google+

8 komentářů k “Analýza prezidentských projevů

  • Prosinec 28, 2014 at 2:22 am

    Zajimavy clanek.

    Mohl bych se prosim zeptat, proc jste pouzil zrovna nastroj MorphoDiTa? Jaka byla vase motivace oproti pouziti kuprikladu majky. Rozhoduju se zrovna, co pouzit pro jeden nekomrecni projekt a tak proto se ptam.

    A druhy dotaz, tu LSA jste provadel asi prostrednictvim nejakeho LSA balicku? Odhaduju podle stylu grafu, vypada typicky Rkovsky:o)

    Diky

    Odpovědět
  • Prosinec 28, 2014 at 11:55 am

    Podle experimentů, které jsme prováděli společně s ÚFAL MFF UK a NLP FI MU dosahuje Morphodita o trochu lepších výsledků než Majka (resp. Desamb, Majka je pouze morfologický analyzátor, který neprovádí disambiguaci). Měřeno to však bylo na uživatelských dotazech fulltextového vyhledávání Seznam.cz, takže na běžných textech jako jsou prezidentské projevy to nutně platit nemusí. Hlavním důvodem použití Morphodity bylo to, že Majku znám dobře a chtěl jsem si tak vyzkoušet práci s Morphoditou:)

    Pro výpočet LSA jsem použil knihovnu Gensim (https://radimrehurek.com/gensim/). Graf byl potom vygenerován v nástroji Veusz.

    Odpovědět
  • Prosinec 29, 2014 at 7:55 pm

    Moc hezké. Nedaly by se zakreslit do grafu zvlášť i jednotlivé projevy? Tak by se dalo ukázat, nakolik je skutečně spojuje osoba prezidenta a kolik tvoří náhoda a šum (a do jaké míry je tedy Masaryk stranou).

    Odpovědět
    • Prosinec 31, 2014 at 11:01 am

      To jsem zkoušel. Nedá se říci, že by vznikly shluky odpovídající jednotlivým prezidentům. Je to opravdu zatížené šumem, zvlášť u hodně krátkých projevů. I tak ale vzniknou dva bezpečně oddělené mraky demokratických a nedemokratických projevů.

      Odpovědět
      • Prosinec 31, 2014 at 6:45 pm

        Díky za odpověď. Tipnul bych si, že rozdíl mezi "mraky" bude v komunistických buzzwords (proletariát, dělnická třída, pracující inteligence, ...), která nekomunističtí prezidenti neměli důvod používat.

        Odpovědět
        • Prosinec 31, 2014 at 7:14 pm

          Přesně tak, slovník komunistických prezidentů je úplně jiný. Proto jsou od nekomunistických tak krásně oddělení.

          Odpovědět
  • Srpen 12, 2015 at 2:04 am

    Tohle je hrozne zajimave tema. Obecne politika. Treba by se dala nejaka neuronovka natrenovat pro psani projevu nejakeho poslance nebo by mohla pomoci pri rozhodovani koho volit (ne podle strany, ale treba podle projevu :).

    Odpovědět

Napsat komentář

Vaše emailová adresa nebude zveřejněna.