Kto to napisał?

Rozbierając na czynniki pierwsze prozę naszego ulubionego autora napotykamy na następujące zagadnienie: co wyróżnia Ziemiańskiego spośród innych pisarzy? Oczywiście poza udowodnioną wcześniej skłonnością do przytrzymywania klawiszy dłużej niż to jest potrzebne.

Skoro już mamy narzędzia do analizy tekstów można je wykorzystać do wygenerowania listy słów najczęściej używanych w tekście. Można postawić hipotezę, że układ tej listy jak i wzajemne relacje między takimi wyrazami tworzą cyfrowy odcisk palca zasadniczo niezależny od treści. Albowiem są to zwykle spójniki, partykuły i zaimki.

By zbadać konkretne dane wypada mieć tło, grupę kontrolną, w tym wypadku reprezentatywny korpus tekstów na podstawie którego można dokonać analizy frekwencji. W sieci istniały niegdyś takie listy, coś niecoś przetrwało na wikipedii, ale zawiera podejrzane braki. Znalazłem też słownik do ispella ale on z kolei pomija słowa jednoliterowe. Zresztą obie listy zawierają odmianę której nie potrzebujemy.

Chcesz coś zrobić dobrze, zrób to sam jak mawiają Anglosasi. Po dłuższej operacji którą mogę określić jako nakarmienie pytona chomikiem otrzymujemy nasz własny korpus tekstów i listę frekwencyjną która całkiem nieźle przypomina te znalezione w sieci. Krok pierwszy ukończony.

Dla porządku, początek tej listy (tylko wyrazy bez liczby wystąpień, posortowane od największej) to:

się, w, nie, i, na, z, to, do, że, a, ale, co, jak

Najczęstsze wyrazy w tomie 1 Achai:

nie, się, w, i, na, z, to, do, że, co, a, jak

Układ jest zbliżony ale u Ziemiańskiego prowadzi słowo „nie” zaś w górę pnie się „co”.
Czy to przypadek? Oto tom 2:

nie, się, w, i, na, to, z, do, że, co, jak, a

Wygląda na to, że „nie” i „co” to markery Achai jeśli nie całej prozy autora. Tom 3:

się, nie, w, i, na, z, to, do, co, że, jak, ale

Ta część sagi jest utrzymana w tomie mniej negatywnym, pozycja „co” za to nadal wzrasta. Tak więc badania pozwoliły nam wykazać, że pod pewnymi względami „stara” Achaja jest pisana w sposób spójny i  oryginalny. Dla porównania oto kod genetyczny powieści pewnej polskiej pisarki – zupełnie inny!

i, w, nie, się, z, na, to, a, że, do, jej, ale

Sama lista słów to trochę mało, trudno też oszacować wzrokowo różnice pomiędzy dwoma zestawami frekwencyjnymi. Żeby lepiej to zwizualizować możemy ustalić listę N słów (u mnie N=25) i każdemu przypisać jego udział w łącznej sumie wystąpień słów tej listy. Liczby bezwzględne rzecz jasna powodowałyby problem bo każdy tekst ma inną długość.

Wykres

Najczęstsze słowa

Ale ten wykres jest mało czytelny. Lepiej porównywać udziały słów z badanego tekstu do udziałów słów w korpusie. Wtedy każde słowo z korpusu ma rzecz jasna 100%. Większe wartości odpowiadają częstszemu użyciu w analizowanym tekście.

Wykres

Udziały wyrazów tekstów względem udziału wyrazów w korpusie

Tu chyba jeszcze wyraźniej widać style pisania. Dziękuję za uwagę.

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s

%d bloggers like this: