Хрулев О. Часть 1. Применение частотного анализа в соционике. Новая методика определения авторства текста

Часть 1. Применение частотного анализа в соционике. Новая методика определения авторства текста

 

Постановка задачи

Пусть дан текст на русском языке. Попробуем решить следующие задачи:

1. Определение автора из множества известных, книги которых у нас уже проанализированы.

2. Определение основных факторов оказывающих наибольшее влияние на распределение частот слов в тексте.

3. Определение соционического типа автора текста с помощью частотного анализа.

Новая методика определения авторства по тексту на естественном языке

Первая попытка создания методики для определения автора текста была сделана еще в самом начале 20 века Морозовым. Позднее она была подвергнута критике специалистом по теории вероятностей и математической статистике Марковым.

Уже в наше время была предложена интересная методика определения авторства текста с использованием буквенной и грамматической информации, которая использует формальную математическую модель последовательности букв (и любых других элементов) текста как реализации цепи Маркова.

Известный пример с определением авторства романа “Тихий Дон”, об ответе на которой спорят несколько десятилетий, показывает, что данная проблема до сих пор актуальна. В настоящий момент, в связи с бурным развитием вычислительной техники встает вопрос о попытках автоматизировать этот процесс. В частности, математиком Хетсо была предложена методика на основе следующих параметров:

  • Средняя длина слова в буквах, вычисляемая на основании выборок размером 500 текстовых слов.
  • Общее распределение длины слова.
  • Средняя длина предложения в словах, вычисляемая на основании выборок размером в 30 предложений.
  • Общее распределение длины предложения.
  • Лексический спектр текста на уровня словаря.
  • Лексический спектр текста на уровне текста.
  • Индекс разнообразия лексики.

C помощью нее он провел компьютерный анализ текстов Шолохова, подтвердивший его авторство.

Известно, что клуб любителей творчества Пушкина собирал информацию о частотном распределении слов великого поэта. На это занятие им понадобилось несколько лет кропотливого труда. К счастью, с приходом новейших технологий, туже самую операцию компьютер способен сделать за несколько минут с гораздо большей точностью.

Методика, которая описывается в этой статье, была случайно получена мной в качестве побочного эффекта при исследовании возможности определения соционического типа автора текста на естественном языке. До этого я не читал материалов по данной теме.

Cлова русского языка имеют огромную разницу в распределении частот. Например, слово “время” встречается в 500 раз чаще чем “удивительный”. В качестве эталона распределения частот слов русского языка был взят частотный словарь Шарова (общее количество различных слов более 60000), который составлен на основе анализа 40 миллионов слов и является более адекватным чем аналогичный известный частотный словарь Засориной, который был составлен в 1977 году и использовал для анализа всего лишь 1 миллион слов.

В базу данных Oracle были закачаны результаты частотного анализа 104 книг 38 человек (количество книг для каждого писателя было от 1 до 14) общим размером более 30 Мегабайт чистого текста, в которых использовано почти 6 миллионов слов. Для анализа были написаны несколько программ на PL/SQL.

Алгоритм

  • Составление частотного словаря для каждой книги.
  • На основе нескольких книг создается частотный словарь писателя.
  • C помощью частотного словаря Шарова происходит нормализация. То есть полученные значения частоты употребления слов делятся на средние в русском языке.
  • Вводится понятие расстояния между словарями, как сумма квадратов разностей частот между отдельными анализируемыми словами.
  • При этом если слово есть в одном словаре, но совсем отсутствует в другом, то оно не учитывается (для чего это сделано объясняется ниже)
  • Учитываются первые 5000-10000 наиболее употребляемых слов русского языка.
  • В качестве результата берется словарь с минимальным расстоянием.

Если взять больше 10000 слов, то редкие слова оказывают слишком большое влияние на результат, если меньше, то информации становится недостаточно. Учитывая такое количество слов текст должен быть достаточно большим, желательно от 30 Kb, причем чем больше, тем лучше. На текстах малой длины частоты неустойчивы и сильно зависят от предметной области. К аналогичным выводам пришел польский исследователь Е. Ворончак в работе, посвященной математико-статистическому анализу устойчивости различных показателей, используемых в настоящее время в исследованиях языка и стиля произведения: “границей объема текста (ниже которой результаты не достоверны, а выше – достоверны) является пять тысяч словоформ”.

По данному методу для всех 104 книг автор был определен верно в 102 случаях с двумя ошибками определения для Александра Пушкина “Том 7. История Пугачева. Исторические статьи и материалы” и “Том 9. Письма”. Также при правильном определении авторства для для нескольких небольших рассказов Николая Гоголя разница между следующим писателем была не очень большой. Для книг, не участвовавших в формировании словаря данный метод не проверялся, можно понять, что он будет работать на следующем примере.

Были взяты 38 словарей писателей. 104 словаря для книг, в том числе пять из них Льва Толстого. В нижеприведенной таблице показано расстояние по словарям для книги Льва Толстого “Юность”, если произведение не указано имеется в виду частотный словарь писателя.

Автор

Произведение

Расстояние

1

Лев Толстой

Юность

0

2

Лев Толстой

Частотный словарь автора

168

3

Лев Толстой

Детство

289

4

Лев Толстой

Война и мир. Том 2

307

5

Джек Лондон

Частотный словарь автора

373

6

Герман Гессе

Эссе

385

7

Николай Гоголь

Частотный словарь автора

393

8

Герман Гессе

Частотный словарь автора

396

9

Федор Достоевский

Частотный словарь автора

403

10

Федор Достоевский

Записки из мертвого дома

404

11

Иван Тургенев

Новь

406

12

Лев Толстой

Хаджи-Мурат

415

13

Иван Тургенев

Казаки

421

14

Лев Толстой

Частотный словарь автора

422

142

Жан-Поль Сартр

Частотный словарь автора

8668

Отсюда видно, что все пять книг Толстого плюс словарь писателя попали на первые 14 позиций, то есть книги Толстого находятся достаточно близко друг к другу, поэтому чем больше будет проанализировано данных для составления частотных словарей писателей, тем более надежным будет результат.

Жанр произведений

Но вернемся к Пушкину и одной из ошибок определения автора по тому 7 “История Пугачева. Исторические статьи и материалы”:

Автор

Произведение

Расстояние

1

Александр Пушкин

Том 7 История Пугачева. Исторические статьи и материалы

0

2

Станислав Лем

Звездные дневники Йохана Тихого

341

3

Джек Лондон

Частотный словарь автора

363

4

Станислав Лем

Частотный словарь автора

364

5

Антон Чехов

Частотный словарь автора

375

6

Герман Гессе

Эссе

397

39

Александр Пушкин

Частотный словарь автора

545

49

Александр Пушкин

Том 2 Стихотворения 1823-1836

575

71

Александр Пушкин

Том 4 Евгений Онегин Драматические произведения

650

73

Александр Пушкин

Том 1 Стихотворения 1814-1822

657

129

Александр Пушкин

Том 9 Письма

2436

и к правильному определению автора по тому 2 “Стихотворения 1823-1936”:

Автор

Произведение

Расстояние

1

Александр Пушкин

Том 2 Стихотворения 1823-1836

0

2

Александр Пушкин

 

53

3

Александр Пушкин

Том 1 Стихотворения 1814-1822

143

4

Александр Пушкин

Том 3 Поэмы, сказки

144

5

Александр Пушкин

Том 4 Евгений Онегин Драматические произведения

162

6

Антон Чехов

Рассказы

420

35

Александр Пушкин

Том 7 История Пугачева. Исторические статьи и материалы

575

130

Александр Пушкин

Том 9 Письма

2456

Вывод, который напрашивается из этих двух таблиц: есть три достаточно далеко расположенные друг от друга группы произведений Пушкина: поэзия (Тома 1-4), письма (Том 9) и проза (Том 7 “История Пугачева. Исторические статьи и материалы”). Таким образом наглядно показано, что кроме собственно авторства частота слов в тексте очень сильно зависит от жанра произведений.

Еще одно подтверждения этого было получено, когда были проанализированы два ЖЖ-дневника (авторы имеют психологические типы СЭЭ и ЛСЭ) и сообщения на форуме (автор СЛИ). Казалась бы большое расхождение должны были бы дать разница в стиле, возрасте, образе жизни, психотипе и словарном запасе. Один из словарей был составлен по дневнику журналистки Таты Олейник (Почти_новая_горжетка), у которой словарный запас оказался самым большим по первым 80 книгам. Тем не менее по данной методике расстояния между этими тремя словарями получились относительно небольшими, для одного из словарей два других оказались ближайшими из 37 словарей. Таким образом язык on-line дневников и форумов, близкий к разговорному сильно отличается от литературного и научного, причем это отличие можно выявить с помощью данной методики или ее модификации. А значит ее можно применять для больших социологических и психолингвистических исследований русского языка на больших корпусах текстов.

Предметная область

Полную версию таблицы расстояний между 28 словарями писателей, психологов и социоников в базе данных можно посмотреть здесь. В качестве психотипа стоит моя версия

Далее проанализируем полученную таблицу. Отсортируем список по возрастанию расстояния от словаря Агаты Кристи:

Автор

ТИМ

Расстояние

Профессия

1

Агата Кристи

СЛИ

0

писатель

2

Иван Тургенев

ЭСИ

242

писатель

3

Станислав Лем

ИЛИ

256

писатель

4

Антон Чехов

ЛИИ

285

писатель

5

Федор Достоевский

ЭИИ

286

писатель

6

Джек Лондон

ЛИЭ

322

писатель

7

Теодор Драйзер

ЭСИ

350

писатель

8

Виктор Гюго

ЭСЭ

351

писатель

9

Николай Гоголь

ЭИЭ

355

писатель

10

Лев Толстой

СЭЭ

356

писатель

11

Жюль Верн

ЭСЭ

382

писатель

12

Пауло Коэльо

ЭИИ

386

писатель

13

Гарсия Маркес

ЭСЭ

401

писатель

14

Ги де Мопассан

СЛИ

420

писатель

15

Герман Гессе

ИЛИ

428

писатель

16

Зигмунд Фрейд

ИЛЭ

552

психолог

17

Карл Юнг

ИЛИ

574

психолог

18

Эрик Берн

ИЛЭ

713

психолог

19

Александр Пушкин

ИЭЭ

725

поэт

20

Иван Крылов

ИЛИ

742

баснописец

21

Билл Гейтс

ЛИЭ

790

бизнесмен

22

Абрахам Маслоу

ИЭЭ

850

психолог

23

Эрих Фромм

ЭИИ

932

психолог

24

Екатерина Филатова

ЭИИ

952

соционик 

25

Жан-Поль Сартр

СЛИ

952

философ

26

Виктор Гуленко

ЛИИ

1 040

соционик 

27

Аушра Аугустинавичюте

ИЛЭ

2 604

соционик 

28

Александр Лоуэн

СЭИ

3 381

психолог

Все писатели сверху! Отсюда следует, что профессия, а значит и предметная область существенно влияют на частотный анализ.

Аналогично отсортируем список по возрастанию расстояния от словаря Абрахама Маслоу:

Автор

ТИМ

Расстояние

Профессия

1

Абрахам Маслоу

ИЭЭ

0

психолог

2

Карл Юнг

ИЛИ

294

психолог

3

Эрих Фромм

ЭИИ

295

психолог

4

Зигмунд Фрейд

ИЛЭ

369

психолог

5

Эрик Берн

ИЛЭ

479

психолог

6

Пауло Коэльо

ЭИИ

653

писатель

7

Станислав Лем

ИЛИ

654

писатель

8

Антон Чехов

ЛИИ

691

писатель

9

Билл Гейтс

ЛИЭ

695

бизнесмен

10

Герман Гессе

ИЛИ

707

писатель

11

Екатерина Филатова

ЭИИ

708

соционик

12

Лев Толстой

СЭЭ

719

писатель

13

Виктор Гюго

ЭСЭ

727

писатель

14

Джек Лондон

ЛИЭ

728

писатель

15

Жюль Верн

ЭСЭ

751

писатель

16

Иван Тургенев

ЭСИ

781

писатель

17

Теодор Драйзер

ЭСИ

793

писатель

18

Федор Достоевский

ЭИИ

830

писатель

19

Агата Кристи

СЛИ

850

писатель

20

Николай Гоголь

ЭИЭ

851

писатель

21

Ги де Мопассан

СЛИ

866

писатель

22

Гарсия Маркес

ЭСЭ

898

писатель

23

Виктор Гуленко

ЛИИ

914

соционик

24

Александр Пушкин

ИЭЭ

1 075

поэт

25

Иван Крылов

ИЛИ

1 238

баснописец

26

Жан-Поль Сартр

СЛИ

1 581

философ

27

Аушра Аугустинавичюте

ИЛЭ

1 707

соционик

28

Александр Лоуэн

СЭИ

2 968

психолог

Заметим, что наиболее близкими оказались словари практически всех психологов за исключением Александра Лоуэна.

Теперь проверим остается ли действовать это правило для социоников:

Автор

ТИМ

Расстояние

Профессия

1

Аушра Аугустинавичюте

ИЛЭ

0

соционик

2

Екатерина Филатова

ЭИИ

1 169

соционик

3

Виктор Гуленко

ЛИИ

1 294

соционик

4

Зигмунд Фрейд

ИЛЭ

1 578

психолог

5

Эрих Фромм

ЭИИ

1 670

психолог

6

Карл Юнг

ИЛИ

1 703

психолог

7

Абрахам Маслоу

ИЭЭ

1 707

психолог

8

Эрик Берн

ИЛЭ

1 709

психолог

9

Пауло Коэльо

ЭИИ

2 143

писатель

10

Лев Толстой

СЭЭ

2 154

писатель

11

Антон Чехов

ЛИИ

2 272

писатель

12

Билл Гейтс

ЛИЭ

2 284

бизнесмен

13

Герман Гессе

ИЛИ

2 307

писатель

14

Джек Лондон

ЛИЭ

2 346

писатель

15

Теодор Драйзер

ЭСИ

2 369

писатель

16

Иван Тургенев

ЭСИ

2 378

писатель

17

Станислав Лем

ИЛИ

2 401

писатель

18

Виктор Гюго

ЭСЭ

2 433

писатель

19

Ги де Мопассан

СЛИ

2 470

писатель

20

Николай Гоголь

ЭИЭ

2 505

писатель

21

Жюль Верн

ЭСЭ

2 510

писатель

22

Федор Достоевский

ЭИИ

2 529

писатель

23

Гарсия Маркес

ИЛИ

2 544

писатель

24

Александр Пушкин

ИЭЭ

2 591

поэт

25

Агата Кристи

СЛИ

2 604

писатель

26

Иван Крылов

ИЛИ

2 968

баснописец

27

Жан-Поль Сартр

СЛИ

3 194

философ

28

Александр Лоуэн

СЭИ

3 861

психолог

Соционики сверху, далее подряд все психологи, опять же за исключением Лоуэна. Таким образом наша гипотеза о существенном влиянии предметной области на распределение частот слов в тексте еще раз подтвердилась.

Хотя это правило выполняется не всегда, например, для Гуленко, словарь Филатовой опять же оказывается сверху, но словарь Аушры находится в конце списка.

Так почему же словарь Лоуэна расположен настолько далеко от остальных психологов?

Объем анализируемого текста

Для ответа на этот вопрос построим таблицу для самого Лоуэна:

Автор

ТИМ

Расстояние

Профессия

Объем текста

1

Александр Лоуэн

СЭИ

0

психолог

28 816

2

Зигмунд Фрейд

ИЛЭ

2 698

психолог

229 669

3

Карл Юнг

ИЛИ

2 778

психолог

206 119

4

Эрих Фромм

ЭИИ

2 928

психолог

123 063

5

Абрахам Маслоу

ИЭЭ

2 968

психолог

72 763

6

Гарсия Маркес

ЭСЭ

2 993

писатель

31 583

7

Пауло Коэльо

ЭИИ

2 998

писатель

206 341

8

Джек Лондон

ЛИЭ

3 009

писатель

518 348

9

Лев Толстой

СЭЭ

3 017

писатель

256 137

10

Станислав Лем

ИЛИ

3 023

писатель

180 395

11

Герман Гессе

ИЛИ

3 069

писатель

115 476

12

Николай Гоголь

ЭИЭ

3 087

писатель

166 778

13

Екатерина Филатова

ЭИИ

3 109

соционик

157 332

14

Ги де Мопассан

СЛИ

3 111

писатель

60 620

15

Эрик Берн

ИЛЭ

3 155

психолог

110 248

16

Виктор Гюго

ЭСЭ

3 162

писатель

774 221

17

Иван Тургенев

ЭСИ

3 171

писатель

257 121

18

Антон Чехов

ЛИИ

3 181

писатель

209 448

19

Виктор Гуленко

ЛИИ

3 248

соционик

33 628

20

Теодор Драйзер

ЭСИ

3 266

писатель

245 036

21

Жюль Верн

ЭСЭ

3 316

писатель

143 855

22

Федор Достоевский

ЭИИ

3 316

писатель

382 849

23

Агата Кристи

СЛИ

3 381

писатель

140 406

24

Билл Гейтс

ЛИЭ

3 390

бизнесмен

87 808

25

Александр Пушкин

ИЭЭ

3 536

поэт

340 188

26

Иван Крылов

ИЛИ

3 738

баснописец

7 545

27

Аушра Аугустинавичюте

ИЛЭ

3 861

соционик

19 135

28

Жан-Поль Сартр

СЛИ

4 037

философ

14 477

Получается, что для самого Лоуэна словари психологов оказываются ближе, чем все остальные. Так в чем же дело? Мне кажется в данном случае есть две основные причины:

  • Для анализа была взята книга “Вы и ваше тело” по телесно-ориентированной терапии, которая отличается от остальных психологических направлений своеобразием лексики достаточно сильно
  • В последнем столбце указано количество анализируемых слов. Для Лоуэна, Аушры, Сартра, Крылова оно относительно мало. Хотя эта проблема частично решается пятым пунктом алгоритма, малое количество анализируемых слов делает словарь неустойчивым.

Еще одним фактор, который может воздействовать на частоту вхождения слов, время написания книги, подробно не анализировался.

А теперь переходим к самому интересному для социоников.

Попытка определения психотипа

Отсортируем список по возрастанию расстояния от словаря Германа Гессе:

Автор

ТИМ

Расстояние

Профессия

1

Герман Гессе

ИЛИ

0

писатель

2

Лев Толстой

СЭЭ

213

писатель

3

Джек Лондон

ЛИЭ

234

писатель

4

Иван Тургенев

ЭСИ

240

писатель

5

Пауло Коэльо

ЭИИ

256

писатель

6

Ги де Мопассан

СЛИ

261

писатель

7

Станислав Лем

ИЛИ

265

писатель

8

Виктор Гюго

ЭСЭ

283

писатель

9

Антон Чехов

ЛИИ

302

писатель

10

Теодор Драйзер

ЭСИ

305

писатель

11

Федор Достоевский

ЭИИ

312

писатель

12

Гарсия Маркес

ЭСЭ

336

писатель

13

Николай Гоголь

ЭИЭ

348

писатель

14

Жюль Верн

ЭСЭ

407

писатель

15

Агата Кристи

СЛИ

428

писатель

16

Александр Пушкин

ИЭЭ

450

поэт

17

Карл Юнг

ИЛИ

485

психолог

18

Зигмунд Фрейд

ИЛЭ

495

психолог

19

Эрик Берн

ИЛЭ

654

психолог

20

Эрих Фромм

ЭИИ

705

психолог

21

Абрахам Маслоу

ИЭЭ

707

психолог

22

Билл Гейтс

ЛИЭ

712

бизнесмен

23

Иван Крылов

ИЛИ

723

баснописец

24

Екатерина Филатова

ЭИИ

827

соционик

25

Жан-Поль Сартр

СЛИ

961

философ

26

Виктор Гуленко

ЛИИ

1 021

соционик

27

Аушра Аугустинавичюте

ИЛЭ

2 307

соционик

28

Александр Лоуэн

СЭИ

3 069

психолог

Опять все писатели сверху, то есть влияние предметной области определяется достаточно точно.

Но если посмотреть на психотип ИЛИ, то он получается разбросанным по всей таблице. Аналогичные результаты видны и в остальных таблицах, приводимых выше. Я собрал версии о психотипах известных людей большинства известных социоников и построил эталонный список на основе их анализа. В нем, как представители типа интуитивно-логических интровертов (ИЛИ), оказались Герман Гессе, Станислав Лем и Гарсия Маркес (мое мнение – ЭСЭ), по поводу психотипа Карла Густава Юнга мнения социоников разделились между ИЛИ и ЛИИ. В любом случае при замене версий типов Маркеса и Юнга на более распространенные общая картина не меняется, то есть данная методика, использующая частотный анализ первых 5000-10000 наиболее употребляемых слов не может дать определение психотипа (точнее совпадения с наиболее вероятными версиями).

Итак, в целом частотные словари оказались достаточно устойчивыми на больших массивах информации. То есть каждый их нас обладает своим неповторимым частотным словарем и аналогично почерку его можно идентифицировать с достаточно большой вероятностью.

Это дает надежду возможности определения психотипа на основе его анализа.

О семантическом подходе в соционике писали Вайсбанд, Филимонов, Ритчик, Шепетько, Аушра.

Прокофьева, Ермак, питерская группа социоников, а также авторы этого сайта (я и Елена Заманская) составили свои семантические словари по каждой из функций.

Первые же идеи, которая приходят в голову для модификации данной методики: отфильтровать слова русского языка и рассматривать только те, которые относят к наполнению соционических функций, а также попробовать использовать при типировании основные дихотомии Юнга и признаки Рейнина. Данное исследование было проведено. О его результатах читайте в следующей статье.

Заключение

Итак в данной статье:

  1. Показано, что частотный словарь человека достаточно устойчив на больших объемах текста и неустойчив на малых.
  2. Была предложена новая методика определения автора текста на естественном языке. Основными плюсами данной методики являются ее надежность, простота и возможность автоматического использования. К минусам можно отнести то, что анализируемый текст должен быть достаточно большим для надежного определения авторства. Возможно в дальнейшем удастся синтезировать ее с методикой Хетсо.
  3. Показано, что на частоту употребления слов существенно влияет не только автор, но также предметная область, жанр и размер анализируемого текста.
  4. Переводчик оказывает гораздо меньшее влияние на распределение частот.
  5. C помощью частотного анализа по наиболее употребительным словам не удается определять соционический тип без дополнительной фильтрации по семантическим словарям.

Полученные результаты показывают, что психотип влияет на частоту употребления слов в русском языке в целом меньше, чем предметная область, жанр и размер анализируемого текста.

Сам анализируемый текст должен быть достаточно большим, иначе выводы будут ненадежными!

Данная статья не претендует на полноценное исследование, так как, например, для оценки надежности новой методики определения авторства нужно обработать гораздо большое число книг и источников информации. Возможно я это сделаю в будущем.

Олег Хрулев

Список литературы

1

Н.А. Морозов Новое орудие объективного исследования древних документов

2

А.А. Марков Об одном применении статистического метода

3

Г. Хетсо Методика, основанная на методах математической статистики

4

Л.И. Бородкин Математические методы и компьютер в задачах атрибуции текстов

5

О.В. Кукушкина, А.А. Поликарпов, Д.В. Хмелёв Определение авторства текста с использованием буквенной и грамматической информации

6

С.А. Шаров Частотный словарь Шарова

7

Л.Н. Засорина Частотный словарь Засориной

8

Р.М. Фрумкина Психолингвистика
You can leave a response, or trackback from your own site.

One Response to “Хрулев О. Часть 1. Применение частотного анализа в соционике. Новая методика определения авторства текста”

  1. Сергей:

    Отличная Статья! С удовольствием почитал. Рекомендую определять не ТИМ автора а силу конкретной функции, поскольку каждая функция разговаривает на своём языке. Таким образом будет выяснена сила функций. А потом уже на основе распределения соционических функций выдвигать гипотезу о ТИМе автора.
    Сделайте это и вас ждёт сюрприз:)

Leave a Reply