Введение

 

 

Настоящий словарь подготовлен в Отделе машинного фонда Института русского языка РАН. Работа над словарем начиналась в рамках проекта "Словарь языка Достоевского", поддержанного РГНФ (руководитель - Ю.Н.Караулов), а затем выделилась в самостоятельное направление. На этом этапе авторы также использовали финансовую поддержку РГНФ, оказанную более широкому проекту "Дистрибутивно-статистическое описание языка русской прозы 1855-1880 гг." (01-04-00247а).

Следует с самого начала подчеркнуть, что цели обоих словарей не совпадают. Цель "Словаря языка Достоевского" - показать лексику писателя во всем ее богатстве (с детальной семантической разработкой, с собранием иллюстративных примеров, с исчерпывающим словоуказателем и т.п.). Итогом явится лексикографическая серия, намного превосходящая по объему лучшие образцы авторской лексикографии, такие как первый опыт на русской почве - Словарь языка Пушкина [Словарь Пушкина] или замечательный Словарь языка Мицкевича [Słownik]. Первый выпуски этой серии уже вышли в свет [Словарь Достоевского].

Задача "Статистического словаря языка Достоевского" скромнее, он должен представить лексику Достоевского в количественном виде, повторив и обогатив опыт уникального конкорданса к Шекспиру [Spevack]. Однако и при таком ограничении результат оказался бы слишком объемным для бумажного издания (речь идет о многих сотнях авторских листов), а потому было принято решение издать словарь в гибридном виде - как однотомную книгу, показывающую лишь часть таблиц, и сопровождающий ее компакт- диск, содержащий информацию в полном объеме. Конечно, в первом опыте такого рода нас подстерегают многие технические трудности издания, а также психологические предубеждения читателей, но именно на этом пути нам видится дальнейший прогресс академической лексикографии.

Предваряя описание структуры словаря, выскажем одно замечание относительно развития статистической лексикографии. В 1960-1970-х г.г. наблюдалось широко распространенное увлечение частотными словарями, особенно в связи с педагогическими и информационными приложениями. От очень скромных по объему (400 тыс. словоупотреблений) лексикография шагнула к рубежу в 1 млн. словоупотреблений, а затем и к новым рекордам - максимально дифференцированный словарь американских текстов для школы содержит более 5 млн. словоупотреблений [Carroll], а словарь, созданный Институтом французского языка [Dictionnaire], опирается на корпус литературных текстов объемом более 70 млн. словоупотреблений. Затем наступает кризис: электронные корпусы текстов продолжают множиться и увеличиваться по объему (в некоторых из них счет идет уже на сотни миллионов словоупотреблений), но не видно новых частотных словарей, которые были бы созданы на основе этих корпусов. В чем же дело? Причин может быть много, назовем некоторые из них.

1) Программными средствами можно легко и просто получить статистику графических слов. Именно такая информация представлена в вышеупомянутом словаре Керрола. Но читателю обычно нужно большее - графические слова должны быть сведены в осмысленные лингвистические единицы, они должны быть лемматизированы. Процесс же лемматизации не поддается алгоритмам на сто процентов. Доля ручного вмешательства хотя и уменьшается относительно, но продолжает расти абсолютно. При росте объема текстового корпуса в 100 раз объем ручного труда при постредактировании возрастет, скажем, в 10 раз.

2) До сих пор не разработаны хорошие автоматизированные процедуры формирования выборки на большом корпусе текстов. Впрочем, эта трудность не существует при обработке замкнутого корпуса целиком (как, например, в случае текстов Достоевского).

3) Наконец, существует и психологический фактор. Лингвостатистика, как она складывалась в середине XX в., в какой-то степени была во власти математического фетишизма: открытие "закона" Ципфа создавало иллюзию новой области статистических исследований, возникала новая дисциплина, все более терявшая связи с лингвистикой, филологией, информатикой.

Предлагаемый Словарь должен сделать шаг в обратном направлении.

 

1.            Корпус текстов Достоевского и его членение

Настоящий словарь опирается на 30-томное академическое издание Ф.М.Достоевского и в основном следует принципам классификации текстов, принятом в этом издании, т.е. включает три основных жанра : "Художественная литература", "Критика и публицистика" и "Письма". Эти три жанра в совокупности и составляют корпус текстов Достоевского, послуживший базой для всех статистических таблиц "Статистического словаря языка Достоевского". Общий объем корпуса - 2889 тыс. графических слов [A1]  (145466 разных графических слов), в том числе: Художественная литература - 1835 тыс. слов (110514 разных графических слов), Критика и публицистика - 524 тыс. слов (59446 разных графических слов[A2] ), Письма - 531 тыс. слов (43531 разных графических слов).

Не вошли в наш корпус текстов ранние редакции и варианты, подготовительные материалы и тексты записных книжек. Применение статистических методов к подобным текстам было бы почти невозможным. Не вошли в корпус и деловые бумаги, где индивидуальность автора почти не проявляется. Разумеется, эти группы текстов должны учитываться при составлении исчерпывающего словника Достоевского.

Ряд текстов из "Дневника писателя" отнесен к художественной литературе: "Бобок", "Кроткая", "Мальчик у Христа на елке", "Мужик Марей", "Сон смешного человека", "Столетняя".

 

2. Лингвистические единицы, отраженные в статистических таблицах

 

В настоящем словаре представлены как исходные графические слова, так и результаты всевозможных процедур над графическими словами (слияние разных грамматических форм слова, слияние вариантов, расщепление, объединение в одну единицу двух и более графических слов, следующих друг за другом). Прежде всего, речь идет об орфографических вариантах (адрес и адресс, прощание и прощанье), в которых могли проявляться орфографические нормы времени или пристрастия издателей. Подобные варианты объединяются в одну единицу. С другой стороны, сохранена статистическая информация о таких вариантах, как бриллиант и брильянт, Авдотья Сергеевна и Авдотья Сергевна, вести и весть).

Некоторые графические слова разделяются на две или даже три леммы. Речь идет о частицах вроде -де, -ка, -с, -таки, -то. Однако сохраняются нерасчлененными слова с "неопределенным" -то, присоединяемым к основам вопросительных (и некоторых указательных) местоимений (где-то, какой-то, откуда-то, такой-то).

Что касается грамматических форм изменяемых слов, то здесь доминирует традиционное представление о частях речи (например, графические слова на вроде абсурдно, бездарно, безобразно, вековечно расщепляются на наречия и прилагательные). Однако, вслед за Словарем Пушкина, компаративы сохраняются как отдельные грамматические единицы (при этом формы на -ее и -ей сливаются воедино). Отдельно фигурируют и суперлативы.

Последовательное системное разделение грамматических форм по частям речи в зависимости от синтаксической функции было бы слишком трудоемким. Здесь был принят неформальный принцип: если есть основания предполагать, что синтаксические функции форм отягощены еще и синтаксическими или семантическими различиями, они должны быть разведены в статистических таблицах. Сохранена статистическая информация о формах числа многих существительных (око и очи, ухо и уши, вода и воды, брат и братья и т.п.), о формах императива многих глаголов (не беспокойтесь, ступай и т.п.). Часто различаются субстантивированные прилагательные (артельный, блаженный, ближний, больной, большие, былое, дворовый, знакомый, рабочий и т.п.) и омонимичные исходные прилагательные. Выделены и многие адъективированные причастия, например: благоухающий, верующий, воинствующий, волнующий, заплывший, исхудавший, минувший, обрусевший и т.п. В максимальной степени грамматическая информация дана для глагола быть, где указана совокуп­ная частота форм прошедшего времени (представлена формой был) и форм будущего времени (представлена формой будет).

Только что упомянутый неформальный принцип распространяется и на случаи семантического расщепления, и на случаи объединения последовательностей слов в особые единицы. Так разведены а (союз), а (междометия), а (вопросительное слово) и а (буква); батюшка (отец), батюшка (обращение), батюшка (священник); благо (сущ.) и благо (союз); брак (супружество) и брак (дефект) и т.п. Сохранена статистическая информация о словах вроде акт (церемония), банк (игра),, брат (обращение), будет (достаточно), и т.п.

Довольно часто в статистических таблицах даются сочетания слов, например: так и быть, была не была, как есть, так и есть, что ни есть, все равно, прежде всего, вещественные доказательства, порядок вещей, в порядке вещей, взад да вперед, взад и вперед, на взгляд, на первый взгляд, по первому взгляду, с первого взгляда, быль молодцу не укор. Отдельно показаны все имена собственные, в том числе имена с отчествами.

Любая строчка в статистических таблицах настоящего Словаря будем называть лексемой. Следовательно, порядок вещей, в порядке вещей, Аглая, Аглая Ивановна, Адрианополь (город), "Адрианополь" (гостиница), благо (сущ.), благо (союз) - все это лексемы. Те лексемы, чьи частоты не входят в частоту других лексем, будем называть леммами. Лексемы, не являющиеся леммами, печатаются в таблицах с отступом. Обращаясь, например, к таблице 1.1, мы найдем там:

 

 

 

 

 

 

ВСЕГО

Белл.

Крит.

Письма

Бог

1721

1079

176

466

Бог в помочь

1

1

 

 

Бог ведает

2

1

1

 

Бог весть

1

1

 

 

Бог видит

24

13

11

 

Дай Бог

151

31

120

 

с Богом

22

17

2

3

Бог знает

319

207

34

78

Бог с

66

45

9

12

"Бог"

2

2

 

 

боги

37

26

9

2

бози

1

1

 

 

ради Бога

464

138

2

324

слава Богу

139

90

11

38

 

Частоты сочетания Бог знает уже учтены в строке Бог, но в этой последней не учтены частоты лемм "Бог", боги, ради Бога, слава Богу. Если читатель не согласится с такой лемматизацией и захочет получить частоту слова бог в рамках лексикографической традиции, он сможет суммировать частоты этих четырех лемм и получит строку

бог                                             2363           1333     200    830 .

Если же, напротив, читатель захочет повысить статус словосочетания Бог знает, превратив его в отдельную лемму, ему надо вычесть частоту словосочетания из частоты леммы, получая для леммы Бог строку

Бог                                             1402   872    142      388 .

Таким образом, различие лексем (вообще) и лемм (в частности) не принципиально - при любом решении статистическая информация сохранена.

3. Типы статистических таблиц, представленных в Словаре

Преобладающий тип статистической таблицы (примером может служить таб. 1.1) содержит текстовую часть, включающую лингвистические объекты: графические слова, лексемы (как в таб.1.1), только леммы (как в таб. 1.2, 1.3) и цифровую часть, состоящую из одного или нескольких столбцов. Как правило, строки лемм в таблице упорядочены по обычному алфавитному принципу.

Исключениями являются обратные частотные словари, в которых единицы упорядочены по алфавиту, как если бы они читались справа налево. Примером может служить фрагмент таб. 1.8.

 

52

ба

2

б-ба

111

баба

1

бой-баба

24

слаба

36

раба

4

штаба

4

деба

153

хлеба

57

неба

7

погреба

4

феба

37

служба

30

дружба

5

тяжба

13

изба

2

биба

1

скриба

5

пошиба

19

лба

6

столба

1

памба

1

дифирамба

7

бомба

4

де-комба

1

апломба

2

колумба

1

тумба

 

В существующих частотных словарях до половины общего объема приходится на ранговые словари, т.е. на таблицы, в которых единицы расположены в порядке уменьшения их частоты (f) и соответствующего возрастания их ранга (r[A3] ).

В описываемом Словаре ранговые словари занимают очень скромное место - в электронной части Словаря даются четыре списка по 1000 самых частых графических слов для всего корпуса текстов, для совокупности художественных текстов, для публицистики и для писем; аналогичным образом включены таблицы 500 лемм. Такое решение объясняется просто: ранговыми словарями практически нельзя пользоваться. В них можно ответить на такие экзотические вопросы, как "какие именно слова имеют частоту 15?" или "какое слово занимает 305-е место в ранговом словаре?", но нельзя найти конкретные слова средней и низкой частоты. Если же читателю все-таки понадобится перейти от частоты к соответствующему рангу, это можно будет сделать при помощи таблицы, умещающейся на одной-двух страницах (см. например таб. 1.10)

Все примеры таблиц, представленные до сих пор, содержат абсолютные частоты лингвистических единиц. Их преимущество - представление полного объема информации, их недостаток - сложность непосредственного сравнения данных, входящих в разные столбцы. Как правило, столбцы отражают данные разных подкорпусов, каждый из которых не совпадает по объему с другими. Например, в таб. 1.1 общий объем критики и писем примерно совпадает, но художественная литература превышает их в три с половиной раза. Конечно, рассматривая строки с небольшой совокупной частотой, читатель мысленно учтет это обстоятельство и сделает правильный вывод. Вот три примера из таб.1.1:

 

 

Всего

худ.лит.

критика

письма

бритва

36

23

12

1

брошюра

25

3

13

9

брюнетка

15

14

 

1.

 

Без каких бы то ни было сложных вычислений читателю ясно, что слово бритва сосредоточено в критике, что слово брошюра крайне редко появляется в художественной литературе, а слово брюнетка именно в этом жанре и сосредоточено. Если же совокупная частота велика, то требуется проводить некоторые арифметические операции, что без калькулятора делать трудно.

Обойти данную трудность можно при помощи таблиц относительных частот, где частоты приведены к общему знаменателю (скажем, на 100 тыс. словоупотреблений). Таковы таблицы 1.5, 1.6, 2.6, 2.15, 2.17, 2.19, 2.21, 2.23, 2.25, 3.6 и 4.6.

Представление результатов в виде относительных частот имеет одно ограничение - оно бессмысленно в приложении к редким явлениям. В связи с этим в Словарь вводится еще и специальная мера оценки статистической значимости реальных частот:

S = (f-m-1)/√m ,

где f - наблюдаемая частота данного события,

а      m - математическое ожидание этого события, подсчитанное на основе какой-то нулевой гипотезы.

 

Эта величина находит в словаре самое широкое применение. Важно, что при этом в круг анализа вовлекаются также пускай и редкие, но значимые события, иногда даже двукратное появление слова или словосочетания. Предположим, нам надо оценить статистическую значимость слова деньги в подкорпусе "Письма". Частота слова деньги в текстах Достоевского равна 3411, в письмах оно встретилось 1499 раз. Предположим, что слово деньги не зависит от специфики подкорпуса, тогда, зная долю писем во всем корпусе (0,1833), мы можем подсчитать математическое ожидание появления этого слова в письмах:

3411 x 0,1833 = 625,

подставляя 1499 и 625 в нашу формулу, получаем S=34 (величину исключительно высокую), отсюда вывод - слово деньги очень характерно для писем Достоевского. Будем называть такие единицы лексическими маркерами подкорпусов . Соответствующие списки целиком входят в Словарь. Примером могут служить таб. 1.12-1.14, 2.26-2.40, 4.14, 4.16-4.21.

Формула оценки статистической значимости может быть использована для выявления текстуальных связей слов. Весь текст механическим образом членится на фрагменты равной длины (скажем, 40 слов), а затем подсчитывается число фрагментов, в которых одновременно встретились слово x и слово y. Если реальная частота совместной встречаемости статистически значима, делается вывод о текстуальной связи двух слов. Таким образом, в Словаре находит отражение еще один лингвистический объект - текстуальные связи слов, см. 2.42, 3.15 и 4.15.

Так, редкое слово агония встретилось в жанре критики всего 4 раза, но показало текстуальные связи с пятью словами: актер (S=18), естественный (S=6), зритель (S=10), правда (сущ.) (S=2), умирать (S=6). Из этих пяти связей одна (со словом умирать) может считаться общезначимой для русского языка, остальные - обусловлены конкретным текстом, где ведется речь об изображении агонии на сцене.

Более сбалансированное соотношение общезначимых и текстуальных связей обнаружим в жанре "Критика и публицистика" у слова Гоголь.

 

Гоголь=47

F

S

 

2

11

Виардо

2

2

выражаться

2

3

где-то

9

2

господин

2

4

Диккенс

2

3

драма

3

7

жанр

3

18

"Женитьба"

3

4

исчезнуть

3

7

комедия

2

2

комическ

2

3

Лермонтов

5

2

литература

3

13

"Мертвые души"

4

2

начинать

2

11

непереводимый

5

12

Островский

3

7

перевести

5

16

перевод

3

2

писатель

2

5

Писемский

2

4

по-французски

4

4

повесть

2

4

Поприщин

2

3

портрет

2

3

правый

4

4

произведение

7

6

Пушкин

2

7

Репин

3

4

сверх того

2

2

следовать

4

5

смех

2

2

сочинение

7

2

тогда

6

11

Тургенев

4

3

французский

7

2

хотя

3

2

художественный

4

2

что-то

2

2

Щедрин

5

4

язык

 

Здесь мы обнаруживаем текстуальные связи, которые могли бы ожидать от имени Гоголь, даже не проводя специальных исследований, с другой же стороны, встречаемся со связями, обусловленными конкретным текстом, в котором речь идет о непереводимости Гоголя (перевод, непереводимый, перевести, по-французски, французский, Виардо, Тургенев). Подробнее об анализе текстуальных связей см. ниже.

4. Перспективы использования Словаря

Уже из предыдущего изложения должно быть ясно, что основной путь получения все более детальной информации заключается в последовательной дифференциации совокупного корпуса текстов Достоевского. В таблицах Словаря более или менее полно нашли отражение разные уровни получающейся иерархии подкорпусов. На каждом таком уровне можно исследовать статистически значимые расхождения между подкорпусами в попытке выявить характерные черты каждого из подкорпусов и определить их взаимоотношения. Попробуем самым кратким образом показать возможности этого пути.

Обратимся для начала к характеристике основных жанров при помощи таблиц 1.1, 1.5-1.14. Некоторые из этих таблиц (например, таб. 1.10) могут показаться совершенно эзотерическими, сама интерпретация их потребовала бы слишком много места для нашего "Введения". Но даже такие таблицы могут дать полезные результаты. Например, сравнение таблиц 3.10 и 4.10 ясно показывает, что при равном объеме корпус критики и корпус писем сильно расходятся по числу лемм: 21602 разные леммы в критике и публицистике, и 17522 - в письмах. Еще больше расхождения в числе разных графических слов (соответственно 59446 и 43531[A4] 

Обращение к ранговым словарям (таб. 2.9, 3.9, 4.9) кажется и убедительным, и наглядным. Действительно, слово человек занимает 78-е место в художественных произведениях и лишь 194-е в письмах. Однако следует помнить, что небольшие изменения в частоте могут сильно сказываться на месте слова в ранговом списке. Обращение к таб. 1.6 покажет следующие цифры относительной частоты (на 100000 слов) - 219 в художественной литературе, 196 в критике и 109 в письмах. Противопоставленность писем двум остальным жанрам (в отношении слова человек) можно считать доказанным.

Для взвешенного суждения о противопоставлении подкорпусов должны использоваться таблицы всех трех типов: таблицы относительных частот, ранговые словари и таблицы лексических маркеров. При этом надо учитывать, что отдельные слова и целые классы слов обладают разной дифференцирующей силой.

Таб. 1.5 особенно интересна при поиске межжанровых различий.

Художественные произведения характеризуются повышением доли глаголов (особенно глаголов на -ся), деадъективных наречий, местоимений-существительных, местоимений-наречий, местоимений 3 лица, междометий, слов да и нет, частиц при местоимениях (типа какой-то, какой-нибудь). Среди аффиксов отметим уменьшительные суффиксы, особенно слов женского рода (-к-а, очк-а, ушк-а), суффикс прилагательных -ив-ый, глагольные суффиксы -ну-ть и ива-ть, продуктивные префиксы воз-, за-, по-, под-, раз- и у-. Ярких отрицательных маркеров у этого жанра нет.

Жанр критики и публицистики очень выразительно характеризуется грамматическими показателями. Яркими положительными маркерами выступают имена нарицательные (особенно среднего рода), прилагательные, суперлативы, местоимения-прилагательные, союзы, вводные слова. Два последних класса указывают на синтаксическую сложность. В отличие от художественной литературы с ее преобладанием глаголов данный жанр носит именной характер. Глаголы оказываются отрицательными маркерами. Тяга к обобщениям и универсальности косвенно проявляется в деперсонализации, местоимения первого и второго лица становятся отрицательными маркерами жанра. Среди аффиксов характерны суффиксы абстрактных существительных: -ость, -ство, -ние, -тие; префиксы без- и не-; сложные слова с первыми компонентами едино-, обще-, противо-, само-. Очень характерны заимствованные суффиксы: -аж, -изм, -ент, -мент, -ика, -ема, -ура, -ия.

Положительных маркеров жанра писем очень немного, это - числительные, имена собственные, местоимения 1 и 2 лица, модальные слова. Яркие отрицательные маркеры - возвратные местоимения и местоимения 3 лица. Обращение к таблице 1.14 дополнит эту общую характеристику жанра писем еще одной любопытной деталью: среди важнейших лексических маркеров мы находим будет, если, надеяться, во всяком случае.[авось, будущий, в случае, дай Бог, ежели, кабы, мочь, на всякий случай, наверно].

Любопытны межжанровые различия в подаче времени.

Письма обращены в будущее, а значит, максимально усиливают условность и неопределенность. Публицистика с ее всеобщностью опирается предпочтительно на формы настоящего времени - среди лексических маркеров находим и слово есть. Художественное повествование преимущественно выбирает прошедшее время (лексический маркер - был).

Художественные произведения (1.12) показывают такие лексические маркеры: вдруг, давеча, опять, было, быстро, минута, мгновение, в эту минуту, снова, тотчас. Здесь перед нами выступает малое время. Среди лексических маркеров писем (1.14) находим год, месяц ( и названия месяцев), неделя (и дни недели), день, лето - одним словом, перед нами среднее время. В критике и публицистике (1.13) мы находим большое время: всё, новый, настоящий, исторический, век, современный.

Наши три жанра могут характеризоваться некоторыми общими чертами модальности, которые откроются перед нами через лексические маркеры. В письмах это обобщенная просьба - просьба, просить, ради Бога; в публицистике настойчивая категоричность, выстраиваемая как будто бы на силлогизмах - лишь, именно, факт, явление, убеждение, вера, принцип, смысл, значение, признавать, формула; в художественной литературе - сравнение (будто, как, как будто, как бы, казалось, точно).

Лексические маркеры самым явным образом демонстрируют нам структурные особенности текстов данного жанра. Для художественной литературы характерно массовое введение прямой речи и сопровождающих ее ремарок, отсюда обилие глаголов говорения - проговорить, вскричать, говорить, заметить, спросить, крикнуть, сказать, воскликнуть, вскрикнуть, закричать, прибавить, пробормотать, продолжать. прошептать, кричать, подхватить, рассказать, рассказывать и т.д. Своя структура хорошо видна и в письмах - многоуважаемый, голубчик, любезнейший, милый открывают письмо; закрывают его до свидания, обнимать,принять уверения, P.S. благословлять. Впрочем, в критике и публицистике нет никакого намека на структуру текста, которая проявилась бы в лексических маркерах.

Конечно, лексические маркеры дают исследователю максимум информации об основных темах жанра. Вот характерные группы маркеров жанра писем:

1) письмо, писать, написать, получить, выслать, прислать, адрес, почта, послать, посылать;

2) роман, лист, журнал, редакция, "Русский вестник", "Заря", напечатать, корректура, работа, печатать, издание, печатный лист, повесть, статья, работать;

3) рубль, деньги, долги, серебро, заплатить, контракт, счет (деньги), уплата;

4) здоровье, здоров, лечение;

5) Петербург, Старая Русса, Эмс, Дрезден, Семипалатинск, здесь, выехать, ехать, Женева;

6) Лиля, Федя.

Очень четко членится на темы жанр критики и публицистики

1) мы, наш, русский, Европа, Россия, европейский, славянин, турок, цивилизация, еврей, европеец, славянский, человечество, католический;

2) народ, народный, идея, общество, нация, идеал, развитие, великий, высший, почва, вопрос, начало (принцип), национальный, общественный, принцип, смысл, интеллигентный, Петр, значение, мир, реформа, сознание, христианство, язык;

3) Франция, война, политический, большинство, Германия, правительство, маршал, республика, Восточный вопрос, папа (римский), партия, страна, армия, Константинополь, Англия, Австрия, Мак-Магон, республиканец, Бисмарк, войско, политика;

4) литература, статья, автор, Пушкин, тип, поэт, "Современник", -бов, интерес, читатель;

5) искусство, художник;

6) обвинение.

Второй уровень дифференциации - хронологические подкорпусы внутри основных жанров (таб. 2.1, 3.1, 4.1). Обратимся для иллюстрации к сжатому варианту таблицы 2.6, в котором третий и четвертый столбцы исходной таблицы слиты в один столбец, отражающий третий период творчества Достоевского.[Знаками плюс и минус отмечены лексические маркеры Достоевского, взятые из таб. 2.43 и 2.44].

Распределение некоторых частых лексем художественной литературы по периодам творчества

Относительная частота на 100 000 графических слов

 

1844-49

1856-65

1866-80

 

-ка

19

13

10

-

167

130

211

++

-то

234

274

233

+

а (союз)

654

850

924

 

али

3

9

16

 

арестант

...

128

1

 

ах

64

48

47

 

барин

23

19

8

-

бедный

77

48

28

+

без

105

132

131

 

беспокойство

13

15

12

+

бледный

35

22

17

 

Бог

65

44

63

--

Бог знает

22

10

10

 

Боже

57

38

17

+

более

127

95

88

+

больше

41

81

68

 

бояться

58

56

60

+

будто

225

152

75

+

бумага

31

12

14

-

бутылка

1

9

6

 

бы

378

400

559

++

бывало

33

33

9

 

было (част.)

60

45

53

 

быть

1504

1534

1337

 

будет

242

230

184

 

был

1057

1072

929

+

есть

114

102

109

 

в

2233

2331

2465

 

вагон

 

4

7

 

вдруг

173

155

352

++

ведь

157

249

213

++

великий

7

15

33

 

вера

2

6

13

 

верить

23

45

55

+

верно (вводн.)

26

23

8

 

веровать

 

2

17

+

весь

1166

1254

1194

++

весьма

64

11

39

 

взглянуть

43

34

17

-

видеть

183

132

158

 

вино

6

20

12

 

возле

20

7

2

-

волнение

39

25

20

+

вообще

11

43

22

 

вопрос

22

36

72

+

восторг

36

28

20

+

вот

359

272

307

++

вроде

2

13

12

 

все-таки

19

62

61

 

вскрикнуть

21

17

12

+

вскричать

7

66

48

++

вчера

37

27

50

++

вы

1150

857

1121

++

высший

5

23

33

+

газета

2

8

8

 

где

73

72

68

--

главное (вводн.)

6

29

35

+

глаза

199

121

120

-

глубокий

26

10

11

 

говорить

401

384

342

 

голова

148

93

87

--

гораздо

8

13

19

 

горе

36

13

9

 

гореть

15

7

7

 

грудь

48

16

16

-

грустно

24

5

7

 

да (союз)

449

384

333

 

да (утверждение)

113

104

87

 

давеча

1

29

49

++

давешний

...

4

11

++

даже

183

373

398

++

дама

35

30

31

 

дверь

61

45

73

 

девочка

19

18

16

 

действительно

41

55

59

++

делать

75

90

46

-

деньги

60

91

105

+

дескать

78

14

19

+

дети

28

28

38

 

диван

11

14

27

 

дитя

23

15

3

 

для

146

200

184

 

до

185

250

215

+

до того, что

14

29

22

 

добрый

68

47

28

-

довольно

46

45

62

+

досада

19

10

11

 

дочь

11

43

24

-

дрожать

50

19

21

+

дух

45

23

22

 

едва

44

15

13

-

ее

209

171

157

 

если

156

221

254

++

еще

293

381

375

++

же

673

743

747

++

женщина

32

29

57

-

забыть

30

41

44

+

завопить

...

1

8

+

задрожать

...

4

6

 

закричать

60

33

19

+

затем

23

13

32

+

зачем

54

41

53

 

здесь

96

73

85

 

земля

18

23

38

-

злой

24

24

13

+

значит

2

28

24

 

и

4068

4462

4698

++

ибо

22

10

42

+

идея

18

20

41

++

из

279

389

323

 

или

125

136

165

-

именно

47

86

97

++

иметь

48

72

92

 

к

572

584

612

+

как

1049

881

877

++

как будто

215

143

53

 

как бы

21

25

121

 

какой-то

184

159

107

++

карета

29

12

8

 

конец

22

24

42

 

конечно

49

60

92

++

который

385

326

295

--

краснеть

15

4

7

 

красота

9

9

10

 

кредитка

 

...

5

+

крикнуть

6

9

39

 

кричать

14

48

37

+

кровать

29

2

10

 

кроме

17

36

42

 

кругом

47

19

21

+

лестница

43

14

27

+

лишь

13

3

79

++

маленький

43

38

38

 

может (=вводн.)

7

17

34

 

может быть (вводн.)

97

122

130

 

мочь

280

281

350

 

музыка

18

6

4

-

мы

336

422

292

-

мысль

57

50

100

+

надо

11

112

124

+

наконец

243

135

106

++

напротив

17

25

37

+

не

2123

2197

2362

+

нежный

13

10

4

-

некоторый

37

61

63

+

неужели

19

39

30

+

неужто

 

1

12

+

но

619

796

866

++

ну

289

248

184

++

нужно

98

21

12

-

о! (междометие)

30

31

80

 

образ

4

3

4

-

образом

47

27

16

-

однако

29

31

64

+

около

17

11

18

-

он

2096

2163

2265

+

они

353

487

484

-

оно (местоимение)

74

47

39

 

оно (частица)

42

9

6

 

от

405

340

322

 

ответить

8

11

37

 

отвечать

100

115

42

--

отчего

47

22

8

-

очень

124

210

225

+

перед

94

147

44

-

передать

6

7

25

+

пистолет

...

3

8

 

плакать

48

40

31

 

по

349

356

358

--

подле

11

21

24

+

пока

5

7

33

 

покамест

22

17

7

+

покраснеть

28

12

14

+

полно(те)

41

12

8

-

получить

16

18

29

 

поминутно

19

12

9

+

постель

47

13

16

 

потом

164

101

100

 

потому

37

82

79

+

потому что

93

82

93

 

почему

27

47

62

++

почти

92

107

137

++

правда (сущ.)

24

39

54

 

право (вводн.)

39

18

15

 

право (сущ.)

11

19

26

 

пред

11

3

73

+

про

94

109

122

++

пробормотать

5

6

23

++

проговорить

48

48

67

+

продолжать

39

60

55

-

произнести

6

10

25

-

просить

52

53

52

 

прощай(-те)

42

19

15

 

пусть

17

29

39

+

пьяный

9

29

28

+

работа

24

52

8

 

работать

16

16

6

 

рад

35

30

27

+

ради Бога

25

6

4

 

разумеется

25

83

43

++

револьвер

 

 

10

+

родной

47

13

10

 

Россия

2

8

19

 

рука

242

161

187

-

самый

180

251

267

++

свой

657

537

420

-

сей

29

17

43

+

сейчас

35

52

96

++

сердце

206

96

82

+

серебро

14

9

1

 

сказать

402

333

295

--

слеза

102

45

29

 

слишком

32

47

71

++

словно

52

5

4

-

смущение

19

5

7

 

столь

 

2

20

 

страдание

5

11

13

 

стыд

25

8

12

+

счастливый

34

18

18

 

счастье

45

35

19

 

так

694

570

548

++

таким образом

32

13

12

 

такой

396

339

306

++

темный

24

8

10

-

теперь

335

312

309

++

то (союз)

159

167

247

 

только

326

377

398

+

тоска

54

25

11

+

тот

538

651

722

 

точно

30

60

65

 

тут

186

133

190

++

тяжело

27

25

9

 

убеждение

4

9

16

+

убить

22

19

59

+

ужас

32

19

16

 

ужасно

21

44

69

+

уже

224

240

332

++

ум

22

31

51

+

усмехнуться

4

2

19

 

факт

2

13

25

++

хороший

51

40

34

-

хорошо

86

63

45

 

человек

262

222

209

+

человечество

2

10

12

+

чем

38

66

70

 

через

51

63

50

-

черный

28

13

14

-

черт

19

20

37

 

чрез

3

4

21

 

чрезвычайно

22

54

41

++

чрезвычайный

2

13

29

++

что (местоимение )

697

659

748

 

чтобы

176

225

231

 

чувствовать

78

40

29

 

этот

1098

1577

571

++

 

 

Эволюция лексики Достоевского практически не была объектом лингвистического анализа, поэтому публикуемые таблицы могут дать начало самым разным исследованиям. Однако необходима сугубая осторожность и неспешность в интерпретации материала. Ясно, что тривиальным окажется случай влияния отдельного текста, в котором данное слово обладает крайне высокой частотой. Примером может служить слово арестант из "Записок из мертвого дома". Особенно характерно такое поведение для имен нарицательных, обозначающих героев (бабушка в "Неточке Незвановой" и в "Игроке", дядя и дядюшка в "Дядюшкином сне", наш герой в "Двойнике", князь во многих текстах, жена, муж и т.п.). Большую приуроченность к конкретным текстам обнаруживают и многие другие существительные: не только музыка в "Неточке Незвановой". но и топор, шинель и т.п.

На противоположном полюсе оказываются слова, более или менее равномерно распределенные по трем периодам - прежде всего слова с относительной частотой более, чем 1 на тысячу: весь, время, другой, думать, за, к, какой, минута, ни, об, она, первый, по, раз, с, сам, слово, теперь, хотеть и т.п. В следующем частотном интервале (более 1 на 10000) очень много служебных слов, местоименных наречий, модальных слов - вероятно, вовсе, всякий, где, друг друга, завтра, коли, нельзя, непременно, никогда, потому что; очень широко представлены глаголы: бояться, бросить, встретить, глядеть, желать, идти, лежать, посмотреть, сидеть, случиться, слушать, слышать. Уникален глагол просить, вообще не показывающий расхождений по периодам. Не вызовет удивления стабильность частот слов полный, последний, взгляд, год, жизнь, стол, в некоторых других случаях исследователь начнет искать связь с индивидуальной авторской семантикой; таковы существительные - беспокойство, дама, девочка, дорога, красота, недоумение, честь; среди прилагательных отметим маленький и глупый.

Подавляющее большинство частых слов обнаруживает расхождения между периодами. В некоторых случаях аномальное положение второго периода (резкое повышение или понижение частоты) может объясняться влиянием жанровой композиции этого периода (бессюжетность "Записок из мертвого дома" и "Зимних заметок о летних впечатлениях"). Так можно объяснить увеличение частоты у мы; большую употребительность слова ведь и наоборот относительное уменьшение таких маркеров сюжетного повествования, как вы, здесь, тут, вдруг, вот, видеть, сесть, стоять, спать, лестница, квартира, комната, окно.

Однако в большинстве случаев тенденция изменения частот монотонна: либо последовательный рост, либо сокращение. Например, частота слова который сокращается, употребительность многих союзов (а, но, однако, или, али, хоть, хотя, все-таки, если, чтобы) нарастает (суммарная относительная частота 1908 - 2540 - 2745).

Изредка изменения частоты отражают реальные изменения в обществе. Ясно, что обозначения уходящих реалий (карета, писарь, серебро) будут сокращать частоту, обозначения новых - ее увеличивать (вагон, газета, кредитка, револьвер, застрелиться). В других случаях эти изменения связаны со сменой топик писателя (бумага, бутылка, деньги).

На протяжении трех периодов внутри семантических групп постоянно разыгрывается соперничество синонимов. Доля отдельного слова в группе - яркое тому свидетельство: возле (61%-26%-8%) и подле (39%-74%-92%); отчего (63%-32%-11%) и почему (37%-68%-89%); нужно (85%-15%-15%) и надо (15%-85%-85%); однако же (86%-74%-45%) и однако (14%-26%-55%); покамест (82%-71%-18%) и пока (18%-29%-82%), отвечать (93%-91%-47%) и ответить (7%-9%-53%). Вот как выглядит доля пяти соперников в группе слов сравнения: как будто (68%-59%-21%), словно (17%-2%-2%), точно (9%-25%-26%), как бы (5%-10%-47%), вроде (1%-5%-5%). По-видимому, совпадает с общеязыковой тенденцией уменьшение частоты четырех вводных слов: право 41 - 21 - 16, знать 13 - 3 - 1, знаете ли 11 - 2 - 2, верно 26 - 25 - 8. На этом фоне удивительным кажется некоторый сдвиг к архаике в третьем периоде - в паре перед и пред доля второго слова составляет 10%-2%-63%, в паре через и чрез такие цифры - 6%-6%-29%; странным кажется и рост относительной частоты у слов: сей 24 - 17 - 47, столь 0 - 2 - 20 и у междометия о! 30 - 31 - 80 .

Иногда наблюдается рост целой семантической группы. Показательна в этом отношении группа слов обозначения степени (весьма, вполне, высший, гораздо, даже, до того, что, едва, именно, крайне, несколько, особенно, очень, по крайней мере, почти, слишком, совершенно, совсем, в высшей степени, только, ужасно, чуть (ли) не, чрезвычайно, чрезвычайный). Их совокупная относительная частота увеличилась в полтора раза (1344 - 1837 - 2066). Может меняться и полнота разработки каких-то фрагментов текста. С течением времени все реже появляются слова общей положительной оценки (добрый, хороший, хорошо 204 - 148 - 100). Ко второму периоду резко сокращается частота слов, описывающих портрет персонажа: глаза, голова, губы, рот, зубы, щеки, грудь, темный, черный (общая частота 533 - 299 - 297).

Особенно динамично протекает конкуренция в группах слов, характерных для ремарок - слов говорения (и шире - производства звуков), слов - обозначений эмоций. Вот некоторые группы с их относительными частотами по трем периодам: говорить, сказать, закричать, крик, вскрикнуть, шептать 922-788-695; вскричать, кричать, обращаться 47 - 150 - 103; вопрос, проговорить, крикнуть, обратиться, воскликнуть, произнести, пробормотать, сообщить, высказать, заявить, прокричать, восклицать, завопить 106 - 167 - 362; сердце, чувство, чувствовать, впечатление, волнение 419 - 222 - 195; восторг, счастливый, счастье 127 - 84 - 58; довольный, наслаждение, рад 55 - 76 - 49; слезы, плакать, тоска, дрожать, бледный, страх, ужас, горе, задрожать, тяжело, отчаяние, грустно, злой, досада, замирать, рыдание 554 - 299 - 228; покраснеть, краснеть, стыд, смущение 88 - 29 - 40; страдание, ненавидеть, гнев, злобно 16 - 38 - 46.

Складывается впечатление, что этот участок лексики, сформировавшись в первый период, затем частично обновлялся при стабильности слов говорения (1075 - 1105 - 1160) и общем сокращении совокупной частоты группы эмоций (1259 - 748 - 616).

Заметим, что основная лексическая граница проходит между первым и вторым периодами. На стыке же второго и третьего периода заметна лишь та семантическая группа, которая связана с переходом к "идейным" романам: мысль, верить, ум, ибо, идея, великий, Россия, веровать, убеждение, вера, человечество (166 - 214 - 404).

В Словаре даются дальнейшие уровни дифференциации корпуса: подкорпусы, соответствующие периодам творчества, членятся на отдельные произведения. Используются и другие принципы классификации, например, группировка писем по адресатам.

В художественной литературе естественным оказывается выделение микрожанров: авторская речь, речь персонажей, ремарки, письма и т.п. Подробнее см. в [Шайкевич 1995, 1996]. В меньшей мере микрожанры могут быть выделены в публицистике (см. 2.14, 2.15, 3.14).

Таблицы микрожанров откроют широкие возможности изучения как самих этих типов текстов, так и стилистической характеристики лексем. В качестве примера рассмотрим микрожанр ремарок. Косвенным свидетельством естественности выделенного микрожанра служит легкость складывания лексических маркеров в некоторую цельную картину. В микрожанре ремарок такая естественность очевидна: ни в одном другом микрожанре группы маркеров не выделяются столь явственно, ни в одном другом - не выступает столь явно функциональная нагрузка каждой группы.

Прежде всего, в ремарках должен идентифицироваться говорящий, иногда есть указание и на адресата (характерный маркер - предлог к (886 - 17[A5] ) Кроме очевидных местоимений - он, она, я и т.п. писатель использует для этой цели либо фамилию (Мармеладов, Раскольников, Разумихин, Свидригайлов, Лебедев и т.п.), либо имя и отчество (Наталья Дмитриевна, Мария Александровна, Степан Трофимович и т.п.), либо только имя (Настенька, Сашенька, Фома, Алеша, Нелли, Наташа, Соня, Аглая, Ипполит, Коля, Грушенька, Илюша, Лиза, Митя и т.п.). Реже наблюдается альтернативное называние - Порфирий и Порфирий Петрович, Авдотья Романовна и Дуня, Лужин и Петр Петрович, Ганя и Гаврила Ардалионович, Николай Всеволодович и Ставрогин, Иван и Иван Федорович, Миусов и Петр Александрович, Катя и Катерина Ивановна, Лиза и Lise.

Довольно обычна идентификация персонажей при помощи имен нарицательных. Чаще всего мы наблюдаем здесь любимый Достоевским титул князь, обычны также воинские звания генерал, майор, капитан, штабс-капитан, поручик. Указание на должность, общественное положение - также обычные способы идентификации: крупер, мещанин, студентка, председатель, старец. Наконец, типично указание на пол и возраст персонажей: парень, старичок, юноша и т.п. Конечно, и эти обозначения совместимы с именами собственными: Николай Сергеич и старик, Анна Андреевна и старушка, Пульхерия Александровна и бедная женщина, Иван Федорович и генерал, Лизавета Прокофьевна и генеральша, Кириллов и инженер, Макар Иванович и старик, Федор Павлович и старик, Николай Парфенович и следователь, Ипполит Кириллович и прокурор. Особого упоминания требует прием предварительного называния персонажа именем нарицательным, прежде чем будет введено его имя: толстяк, молодой человек, боксер, чиновник, черномазый.

В какой-то мере в ремарках отражено и пространство, в котором находится говорящий, окружающие его предметы обстановки: комната (116 - 4), передняя (13 - 3), кабинет (9 - 2), порог (14 - 3), дверь (84 - 3), стол (95 - 7), стул (85 - 11), кресло (52 - 9), диван (54 - 7).

Речевое взаимодействие персонажей, как правило, предполагает и визуальный контакт смотреть (385 - 19), глядеть (357 - 14), повернуться, обернуться и т.п. (136 - 16).

Центральный элемент ремарки - verbum dicendi, вводящий прямую речь, или verbum cogitandi, вводящий внутреннюю речь. В русском языке это, главным образом, глагол совершенного вида, ср. сказать (1127 - 53) и говорить (430 - 6), проговорить (889 - 116) и заговорить (84 - 13), заметить (393 - 33) и замечать (40 - 5), воскликнуть (299 - 68) и восклицать (99 - 33), вскричать (320 - 60), произнести (216 - 48), промолвить (50 - 25), провозгласить (25 - 12), заявить ( 22 - 5), подумать (331 - 40) и думать (171 - 4) (тж. про себя 169 - 34). Некоторые из этих глаголов включают реплики героев в диалогическую цепь: спросить (705 - 80) и спрашивать (53 - 5), осведомиться (37 - 17), ответить (313 - 57) и отвечать (574 - 68) (3), подхватить (221 - 56) и подхватывать (11 - 9), отозваться (68 - 28), возразить (31 - 17) и возражать (11 - 4), подтвердить (58 - 21) и подтверждать (11 - 5), перебить (172 - -48) и перебивать (17 - 9), прервать (99 - 29) и прерывать (26 - 11).

Ту же роль играют и некоторые другие глаголы, описывающие весьма характерную для Достоевского ситуацию "коллективного говорения": ввернуть (25 - 15), вставить (12 - 8), ввязаться (22 - 13) включить (6 - 5), подсказать (11 - 7).

Вплетенность реплик в структуру дискурса манифестируется такими словами, как вдруг (1364 - 71), внезапно (41 - 7), тотчас (136 - 4), тотчас же (105 - 5), неожиданно (49 - 13), опять (505 - 32), снова (74 - 15), в свою очередь (16 - 5), брякнуть (17 - 10).

К внутренней структуре монологов отсылают нас некоторые фазовые глаголы - начать (409 - 35), приступать (7 - 4), продолжать (539 - 70), прибавить (483 - 71), прибавлять (25 - 10), повторить (108 - 32), повторять (98 - 21), заключить (112 - 27). Сходную функцию выполняют и некоторые наречия: всё (111 - 6), всё еще (47 - 7), поминутно (20 - 3), наконец (274 - 14). Частица было (198 - 23) указывает на колебания говорящего в своей речи или в своих действиях, ту же функцию выполняет глагол осечься (15 - 9).

Перечисленные выше глаголы говорения (более 6000 словоупотреблений) обозначают передачу информации без каких бы то ни было дополнительных семантических нюансов. Наряду с ними в ремарках Достоевского широко представлены самые разнообразные лексические средства, обозначающие различные особенности говорения. В этом фонетическом пространстве можно выделить несколько измерений, в выражении соответствующих смыслов большую роль играют не только глаголы, но также существительные, прилагательные и наречия. Синтаксические различия между этими частями речи оказываются несущественными в семантике ремарок: всегда есть возможности разного грамматического выражения, причем роль грамматической "подпорки" часто принимает на себя слово голос (557 - 73), (тж. голосок (35 - 20)), гипероним рассматриваемой семантической области.

Первое измерение связано с различиями по громкости:

(вс)крикнуть, за/про/кричать (1161 - 102)

 

громко/ий/че (112 - 25)

вполголоса (46 - 24)

вслух (20 - 4)

тихо/ий (159 - 24)

за/про/визжать, взвизгнуть (49 - 16)

за/про/шептать, шепнуть (330 - 65)

за/вз/про/реветь (46 - 25)

шепот (94 - 30)

(за)вопить (120 - 9)

полушепотом (22 - 15)

возвысить (16 - 11)

понизить (12 - 11)

 

Второе измерение ассоциировано с темпом речи (или мысли) персонажа:

(за)торопиться/ливо/ый (98 - 20)

протянуть, -тягивать (90 - 18)

быстро/ый (130 - 19)

медленно (29 - 8)

скороговоркой (40 - 22),сыпать (6 - 3)

 

впопыхах (9 - 6), поспешить/но (58 - 10)

 

(про)мелькнуть (59 - 13), пронестись (20 - 9)

 

 

 

Третье измерение основано на контрасте разборчивости/ неразборчивости речи:

за/про/бормотать (372 - 75)

 

раздельно (16 - 14)

проворчать (39 - 23)

отчеканить (14 - 12)

промямлить (23 - 16)

с расстановкой (9 - 12)

промычать (16 - 14)

(тж. размеренно, скандировать)

прошамкать (6 - 8)

 

Итак, если в первых двух измерениях ремарки Достоевского заметно скошены в сторону громкости и быстроты, то в третьем измерении наблюдается яркая асимметрия - торжествует невнятность.

Эти три оси, конечно, не покрывают семантику всех глаголов речи, многие из которых привносят свои индивидуальные добавки смысла, ср. *за/про/лепетать (98 - 36), за/про/скрежетать (33 - 17), защебетать (14 - 14), за/про/звенеть, звонко/ий (27 - 11), пропищать (16 - 15), прошипеть (14 - 13), сюсюкать (5 - 6), затараторить, протрещать, хриплый, шепелявить, загалдеть и др.

 

Рассмотренное семантическое поле незаметно переходит в другое, где внешние свойства речи все теснее переплетаются либо с общим накалом эмоций, либо с конкретным эмоциональным содержанием и где гиперонимом выступает уже не голос, а тон (61 - 12), тж. нотка (7 - 4). Неконтролируемая эмоция видна в характерном для Достоевского глаголе задыхаться (65 - 19), также в глаголах захлебываться (8 - 6), заикаться (11 - 9), запинаться (10 - 6), прерываться (14 - 7). Намеренная демонстрация эмоций говорящего видна в глаголе отрезать (81 - 30), в словах резко/ий (86 - 23).

Видное место в ремарках отводится внешнему (неречевому) выражению психологического состояния говорящего. И здесь мы сталкиваемся с неожиданной асимметрией. Плач, конечно, представлен: слезы (74 - 5), рыдать (23 - 5), залиться (20 - 7), простонать (17 - 14), всхлипывать (7 - 5); но смех встречается намного чаще: за/рас/смеяться, смех (314 - 23), усмехаться/нуться, усмешка (166 - 35), за/хохотать, хохот (57 - 16), улыбаться, улыбнуться, улыбка (333 - 36), хихикать/нуть (18 - 9), осклабиться (20 - 13), скалить (5 - 4). В целом, однако, наблюдаемые физиологические реакции скорее ассоциируются с отрицательными эмоциями. Характерны обозначения дрожи: за/дрожать, вздрогнуть и т.п. (329 - 30), затрястись (9 - 3); кроветока: бледный, (по)бледнеть (86 - 10), (по)краснеть, за/раскраснеться (118 - 20), вспыхнуть (37 - 11), побагроветь (5 - 3).

Граница между контролируемой и неконтролируемой эмоцией довольна зыбка. Переход в область мимики и жестов одновременно означает переход в область семиотических явлений. Специфические гиперонимы здесь редки - есть жест (19 - 4), есть мина (8 - 4), но лишь в слабой степени характерны взгляд (86 - 4) взор (6 - 2), существительные зрения - скорее примета собственно авторской речи.

Лексические маркеры области взглядов, мимики и жестов охватывают немногочисленные существительные, обозначающие части тела и лица, и самые разнообразные глаголы:

Существительные

Глаголы

глаза (298 - 16)

скосить, по/накоситься (тж. искоса) (18 - 8)

глазки (16 - 4)

подмигивать/нуть (15 - 7), уставиться (16 - 8) потупить(ся) (28 - 10), переводить (13 - 5), опустить глаза (14 - 10), прищури(ва)ться (15 - 9), выпучить (6 - 2), вытаращить (5 - 4), (за)сверкать/нуть (38 - 16) брови (15 - 5) лоб (19 - 3)

рот (23 - 3) губ(к)а (48 - 7), зубы (32 - 8) лицо (168 - 6)

исказиться, искаженный (10 - 6), (ис/по/с)кривиться (тж. криво) (51 - 21)

голова (227 - 15)

поднять, поднимать, подымать (91 - 12), качать, покач(ив)ать (30 - 12) кивать/нуть (41 - 12) вскинуть (13 - 7), наклонить/ять (8 - 4) склонить/ять (9 - 3),

плечо (65 - 12)

пожимать (11 - 7)

рука (477 - 25)

сж(им)ать (48 - 16), указ(ыв)ать (104 - 20), стиснуть (8 - 3), ударить/ять (34 - 6), (в)сплеснуть (44 - 20), хлопнуть (12 - 10), ломать руки (15 - 8), стукнуть/чать (33 - 8), (за)махать, махнуть (80 - 20), дернуть (10 - 4), сложить (15 - 4), потирать (14 - 9)

кулак (34 - 10) ладонь (21 - 8), палец (50 - 5), колено (25 - 3)

(за)топать, топнуть (26 - 12)

Наконец, в ремарках в изобилии представлены реальные позы, действия и движения, которые нельзя отнести к жестам. Рука отходит на второй план (ср. однако, хватать(ся), схватить/ать (109 - 15), ткнуть (5 - 3), толкать (7 - 4)). Движения и изменения позы распространяются на человека в целом, ср. нагнуться (18 - 5) и наклоняться (6 - 6). Очень характерны размашистые, судорожные движения, ср. бросаться/иться (74 - 5), рвануться (5 - 3), стремительно (15 - 7) судорожно/ый (14 - 4).

Лексические маркеры ремарок ясно указывают на ту ситуацию сидения, в которой чаще всего и ведутся диалоги персонажей Достоевского, и на завершение этой ситуации: развалиться (5 - 3), усесться (40 - 8), подсаживаться (3 - 4); вскинуться (28 - 19), выпрямиться (13 - 7), привстать (21-7), привскочить (9 - 6), приподняться/иматься/ыматься (31 - 10), подскочить (17 - 7), вскочить, вскакивать (88 - 16), вста(ва)ть (98 - 10). При этом семантический центр столь характерной ситуации (глагол сидеть) в ремарках не обозначен.

Изредка появляются в ремарках глаголы хождения (за)шагать/нуть (36 - 11), расхаживать (5 - 2).

Текст ремарки вводит прямую речь персонажа и в этом смысле играет важную структурную роль в прозе. Одновременно содержание этого текста выступает как означаемое по отношению к другому (своему) содержанию - мыслям и чувствам героев. С более широкой метасемиотической точки зрения все перечисленные выше группы лексических маркеров относятся к плану выражения (как по отношению к прямой речи, так и к внутренней жизни героев).

Обратимся теперь к плану содержания ремарок.

Для манеры Достоевского характерна скорее позиция внешнего наблюдателя, нежели позиция всезнающего автора, читающего в душах. В этих условиях почти с неизбежностью должны появиться две группы лексических маркеров - маркеры неуверенности и некоторого сомнения, обязательные для внешнего наблюдателя, и маркеры меры и степени, призванные манифестировать объективность наблюдателя. Обе эти группы весьма характерны для Достоевского и образуют мост между планами выражения и содержания.

К первой группе относятся лексические маркеры как бы (342 - 31), как будто (170 - 9), точно (95 - 6), как-то (131 - 10), какой-то (219 - 9), странно (47 - 5), видимо/ый (49 - 6), по-видимому (22 - 2), вероятно (13 - 2). Во второй (очень широкой) группе находим такие маркеры: чуть не (100 - 13), почти (208 - 9), немного (60 - 7), едва (63 - 6), более (131 - 6), глубокий (48 - 6), некоторый (85 - 4), невыразимый (10 - 4), необыкновенный (32 - 3), несколько (95 - 3), величайший (11 - 2), очевидно (24 - 2), капелька (10 - 2).

Если в ремарке как в плане выражения доминируют глаголы, то в ремарке - плане содержания господствуют наречия, прилагательные, существительные. Прежде всего, выделяются лексические маркеры, за которыми угадываются социальные отношения между участниками диалога, причем преобладают выразители социального превосходства и редко появляются указания на низшее социальное положение:

внушительно (28 - 14) строго (78 - 14),

вкрадчиво/ый (5 - 7), жалобно/ый (18 - 11)

презрение/ительно/ый (68 - 13), брезгливо/ый (23 - 11)

поддакивать/нуть (19 - 5)

грозно/ый (32 - 12), торжественно (24 - 8

просительно/ый (5 - 5), умильно (4 - 5), кротко (7 - 5)

сентенциозно (8 - 9), властно (9 - 8) повелительно/ый (11 - 8),

 

осанисто/ый, приосаниться (12 - 6)

 

сурово (15 - 7), накинуться (13 - 7)

мольба (6 - 3)

назидательно (5 - 5), командовать (6 - 5)

подобострастно/ый (5 - 3), почтительно (11 - 3)

снисходительно (5 - 4), веско (4 - 4)

 

важно/ый/ость (46 - 4), значительно (24 - 4), надменно/ый (9 - 3)

 

 

Явная асимметрия наблюдается при выражении контраста вежливости/невежливости:

вежливо/ый/ость (26 - 6)

развязно/ый(13 - 7), огрызнуться (6 - 7)

любезно/ый (15 - 3)

грубо/ый/ость (30 - 4), нагло (6 - 4), фамильярно/ость (8 - 3)

 

(за)коробиться, покоробить (8 - 6)

Две следующие группы, как и предыдущие, через ремарки включают реплику в общую цепь высказываний, но в них акцентируется не соотношение статусов участников диалога, а непосредственная реакция на содержание предшествующей реплики. Обе группы весьма характерны для Достоевского.

удивление

фрустрация

удивляться/ение/нно/ый (209 - 23)

смутиться/щение (54 - 10)

изумление (39 - 9)

(с)конфузиться (38 - 9)

недоумение (43 - 7)

смешаться (20 - 8)

ошеломленный (11 - 4)

опешить (6 - 5)

пораженный (25 - 4)

потеряться/нный (31 - 7)

оторопеть (6 - 4) озадаченный (15 - 8)

 

Особняком стоит семантическая группа иронии, тоже предполагающая как постоянное отношение говорящего к собеседнику, так и реакцию на слова последнего: ядовито/ый (19-11), язвительно (10 - 8), насмешка/ливо/ый (54 - 9), ирония (11 - 6).

Ядро плана содержания ремарок - чувства говорящего; соответствующий гипероним также присутствует среди маркеров: чувство (70 - 4), здесь же собственно семиотические маркеры - выражение, выражаться/зиться/зительно/ый (55 - 4).

Начнем с семантической группы, где противопоставлены легкость или, наоборот, затрудненность речи и чувств:

выр(ы)ваться (65 - 19), невольно (34 - 9),

сдержанно/ать(ся)/сдерживать (39 - 15),

нетерпение/ливо/ый (105 - 19)

нехотя (18 - 11)

срываться, сорваться (25 - 10), не утерпеть (17 - 8)

неохотно (5 - 6)

решительно/ый (94 - 7)

нерешительно (8 - 9)

не удержаться, неудержимо/ый (27 - 6), порываться (9 - 6)

натуга (6 - 5)

машинально (11 - 3)

с трудом (7 - 4)

нечаянно (14 - 3)

затрудняться/иться (8 - 4)

готовность (8 - 3)

удерживаться (7 - 4)

Количественная сбалансированность двух рядов свидетельствует о том, что именно контраст организует эту группу.

В какой-то мере контраст организует и группу маркеров, указывающих на степень эмоциональности, но здесь один из полюсов явно превалирует. Подобно тому как в плане выражения крик отмечается намного чаще шепота, так и в данном случае крайняя эмоциональность встречается чаще, чем спокойствие.

волнение (102 - 17)

спокойно/ствие (78 - 17)

жар (76 - 18)

вяло (6 - 5), зевнуть (6 - 5)

оживиться/ляться (29 - 13)

рассеянно (13 - 6)

вскипеть (14 - 8)

хладнокровно (11 - 4)

одушевление/ляться (18 - 9)

лениво (6 - 3)

горячо/ий, разгорячаться/иться (72 - 9), запальчиво (3 - 5), возбуждение (6 - 3), увлекаться/чение (19 - 5), упоение (16 - 7)

 

Ряд аористных глаголов выражает фазовый переход от одного ряда к другому: встрепенуться (25 - 15), спохватиться (26 - 13), опомниться (27 - 5).

Обозначения конкретных чувств очень разнообразны, положительные эмоции намного уступают по частоте эмоциям отрицательным, и там, и там доминируют крайности. В положительной части спектра эмоций доминируют три семантических гнезда: восторг/женно/ый (124 - 19), радостно/ый/сть (81 - 10), весело/ый (71 - 8), остальные маркеры не столь специфичны для ремарок: мягко (8 - 5), ласково (15 - 5), приветливо (8 - 4), нежно/ый (19 - 3), дружески/ий (13 - 3), медовый (4 - 3), сладко (6 - 2) благодушно (4 - 4) блаженно/ый (7 - 3) восхищенный (4 - 3).

Лексические маркеры, обозначающие отрицательные эмоции, довольно легко сводятся в семь групп:

1) злоба/но/ый, озлобление/но/ый, злость (166 - 22) исступление/нно/ый (82 - 21), яростно/ый/сть (43 - 15), гнев/но/ый (55 - 13), истерически/ий (27 - 11), бешено/ый/ство (38 - 10), свирепо (11 - 9), сердито, рассердиться (28 - 4), неистово/ый (22 - 9), остервенение/иться (6 - 3), дико(9 - 3);

2) испуг/анно/ый/аться (180 - 33), робко/ий,(о)робеть (97 - 26), ужас (35 - 4), пугливо (6 - 5), помертветь (6 - 4), замирать (16 - 4), (за)трепетать (18 - 3), боязливо (5 - 2);

3) отчаяние (69 - 13), горестно/ый/ть (30 - 14), грустно/ый/сть (40 - 4), печально (4 - 4);

4) мрачно/ый (30 - 5), угрюмо (18 - 9);

5) раздражение/аться/ительно/ый/сть (94 - 20), досада/ливо/овать (76 - 17), негодование (77 - 16), ненавистно (6 - 6), недовольный (10 - 3), неудовольствие (5 - 3);

6) тревога/жно, (вс)тревожиться (47 - 10), озабоченно/ый (12 - 3);

7) укор/изна/енно (28 - 12), обидеться/чиво/женный (26 - 4).

Продолжая линию микрожанровой дифференциации, можно обратиться к лексическим маркерам отдельных персонажей (2.26-2.40). Какое-то представление о характере информации, потенциально присут­ствующей в этих списках, можно составить на примере персонажей романа "Идиот" (2.37)

Хотя объем прямой речи каждого отдельного персонажа и невелик, все же и в этом случае часто обнаруживаются лексические маркеры. Например, у князя Мышкина мы находим 97 маркеров, в т.ч.:

S=8: был, Мари;

S=7: да (утверждение), очень;

S=6: дети, она, я;

S=5: деревня, Парфен;

S=4: ведь, Лебедев, о (междом.), Шнейдер, шрифт, этот, эшафот;

S=3: Аглая Ивановна, атеизм, весь, голова, знать, когда, лицо, может быть, мрак, нет (отрицание), они, совсем, ужасно, что (союз).

Само число лексических маркеров в какой-то мере зависит от длины текста данного персонажа, но в еще большей степени - от специфичности функциональной роли персонажа. У Лебедева, например, число лексических маркеров превышает две сотни, возглавляет их "индивидуализирующий" маркер (ту же функциональную роль выполняют у него изволить, благороднейший, сиятельнейший, многоуважаемый, низкий (самоквалификация), ничтожный, нищий, сирота).

В списках лексических маркеров персонажей отдельный пласт образуют слова, отражающие особенности социального статуса. В романе "Идиот" особое положение занимает Рогожин - среди его маркеров мы находим: али, божиться, венец, венчаться, вишь, впрямь, дух (запах), куды (междометие), машина (поезд), ноне, ономнясь, отписать, парень, подлец, помереть, порешить, пужаться, учительша, хошь, эвона, эфтот, эх. Как видим, здесь представлены самые разнообразные социально-стилисти­ческие группы: и просторечные (порешить, учительша, эвона, ноне, парень), и прямо диалектные (ономнясь, эфтот), и такие, у которых народный колорит обязан лишь большей частоте употребления в сравнении с литературным языком (божиться, венец, помереть, эх).

Столь внушительная доза "народных" слов в списке лексических маркеров Рогожина явно свидетельство того, что "народный колорит" был самостоятельной целью автора при речевой характеристике этого героя романа. Этот вывод, полученный на статистически значимом материале, подкрепляется несколькими десятками аналогичных слов, встретившихся по разу (и, следовательно, недоступных для статистического анализа на первом этапе): -от, беспременно, вона, выискаться, глядь, дивить, кабы, карачки, кондрашка, люб, молвить, надоть, напоследях, окаянный, окромя, ономнясь, осердиться, повечеру, покажь, положь, порозну, прихвостень, пялить, рожа, розно, розный, рублев, смазной, спятить, сумлеваться, убег, ух, холуй, шпынять, энтот.

Если у Рогожина "народные" слова образуют самостоятельный (и важнейший) компонет социальной речевой характеристики, у других персонажей они могут играть подчиненную роль в достижении какого-то другого эффекта. Так, у Лизаветы Прокофьевны ("генеральши") они (наряду с разговорными словами) способствуют созданию общей картины фамильярной резкости, прикрывающей ее доброту. Подтверждением первой части этого тезиса могут служить такие маркеры, как -то, батюшка (обращение), вздор, галиматья, девка, дура, дурак, князюшка, мальчишка, мокрая курица, небось, проклятый, простофиля, размыслить, уродик. И снова эта гипотеза подкрепляется словами, встретившимися один раз (хотя их и меньше, чем у Рогожина) завраться, идиотишка, кривляка, намедни, облапошить, пачкун, рассесться, сказ, слыхивать, срамник, сумбур, ухмыляться, фанфаронить, фанфаронишка, финтить, чинишко.

Всё более глубокая дифференциация не исчерпывает набора таблиц Словаря. Здесь даются также таблицы бинарных словосочетаний, в которых представлены все сочетания графических слов, встретившихся более одного раза. (Впервые частоты бинарных словосочетаний были представлены в кн. [Allén]).

Ниже приводится статистика сочетаний слова ДО, встретившегося в художественной литературе 4662 раза; в таблицах 2.12 и 2.13 мы найдем здесь 440 соседей слева и 358 соседей справа (двумя звездочками отмечены леммы, в остальных случаях речь идет о графических словах).

Частота некоторых бинарных сочетаний слова ДО

(художественные произведения)

Слово слева

Слово справа

36 а

4 Алеши

3 костей

7 приезда

108 быть**