Структура таблиц Словаря

 

Настоящий словарь содержит 94 таблицы, номер таблицы соответ­ствует либо общему корпусу текстов (цифра 1.), либо одному из трех основных подкорпусов: художественной литературе, критике и публицисти­ке, письмам (цифры 2., 3. и 4. соответственно).

1. В большинстве таблиц в левой части располагаются лингвистичес­кие объекты (слова-леммы, графические слова, грамматические формы, сло­вообразовательные элементы), в правой части количественные показатели. Количественный показатель - это, как правило, абсолютная частота, но в таблицах 1.5, 1.6, 2.6, 2.15, 2.17, 2.19, 2.21, 2.23, 2.25, 3.6 и 4.6 приводятся относительные частоты. Относительные частоты округлены до целого числа, лексемы, встретившиеся в данном подкорпусе с частотой менее 0,000005, показаны многоточием. Следует помнить, что Средняя, указанная в первом столбце, это - средняя взвешенная, она получена с учетом неравного объема подкорпусов. В первой строке правой части приводятся суммарные объемы всего корпуса и подкорпусов, выраженные в соответствующем числе графических слов.

2. В таблицах бинарных словосочетаний - 1.15, 1.16, 2.12, 2.13, 3.12, 3.13, 4.12, 4.13 показатель частоты (f>1) предшествует самому сочетанию. Следует помнить, что в число бинарных словосочетаний вклю­чены последовательности слов, разделенных в тексте знаком препинания, так что здесь будут найдены и сочетания вроде веришь что.

3. Частота предшествует лингвистическим единицам и в таблицах 1.3, 1.9, 2.3, 2.9, 3.3, 3.9, 4.3, 4.9, отражающих верхнюю часть рангового словаря.

4. В таблицах лексических маркеров (1.12-1.14, 2.26-2.40, 4.14, 4.16-4.21) и в таблицах текстуальных связей (2.42, 3.15 и 4.15) лингвистическим единицам предшествуют два цифровых показателя: f - частота и S - показатель статистической значимости, определяемый согласно формуле

S = (f-m-1)Öm ,

где f - наблюдаемая частота данного события,

а m - математическое ожидание этого события, подсчитанное на основе гипотезы об однородном распределении частот по текстам общего корпуса.

Те же количественные показатели статистической значимости и частоты даются в таблицах 2.43 и 2.44, однако здесь в левой части расположены лингвистические единицы, а в правой - количественные пока­затели - сначала S, а затем частота в корпусе прозы Достоевского и, наконец, частота в общем корпусе прозы современников Достоевского. Кроме того, в таблицу 2.43 дополнительно введен показатель S', подсчи­танный после исключения из корпуса Достоевского текста, в котором данная единица обладает экстремальной частотой. Так слово арестант показывает исключительно высокий S (у Достоевского это слово встрети­лось 538 раз, а у всех остальных прозаиков, чей корпус в 5 раз больше, всего 302 раза); но после исключения "Записок из мертвого дома" Достоевский уже не будет отличаться от фона. Однако слово револьвер и после исключения "Бесов" сохранит высокий S'.

В таблицах лексических маркеров (особенно в 2.43) нередко даются и основы слов как результат объединения лемм, например, глаголов совершенного и несовершенного вида, прилагательных, компаративов, суперлативов и наречий и т.п.

5. Столбцы правой части большинства таблиц содержат данные о суммарной (или средней) частоте лексем в соответствующем корпусе и в подкорпусах. В качестве подкорпусов выступают:

- основные жанры ( таблицы 1.1, 1.4-1.6);

- микрожанры (2.14, 2.15, 3.14);

- отдельные тексты (2.16-2.25);

- индивидуальные адресаты (4.4, 4.5);

- хронологические периоды (2.1, 2.6, 3.1, 3.6, 4.1, 4.6).

В таб. 2.1 и 2.6, посвященных художественной литературе, пред­ставлены четыре периода: 1844-1849, 1856-1865, 1866-1872, 1873-1880. Обычно выделяется три периода, но в данных таблицах третий период разделен на два столбца, что позволяет проверить устойчивость тех или иных хронологических тенденций. В таб. 3.1 и 3.6, посвященных критике и публицистике, даны три периода (1845-1848, 1860-1865, 1873-1881), разделенные длительными периодами публицистического молчания. Наиболь­шее число столбцов представлено в таб. 4.1 и 4.6, посвященных письмам Достоевского,: 1832-1843 - годы учения, 1844-1849 - литера­турная деятельность вплоть до ареста, 1854-1859 от выхода из каторги до возвращения в Петербург, 1860-1866 литературная деятельность в Петербурге, 1867-1871 женитьба на А.Г.Сниткиной и пребывание за границей, 1872-1881 от возвращения в Россию до конца жизни.

6. В большинстве таблиц лингвистические единицы упорядочены по алфавиту. Исключение составляют:

- обратные словари (1.2, 1.8, 2.2, 2.8, 3.2, 3.8, 4.2, 4.8);

- ранговые словари (1.3, 1.9, 2.3, 2.9, 3.3, 3.9, 4.3, 4.9), упорядоченные по убыванию частот. В таблицах последнего типа дается верхняя часть рангового словаря. Обобщенную картину статистической структуры рангового словаря читатель найдет в таблицах 1.10, 1.11, 2.10, 2.11, 3.10, 3.11, 4.10, 4.11. В первом столбце показан ранг леммы (или графического слова) в ранговом словаре. Цифры в последней строке первого столбца указывают на число разных лемм (графических слов) - 43652 (145466) во всем корпусе, 34412 (110514) в художест­венной литературе, 21602 (59446) в критике и публицистике, 17522 (43531) в письмах. Во втором столбце показана частота леммы (графи­ческого слова) данного ранга; в третьем - число разных слов с данной частотой, в четвертом - накопленная частота всех единиц с данным рангом и ниже. Наконец, в пятом столбце дается накопленная относитель­ная частота ("покрытие текста"), т.е. результат деления накопленной частоты данного ранга на совокупную частоту всех единиц рангового словаря.

7. В таблицах лексических маркеров персонажей (2.26-2.40) соблюдается алфавитный порядок персонажей, для каждого персонажа в алфавитном порядке перечисляются лексические маркеры.

В строке, открывающей отдельного персонажа, указывается объем произ­несенных им текстов, а в скобках дается доля этого персонажа в общем объеме прямой речи всех персонажей, а также его доля в общем объеме ремарок. Лексические маркеры ремарок отмечены звездочкой * .

Тот же принцип размещения информации проведен в таблице 4.14 - Лексические маркеры адресатов.

8. В таблицах текстуальных связей (2.42, 3.15 и 4.15) в алфавит­ном порядке даются лексемы с указанием числа 40-словных фрагментов, в которых они встретились. Для каждой лексемы в алфавитном порядке перечисляются текстуальные связи с другими лексемами с указанием числа (f) 40-словных фрагментов, общих для данных двух лексем. Указывается также статистическая значимость (S) такой совместной встречаемости.

9. Особый порядок представлен в таблицах грамматических признаков (1.4 и 1.5). Сначала показаны грамматические классы слов, затем - аффиксы. Грамматические классы включают традиционные части речи и неко­торые подклассы внутри частей речи. Особо выделены деадъективные наре­чия, изменившие свои синтаксические функции: примером могут служить довольно, следовательно. действительно, точно, давно, конечно. Русские суффиксы соотнесены с частями речи и с грамматическими подклассами внутри частей речи. Так они и сгруппированы в данных таблицах. Что касается префиксов, то они хорошо коррелируют с мотивирующими основами в процессе словопроизводства, но результирующие производные слова (часто осложненные суффиксами) уже прямо не соотнесены с частями речи. Префиксы и первые компоненты сложных слов поданы в общем алфавитном порядке.

Поскольку в префиксальных образованиях часто наблюдается процесс морфологического опрощения, особо выделяются группы слов с этимологическим префиксом, чья семантическая мотивация частично или полностью затуманена. Примером может служить группа слов с начальным в- : вкус, влияние, вменять, вместо, вовсе, внедрить. внезапно, вникнуть, внимание, вонзить, вперить, впечатление, впиться, вплоть, впросак, вряд, всадник. Такие группы слов даются в таблицах как отдельные строки, причем префикс в таком случае сопровождается знаком звездочки (*).