Структура таблиц Словаря
Настоящий словарь содержит
94 таблицы, номер таблицы соответствует либо общему корпусу текстов (цифра
1.), либо одному из трех основных подкорпусов: художественной литературе,
критике и публицистике, письмам (цифры 2., 3. и 4. соответственно).
1. В большинстве таблиц в
левой части располагаются лингвистические объекты (слова-леммы, графические
слова, грамматические формы, словообразовательные элементы), в правой части
количественные показатели. Количественный показатель - это, как правило,
абсолютная частота, но в таблицах 1.5, 1.6, 2.6, 2.15, 2.17, 2.19, 2.21, 2.23,
2.25, 3.6 и 4.6 приводятся относительные частоты. Относительные частоты
округлены до целого числа, лексемы,
встретившиеся в данном подкорпусе с частотой менее 0,000005, показаны
многоточием. Следует помнить, что Средняя, указанная в первом столбце, это -
средняя взвешенная, она получена с учетом неравного объема подкорпусов. В
первой строке правой части приводятся суммарные объемы всего корпуса и
подкорпусов, выраженные в соответствующем числе графических слов.
2. В таблицах бинарных
словосочетаний - 1.15, 1.16, 2.12, 2.13, 3.12, 3.13, 4.12, 4.13 показатель
частоты (f>1) предшествует самому сочетанию. Следует помнить, что в число
бинарных словосочетаний включены последовательности слов, разделенных в тексте
знаком препинания, так что здесь будут найдены и сочетания вроде веришь что.
3. Частота предшествует
лингвистическим единицам и в таблицах 1.3, 1.9, 2.3, 2.9, 3.3, 3.9, 4.3, 4.9,
отражающих верхнюю часть рангового словаря.
4. В таблицах лексических
маркеров (1.12-1.14, 2.26-2.40, 4.14, 4.16-4.21) и в таблицах текстуальных
связей (2.42, 3.15 и 4.15) лингвистическим единицам предшествуют два цифровых
показателя: f - частота и S - показатель статистической значимости,
определяемый согласно формуле
S = (f-m-1)Öm ,
где f - наблюдаемая
частота данного события,
а m
- математическое ожидание этого события, подсчитанное на основе гипотезы
об однородном распределении частот по текстам общего корпуса.
Те же количественные
показатели статистической значимости и частоты даются в таблицах 2.43 и 2.44,
однако здесь в левой части расположены лингвистические единицы, а в правой -
количественные показатели - сначала S, а затем частота в корпусе прозы
Достоевского и, наконец, частота в общем корпусе прозы современников
Достоевского. Кроме того, в таблицу 2.43 дополнительно введен показатель S',
подсчитанный после исключения из корпуса Достоевского текста, в котором данная
единица обладает экстремальной частотой. Так слово арестант показывает исключительно высокий S (у Достоевского это
слово встретилось 538 раз, а у всех остальных прозаиков, чей корпус в 5 раз
больше, всего 302 раза); но после исключения "Записок из мертвого
дома" Достоевский уже не будет отличаться от фона. Однако слово револьвер и после исключения
"Бесов" сохранит высокий S'.
В таблицах лексических
маркеров (особенно в 2.43) нередко даются и основы слов как результат
объединения лемм, например, глаголов совершенного и несовершенного вида,
прилагательных, компаративов, суперлативов и наречий и т.п.
5. Столбцы правой части
большинства таблиц содержат данные о суммарной (или средней) частоте лексем в
соответствующем корпусе и в подкорпусах. В качестве подкорпусов выступают:
- основные жанры ( таблицы
1.1, 1.4-1.6);
- микрожанры (2.14, 2.15, 3.14);
- отдельные тексты
(2.16-2.25);
- индивидуальные адресаты
(4.4, 4.5);
- хронологические периоды
(2.1, 2.6, 3.1, 3.6, 4.1, 4.6).
В таб. 2.1 и 2.6,
посвященных художественной литературе, представлены четыре периода: 1844-1849,
1856-1865, 1866-1872, 1873-1880. Обычно выделяется три периода, но в данных
таблицах третий период разделен на два столбца, что позволяет проверить
устойчивость тех или иных хронологических тенденций. В таб. 3.1 и 3.6,
посвященных критике и публицистике, даны три периода (1845-1848, 1860-1865,
1873-1881), разделенные длительными периодами публицистического молчания.
Наибольшее число столбцов представлено в таб. 4.1 и 4.6, посвященных письмам Достоевского,: 1832-1843
- годы учения, 1844-1849 - литературная деятельность вплоть до
ареста, 1854-1859 от выхода из
каторги до возвращения в Петербург, 1860-1866 литературная
деятельность в Петербурге, 1867-1871
женитьба на А.Г.Сниткиной и пребывание за границей,
1872-1881 от возвращения в
Россию до конца жизни.
6. В большинстве таблиц
лингвистические единицы упорядочены по алфавиту. Исключение составляют:
- обратные словари (1.2,
1.8, 2.2, 2.8, 3.2, 3.8, 4.2, 4.8);
- ранговые словари (1.3,
1.9, 2.3, 2.9, 3.3, 3.9, 4.3, 4.9), упорядоченные по убыванию частот. В таблицах
последнего типа дается верхняя часть рангового словаря. Обобщенную картину
статистической структуры рангового словаря читатель найдет в таблицах 1.10,
1.11, 2.10, 2.11, 3.10, 3.11, 4.10, 4.11. В первом столбце показан ранг леммы
(или графического слова) в ранговом словаре. Цифры в последней строке первого
столбца указывают на число разных лемм (графических слов) - 43652 (145466) во
всем корпусе, 34412 (110514) в художественной
литературе, 21602 (59446) в критике и публицистике, 17522 (43531) в письмах. Во
втором столбце показана частота леммы (графического слова) данного ранга; в
третьем - число разных слов с данной частотой, в четвертом - накопленная
частота всех единиц с данным рангом и ниже. Наконец, в пятом столбце дается
накопленная относительная частота ("покрытие текста"), т.е.
результат деления накопленной частоты данного ранга на совокупную частоту всех
единиц рангового словаря.
7. В таблицах лексических
маркеров персонажей (2.26-2.40) соблюдается алфавитный порядок персонажей, для
каждого персонажа в алфавитном порядке перечисляются лексические маркеры.
В строке, открывающей
отдельного персонажа, указывается объем произнесенных им текстов, а в скобках
дается доля этого персонажа в общем объеме прямой речи всех персонажей, а также
его доля в общем объеме ремарок. Лексические маркеры ремарок отмечены
звездочкой * .
Тот же принцип размещения
информации проведен в таблице 4.14 - Лексические маркеры адресатов.
8. В таблицах текстуальных
связей (2.42, 3.15 и 4.15) в алфавитном порядке даются лексемы с указанием
числа 40-словных фрагментов, в которых они встретились. Для каждой лексемы в
алфавитном порядке перечисляются текстуальные связи с другими лексемами с
указанием числа (f) 40-словных фрагментов, общих для данных двух лексем.
Указывается также статистическая значимость (S) такой совместной встречаемости.
9. Особый порядок
представлен в таблицах грамматических признаков (1.4 и 1.5). Сначала показаны
грамматические классы слов, затем - аффиксы. Грамматические классы включают
традиционные части речи и некоторые подклассы внутри частей речи. Особо
выделены деадъективные наречия, изменившие свои синтаксические функции:
примером могут служить довольно, следовательно. действительно,
точно, давно, конечно. Русские суффиксы соотнесены с частями речи и
с грамматическими подклассами внутри частей речи. Так они и сгруппированы в данных
таблицах. Что касается префиксов, то
они хорошо коррелируют с мотивирующими основами в процессе
словопроизводства, но результирующие производные слова (часто осложненные суффиксами) уже прямо не
соотнесены с частями речи. Префиксы
и первые компоненты сложных слов поданы в общем
алфавитном порядке.
Поскольку в префиксальных
образованиях часто наблюдается процесс морфологического опрощения, особо
выделяются группы слов с этимологическим префиксом, чья семантическая мотивация
частично или полностью затуманена. Примером может служить группа слов с
начальным в- : вкус, влияние, вменять, вместо, вовсе, внедрить. внезапно,
вникнуть, внимание, вонзить,
вперить, впечатление, впиться, вплоть, впросак, вряд,
всадник. Такие группы
слов даются в таблицах как отдельные строки, причем префикс в таком случае сопровождается
знаком звездочки (*).