Наши адреса: irlras@mail.ru ,  andrjusc@yandex.ru ,  andrjusc@mail.ru

Резервный сайт Машинного фонда русского языка: http://nature.syktsu.ru/cfrl/cfrl-root0.html

Машинный фонд русского языка в развитии

Работы по созданию Машинного фонда русского языка были начаты в 1985 г. по инициативе академика А.П. Ершова, после состоявшейся в 1983 г. специальной всесоюзной конференции, материалы которой позднее были опубликованы в книге Машинный фонд русского языка: идеи и суждения, М.: Наука, 1989.  Тогда же  был создан отдел Машинного фонда русского языка в Институте русского языка РАН. Заведование отделом взял на себя тогдашний директор Института член-корреспондент АН СССР Ю.Н. Караулов. Под его руководством была разработана «Комплексная программа научных исследований и прикладных разработок по созданию Машинного  фонда  русского языка на 1996-2000 гг. и информатизации   исследований   в  Институте русского языка АН СССР», в основу которой легли упомянутые материалы. Руководителями Отдела были последовательно член-корреспондент АН СССР Ю.Н. Караулов (1985-1991 гг.), доктор филологических наук В.М. Андрющенко (1992-1998 гг.), профессор, доктор филологических наук А.Я. Шайкевич.(1998-2006 гг.). В 2006 г. Отдел был ликвидирован, работы по развитию Машинного фонда русского языка продолжаются в рамках отдела корпусной лингвистики и лингвистической поэтики.

Проект создания  Машинного фонда русского языка  был поддержан Президиумом АН и ГКНТ СССР.  В  соответствии  с  заданием  06.01  Создать Машинный фонд русского языка (1-я очередь)  Научно-технической  программы  0.80.18  на 1986-1990 гг.,  утвержденной Постановлением ГКНТ и АН СССР № 573/137 от 10.11.85 г., в 1986-1990 гг. в создании  Машинного  фонда  русского  языка принимали   участие   более   40   организаций-соисполнителей,  среди  них Московский, Санкт-Петербургский, Харьковский, Гродненский, Сыктывкарский и Саратовский университеты, выполнявшие прямые  заказы  Института  русского языка.

Под  комплексной информатизацией научных исследований и прикладных разработок в русистике понималось:

·        Последовательное  оснащение отделов Института русского языка и организаций-соисполнителей   современными   вычислительными   машинами   с перспективой  объединения  их в  вычислительную сеть;

·        Последовательное  накопление на машинных носителях и в базах данных  главнейших   источников, необходимых как для научного изучения русского языка, так и для осуществления прикладных разработок;

·        Создание      программных  средств,  необходимых  как  для подготовки научных трудов по филологии, так  и  для  проведения  прикладных разработок;

·        Развитие       прикладных   направлений   (лексикография, терминоведение, автоматическая обработка данных на естественном языке) как    составной части  академической  русистики,  являющихся, с одной стороны, проводником результатов  фундаментальных  исследований  в  практику,  а  с  другой – источником новых идей и данных для фундаментальной науки.

В  1985—1992 гг.  отделом  Машинного фонда русского языка (частично с участием соисполнителей) были осуществлены:

¨      Разработка концепции и архитектуры Машинного фонда русского языка (опубликована в книге В.М. Андрющенко  Концепция и  архитектура Машинного фонда русского языка, М.: 1989).

¨      Разработка  концепции  терминологического  банка  данных (опубликована в книге  Лингвистическая концепция  терминологического банка   данных   Машинного   фонда  русского  языка  (проект),  под  ред.  А.С. Герда, М.: 1989).

¨      Накопление    значительного количества источников -  накоплены  на  машинных  носителях  и частично в базах данных текстовые источники  русской  литературы    XIX-XX  вв.,  главнейшие   словари русского   языка,   Краткая   академическая  грамматика,  некоторые  другие материалы   справочного   характера,   созданы  текстовые  корпусы  поэзии, художественной прозы, общественно-политических и технических текстов (содержание Архива источников было опубликовано в  Бюллетене Машинного фонда русского языка, вып. 1; сейчас оно сильно устарело и нынешнее состояние архива лучше всего отражено на сайтах  http://www.artint.ru/cfrl/ и http://cfrl.ru/)

¨      Разработка двух подсистем пакета  UNILEX  на персональных компьютерах (под MS DOS) – текстоориентированной компоненты  UNILEX-T,  словарной  компоненты  UNILEX-D. Каждая   из   компонент   пакета   может использоваться   независимо   от   других.   Компонента    UNILEX-T (разработчик  Ж.Г. Аношкина)  предназначена  для  изготовления   частотных словарей, словоуказателей (индексов слов к текстам) и конкордансов и работы с последними. Компонента  UNILEX-D  (разработчик  Л.И. Колодяжная)  предназначена для  создания  словарных баз данных и работы с последними.  Обе эти системы больше не поддерживаются нами.

¨      Разработка  нескольких программно-источниковых пакетов, таких как Автоматический Синтаксический словарь русского языка, Автоматический словарь синонимов  русского  языка,  Автоматический вариант  Словаря  русского языка С.И. Ожегова, Автоматический словарь глагольного  управления  в  русском  языке  и др. под.  (описания опубликованы в   Бюллетене  Машинного  фонда  русского языка, вып. 1–3).  Программно-источниковые пакеты также больше не поддерживаются и не разрабатываются.

¨      Разработка    технологии   редакционно-издательской подготовки научных трудов и продуктов Машинного фонда русского языка.

¨      Обучение    филологов    информатике,    автоматизации филологических исследований, работе с компонентами Машинного фонда русского языка.

После 1991 г., когда нарушилась старая система финансирования и координации научно-исследовательских работ и до 1996 г., деятельность Отдела Машинного фонда русского языка приобрела несколько хаотический характер. Этому способствовала также необходимость постоянного  совершенствования  технической базы в связи с резким ускорением научно-технического прогресса. Тем не менее можно выделить главные направления деятельности отдела того времени:

1.      Создание  и совершенствование сервера Института русского языка и Машинного фонда русского языка в Интернет; (в 1995-1998 гг. этот сервер успешно функционировал, но позднее от этого решения пришлось отказаться в пользу размещения сайтов у независимых провайдеров);

2.      Полномасштабные испытания систем обработки лингвистических данных UNILEX путем участия в подготовке Орфографического словаря и Словаря поэзии ХХ в.;

3.      Ускоренное накопление новых источников на основе  электронных изданий газет и  сканирования произведений русского классической  литературы. Полный архив источников Машинного фонда русского языка сейчас составляет  более 100 млн. словоупотреблений;

4.      Участие под руководством Ю.Н. Караулова в работе над словарем языка Ф.М. Достоевского.

После 1992 г., когда началась поддержка научных исследований различными фондами – фондом Сороса, Российским гуманитарным научным фондом и Российским фондом фундаментальных исследований, - развитие Машинного фонда русского языка приобрело более  упорядоченное очертание. Выделились четыре направления:

1.      Включение МФ РЯ в Интернет: создание и развитие зеркал сайтов у независимых провайдеров (http://www.irlras-cfrl.rema.ru/,  http://www.artint.ru/cfrl, http://www.tractor.de/ , http://www.artint.ru/cfrl )

2.      Накопление источников в целях широкого дистрибутивно-статистического исследования русской прозы последней трети XIX в. и газет конца ХХ в.,

3.      Накопление и анализ дистрибутивно-статистических данных, подготовка публикаций сводных данных (первый результат такой публикации –  книга А.Я. Шайкевича, В.М. Андрющенко и Н.А. Ребецкой «Статистический словарь языка Ф.М. Достоевского»),

4.      Разработка технологии комбинированных изданий продуктов МФ РЯ (книга+CD+Интернет),

5.      Разработка лексической поисковой системы, способной заменить традиционные словарные картотеки.

Более отдаленные перспективы  развития  Машинного фонда русского языка мы связывали с полным осуществлением концепции, выработанной 1-ой Всесоюзной конференцией по созданию  Машинного  фонда  русского  языка  1983 г.  В  основе  этой концепции лежали две главные задачи:

1.      Создание   компонентов   лингвистического   обеспечения   задач информатики и

2.      Информатизация научных исследований в русистике. 

 

Уже тогда было понятно, что эти задачи взаимосвязаны: создание компонентов  лингвистического  обеспечения  задач  информатики силами    профессиональных   лингвистов   возможно   только   при   условии информатизации русистики. В то же время  информатизация  русистики  требует использования  всех  достижений прикладной (вычислительной) лингвистики. Но использование достижений прикладной  лингвистики  в  русистике  может  быть осуществлено  только  на достаточно богатой источниковой базе и должно быть нацелено на выдачу результатов в полиграфической форме.  В  соответствии с этим  логика развития Машинного фонда русского языка должна быть выстроена так, чтобы создавались прежде всего  базовые компоненты (источники   на  машинных  носителях  и  в  базах  данных,  лингвистические программно-источниковые пакеты, компьютерные технологии подготовки научных трудов). Эти направления никогда не исчерпают себя,  так  как  источниковая база  русистики  бесконечна,  а  программные  средства и технологии требуют постоянного  совершенствования  и  обновления.  Вместе  с  тем   необходимо расширять    поле   разработок,   сейчас     в   направлении   реализации методов дистрибутивно-статистического анализа  и  накопления лингвистических ресурсов в Интернет.

 

Сейчас, в 2005 г. мы должны признать, что данное научное направление (информатизация русистики) оказалось нежизнеспособным в современных организационно-финансовых условиях  и  постановка задачи создания Машинного фонда русского языка на ближайшую перспективу  должна быть еще более сужена до двух-трех частных задач:

 

1.      Дальнейшее накопление источников на сайтах Фонда и совершенствование и его технической базы

2.      Дальнейшее развитие функций Автоматической словарной картотеки Фонда

3.      Конструирование глобальной лингвостатистической обработки всех текстовых источников Фонда в интерактивном режиме (образец такой обработки представлен в Статистическом словаре языка Достоевского).

 

 

В.М. Андрющенко

Литература

Ершов А.П. 

Машинный фонд  русского языка: внешняя постановка, в кн. «Машинный фонд русского языка:  идеи и суждения», Наука, Москва: 1986.

Сборник

          «Машинный фонд русского языка:  идеи и суждения», Наука, Москва: 1986.

Андрющенко В.М.

Концепция и архитектура Машинного фонда русского языка, Наука, Москва: 1989.

Андрющенко В.М.

            Разработка комбинированных изданий (книга+CD+Internet), в: Московский лингвистический журнал, т.7 №1, 2003.

Шайкевич А.Я.

Дистрибутивно-статистический анализ в семантике, в: Принципы и методы семантических исследований, Наука, Москва: 1976.

Шайкевич  А.Я.

Гипотезы о естественных классах и возможность количественной таксономии в лингвистике, в: Гипотеза в современной лингвистике, Наука, Москва: 1979.

Шайкевич А.Я., Андрющенко В.М., Ребецкая Н.А.

            Статистический словарь языка Достоевского, Изд-во «Языки славянской культуры», Москва: 2003.