Наши
адреса: irlras@mail.ru , andrjusc@yandex.ru
, andrjusc@mail.ru
Резервный сайт Машинного фонда русского языка: http://nature.syktsu.ru/cfrl/cfrl-root0.html
Работы по созданию Машинного фонда русского языка были
начаты в
Проект создания Машинного фонда русского языка был поддержан Президиумом АН и ГКНТ СССР. В соответствии с заданием 06.01 Создать Машинный фонд русского языка (1-я очередь) Научно-технической программы 0.80.18 на 1986-1990 гг., утвержденной Постановлением ГКНТ и АН СССР № 573/137 от 10.11.85 г., в 1986-1990 гг. в создании Машинного фонда русского языка принимали участие более 40 организаций-соисполнителей, среди них Московский, Санкт-Петербургский, Харьковский, Гродненский, Сыктывкарский и Саратовский университеты, выполнявшие прямые заказы Института русского языка.
Под комплексной информатизацией научных исследований и прикладных разработок в русистике понималось:
· Последовательное оснащение отделов Института русского языка и организаций-соисполнителей современными вычислительными машинами с перспективой объединения их в вычислительную сеть;
· Последовательное накопление на машинных носителях и в базах данных главнейших источников, необходимых как для научного изучения русского языка, так и для осуществления прикладных разработок;
· Создание программных средств, необходимых как для подготовки научных трудов по филологии, так и для проведения прикладных разработок;
· Развитие прикладных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке) как составной части академической русистики, являющихся, с одной стороны, проводником результатов фундаментальных исследований в практику, а с другой – источником новых идей и данных для фундаментальной науки.
В 1985—1992 гг. отделом Машинного фонда русского языка (частично с участием соисполнителей) были осуществлены:
¨ Разработка концепции и архитектуры Машинного фонда русского языка (опубликована в книге В.М. Андрющенко Концепция и архитектура Машинного фонда русского языка, М.: 1989).
¨ Разработка концепции терминологического банка данных (опубликована в книге Лингвистическая концепция терминологического банка данных Машинного фонда русского языка (проект), под ред. А.С. Герда, М.: 1989).
¨ Накопление значительного количества источников - накоплены на машинных носителях и частично в базах данных текстовые источники русской литературы XIX-XX вв., главнейшие словари русского языка, Краткая академическая грамматика, некоторые другие материалы справочного характера, созданы текстовые корпусы поэзии, художественной прозы, общественно-политических и технических текстов (содержание Архива источников было опубликовано в Бюллетене Машинного фонда русского языка, вып. 1; сейчас оно сильно устарело и нынешнее состояние архива лучше всего отражено на сайтах http://www.artint.ru/cfrl/ и http://cfrl.ru/)
¨
Разработка двух подсистем пакета UNILEX
на персональных компьютерах (под MS DOS) – текстоориентированной компоненты UNILEX-T,
словарной компоненты UNILEX-D. Каждая из
компонент пакета может использоваться независимо
от других. Компонента
UNILEX-T (разработчик Ж.Г. Аношкина)
предназначена для изготовления
частотных словарей, словоуказателей (индексов слов к текстам) и конкордансов
и работы с последними. Компонента UNILEX-D
(разработчик Л.И.
Колодяжная) предназначена для создания
словарных баз данных и работы с последними. Обе эти системы больше не поддерживаются
нами.
¨ Разработка нескольких программно-источниковых пакетов, таких как Автоматический
Синтаксический словарь русского языка, Автоматический словарь синонимов русского
языка, Автоматический
вариант Словаря русского языка С.И. Ожегова, Автоматический
словарь глагольного управления в
русском языке и др. под. (описания
опубликованы в Бюллетене Машинного
фонда русского языка, вып. 1–3). Программно-источниковые пакеты также больше не
поддерживаются и не разрабатываются.
¨ Разработка технологии редакционно-издательской подготовки научных трудов и продуктов Машинного фонда русского языка.
¨ Обучение филологов информатике, автоматизации филологических исследований, работе с компонентами Машинного фонда русского языка.
После
1. Создание и совершенствование сервера Института русского языка и Машинного фонда русского языка в Интернет; (в 1995-1998 гг. этот сервер успешно функционировал, но позднее от этого решения пришлось отказаться в пользу размещения сайтов у независимых провайдеров);
2. Полномасштабные испытания систем обработки лингвистических данных UNILEX путем участия в подготовке Орфографического словаря и Словаря поэзии ХХ в.;
3. Ускоренное накопление новых источников на основе электронных изданий газет и сканирования произведений русского классической литературы. Полный архив источников Машинного фонда русского языка сейчас составляет более 100 млн. словоупотреблений;
4. Участие под руководством Ю.Н. Караулова в работе над словарем языка Ф.М. Достоевского.
После
1. Включение МФ РЯ в Интернет: создание и развитие зеркал сайтов у независимых провайдеров (http://www.irlras-cfrl.rema.ru/, http://www.artint.ru/cfrl, http://www.tractor.de/ , http://www.artint.ru/cfrl )
2. Накопление источников в целях широкого дистрибутивно-статистического исследования русской прозы последней трети XIX в. и газет конца ХХ в.,
3. Накопление и анализ дистрибутивно-статистических данных, подготовка публикаций сводных данных (первый результат такой публикации – книга А.Я. Шайкевича, В.М. Андрющенко и Н.А. Ребецкой «Статистический словарь языка Ф.М. Достоевского»),
4. Разработка технологии комбинированных изданий продуктов МФ РЯ (книга+CD+Интернет),
5. Разработка лексической поисковой системы, способной заменить традиционные словарные картотеки.
Более отдаленные перспективы развития
Машинного фонда русского языка мы связывали с полным осуществлением
концепции, выработанной 1-ой Всесоюзной конференцией по созданию Машинного
фонда русского языка
1. Создание компонентов лингвистического обеспечения задач информатики и
2. Информатизация научных исследований в русистике.
Уже тогда было понятно, что эти задачи взаимосвязаны: создание компонентов лингвистического обеспечения задач информатики силами профессиональных лингвистов возможно только при условии информатизации русистики. В то же время информатизация русистики требует использования всех достижений прикладной (вычислительной) лингвистики. Но использование достижений прикладной лингвистики в русистике может быть осуществлено только на достаточно богатой источниковой базе и должно быть нацелено на выдачу результатов в полиграфической форме. В соответствии с этим логика развития Машинного фонда русского языка должна быть выстроена так, чтобы создавались прежде всего базовые компоненты (источники на машинных носителях и в базах данных, лингвистические программно-источниковые пакеты, компьютерные технологии подготовки научных трудов). Эти направления никогда не исчерпают себя, так как источниковая база русистики бесконечна, а программные средства и технологии требуют постоянного совершенствования и обновления. Вместе с тем необходимо расширять поле разработок, сейчас — в направлении реализации методов дистрибутивно-статистического анализа и накопления лингвистических ресурсов в Интернет.
Сейчас, в
1. Дальнейшее накопление источников на сайтах Фонда и совершенствование и его технической базы
2. Дальнейшее развитие функций Автоматической словарной картотеки Фонда
3. Конструирование глобальной лингвостатистической обработки всех текстовых источников Фонда в интерактивном режиме (образец такой обработки представлен в Статистическом словаре языка Достоевского).
Ершов А.П.
Машинный фонд русского языка: внешняя постановка, в кн. «Машинный фонд русского языка: идеи и суждения», Наука, Москва: 1986.
Сборник
«Машинный фонд русского языка: идеи и суждения», Наука, Москва: 1986.
Андрющенко В.М.
Концепция и архитектура Машинного фонда русского языка, Наука, Москва: 1989.
Андрющенко В.М.
Разработка комбинированных изданий (книга+CD+Internet), в: Московский лингвистический журнал, т.7 №1, 2003.
Шайкевич А.Я.
Дистрибутивно-статистический
анализ в семантике, в:
Принципы и методы семантических исследований, Наука, Москва: 1976.
Шайкевич А.Я.
Гипотезы о
естественных классах и возможность количественной таксономии в лингвистике, в: Гипотеза в современной лингвистике, Наука,
Москва: 1979.
Шайкевич А.Я., Андрющенко В.М., Ребецкая Н.А.
Статистический словарь языка
Достоевского, Изд-во «Языки славянской культуры», Москва: 2003.