Словарь-конкорданс публицистики Ф.М.Достоевского | Поиск | Статьи | Принципы создания | Помощь | Авторы Rambler's Top100

  Принципы создания словаря

  Частотный словарь-конкорданс публицистики Ф. М. Достоевского позволяет получить контекст употребления и частотные характеристики любого слова или словоформы, адрес по полному собранию сочинений писателя в 30-ти томах для всех публицистических произведений автора, включая Дневник писателя, а также получить доступ к полному тексту произведения.

  В текстологическом отношении создаваемый словарь-конкорданс опирается на академическое собрание сочинений писателя в 30-ти томах, изданное в Ленинграде в 1971-1990 годах. В качестве источников привлекаются только законченные публицистические тексты Ф. М. Достоевского, опубликованные при жизни автора и атрибутированные составителями собрания сочинений как безусловно принадлежащие Ф. М. Достоевскому. Так, например, не используется последняя из "Ряда статей о русской литературе" - "Вопрос о университетах", так как ее принадлежность Ф. М. Достоевскому не получила достаточной аргументации. Не используются в качестве материала примечания, редакторские заметки, записи из записных книжек и тому подобные несамостоятельные, включенные в чужой текст микротексты или черновые записи Ф. М. Достоевского. Определяющим критерием для составителей словаря-конкорданса было нахождение текста в разделе "Публицистика и письма" Полного собрания сочинений.
  Представленный словарь-конкорданс дополняет подготовленный в отделе Машинного фонда русского языка ИРЯ РАН частотный словарь художественных произведений Ф. М. Достоевского, и вопрос о включении в корпус источников словаря-конкорданса ряда текстов решался в том числе и в зависимости от их отражения в указанном словаре. Поэтому в качестве источника для словаря-конкорданса публицистики Ф. М. Достоевского используется "Дневник писателя" (при всех сложностях определения его жанровой принадлежности), но не используются "Петербургские сновидения в стихах и в прозе" и "Зимние заметки о летних впечатлениях" (опубликованные в числе художественных произведений и представленные в словаре художественных произведений). Исключение составляют пять текстов из "Дневника писателя", за 1873, 1876, 1877 годы ("Бобок", Мальчик у Христа на елке", "Мужик Марей", "Кроткая", "Сон смешного человека"), включенных в наш словарь-конкорданс как неотъемлемая часть "Дневника писателя", несмотря на то, что они отражены и в словаре ИРЯ РАН.
  Таким образом, предлагаемые материалы в комплексе со словарем художественных произведений, подготовленным в Институте русского языка РАН дают полное представление о частотных характеристиках основного корпуса текстов Ф. М. Достоевского.

  Общепринятые принципы обработки материала, использованные в словаре-конкордансе, специально не оговариваются. Основные особенности словаря, отличающие его от других подобных проектов, обозначены ниже.
  Компьютерной обработке подвергались предварительно подготовленные тексты. Эта подготовка определялась следующими обстоятельствами. Основными единицами созданного словаря является словоформа (точнее текстоформа) и лемма (при проведении лемматизации). Поэтому оказалось целесообразным представлять отдельно частоты слов, принадлежащих собственно Ф. М. Достоевскому, и включенных автором в текст статьи как цитаты. В качестве последних выделялись все части текста, атрибутированные самим автором и издателями собрания сочинений как таковые и введенные в текст без искажений на лексическом уровне. В общем плане мы опирались на авторские примечания и комментарии к Полному собранию сочинений, но в ряде случаев были проведены самостоятельные поиски оригинала цитаты и пословная сверка. Поскольку речь идет о создании словаря, опирающегося на слово как базовую единицу, необходимым оказалась тщательная проверка аутентичности цитат. В случае неполного соответствия оригиналу, выносились либо составляющие части цитат, либо - при значительном искажении оригинала - фраза оставалась в тексте.
  Кроме того, были вынесены в файл для отдельной подготовки названия статей, не принадлежащих Ф. М. Достоевскому, а также газет, журналов (в том числе "Эпоха" и "Время"), названия картин, отделов в журналах и т. д. Строго говоря, их тоже можно отнести к фактам чужой речи. Это дает возможность отличить узуальное употребление лексемы "современник", например, от ее использования в качестве имени собственного. Для этого необходимо соответствующим образом настроить опцию "включать цитаты". Однако, понимая определенную специфику этого пласта лексики, все слова, включенные в название, мы решили обработать как "монолеммные", независимо от реального набора входящих лексем (например, название журнала "Русский Вестник" представлено как одна словарная единица, и в поисковом запросе должно оформляться как Русский_Вестник). Эта особенность позволит определить степень частотности обращения Достоевского к тому или иному журналу, произведению и т. д.
  Существенной особенностью словаря-конкорданса является возможность получить контекст слова и определить его адрес. Это означает, что пользователь может вывести на экран окружение в пределах пятидесяти знаков до и после заданного слова, быстро перейти к искомой части полного текста и, наконец, получить указание на том и страницу Полного собрания сочинений писателя. Адрес слова по Полному собранию сочинений писателя дает возможность исследователю быстро сверить электронный текст (который при всем желании не лишен ошибок и опечаток) с печатным изданием. При этом необходимо предупредить возможного пользователя о том, что из-за технических ограничений предложение, попадающее на две соседние страницы, в словаре имеет адресацию только на одну из них.

  Наконец, несколько технических замечаний.
  Написание всех слов представлено в верхнем регистре ("стол" представлено как "СТОЛ", "Белинский" как "БЕЛИНСКИЙ", "dame" как "DAME") при этом регистр слова в запросе не релевантен. По техническим причинам убраны курсив, разрядка, прочие авторские выделения в тексте.
  При проведении лемматизации принимались следующие условия. Лексические омонимы не разводятся в разные словарные статьи (пользователь по контекстам легко может сделать это самостоятельно), грамматическая омонимия учитывается только на лемматическом уровне. Это означает, что снята неоднозначность при отнесении текстоформы к определенной лемме (напр., исходя из анализа контекста текстоформы супруга, ворон отнесены к леммам супруг или супруга, ворона или ворон соответственно). В качестве вспомогательного (и отнюдь не точного) средства для разграничения омонимов в словаре оставлены результаты автоматического определения части речи. Следует предупредить, что это, пожалуй, самая уязвимая часть проделанной работы, и полностью доверять частеречной классификации не стоит.
  Сложные союзы и фразеологические сочетания разбиваются на составляющие. Сокращения и аббревиатуры не расшифровываются, цифровые записи не переводятся в буквенные. Однако многочисленные сокращения названий журналов, газет и т. д. расшифрованы и отнесены к лемме, представляющей несокращенный вариант: Совр. - "Современник", Вест. Европы - "Вестник Европы". Дефисные написания при лемматизации сводятся к нормальной форме: без-дар-ного - "бездарный".
  Поскольку вопрос о вариативности графического оформления слова в большинстве случаев потребовал бы проведения самостоятельно исследования, все вопросы о самостоятельности / несамостоятельности слова при проведении лемматизации решались в пользу первой. Кириллические написания иностранных слов при лемматизации не приводились к оригинальному написанию. (Так, текстоформа "Теймсах" отнесена к лемме "Теймс"). Орфография текстов не унифицировалась: так, оставлены леммы "парке" (совр. паркет), "Толоза" (совр. Тулуза). В случаях очевидной передачи индивидуального произношения начальной считается соответствующая форма литературного языка: "полючит" - "получить", "заслюжиль" - "заслужить".
  Иностранные слова не обрабатывались, в частности не проводилась лемматизация, не расшифровывались сокращения (фр. n'est и т.п.), не определялась и часть речи иностранных слов. Ряд иностранных слов (français, chedœuvre, и др.) даны в упрощенном написании как francais, chedoeuvre

  Составители будут благодарны всем, кто своими замечаниями и предложениями поможет сделать этот словарь простым, удобным и информативным. Задать интересующие вопросы, предложить рекомендации по улучшению словаря можно, написав авторам по адресу: MihailточкаKopotev@Helsinkiточкаfi

 Проект финансируется Институтом "Открытое общество" (Фонд Сороса)  


Rambler's Top100