Частотный словарь шарова. Частотный словарь английского: «скачать-бесплатно-без-регистрации

После того как я решил подтянуть свой уровень знания английского (главным образом в плане словарного запаса), практически сразу стало очевидно, что самый эффективный способ изучения слов - исключительно по частотным словарям. Точнее, способы изучения и запоминания могут быть самые различные, но вот именно очередность, приоритетность тех или иных слов должна определяться исходя из частотных словарей.

Скажем, читаете вы книгу на английском, и через каждые 10 слов вам попадается одно неизвестное. Представьте себе, первое время я записывал каждое неизвестное слово и ежедневно все их зубрил. Но очень скоро стало ясно, что эффективность такого изучения близка к нулю - так как большинство этих слов встречаются лишь раз-два за всю книгу, а в повседневном лексиконе они могут встречаться вообще раз в год.

Именно здесь на помощь приходит частотный словарь. Идея такая: вам встречается слово, перевод которого вы не знаете. Сначала вы припоминаете: насколько часто оно вам встречается вообще? Если это слово из разряда «да, я слышал его много раз, но не знаю, как оно переводится», уверенно ставьте его на изучение и повторение. Если это слово вам встречается редко, или вы вообще его не можете припомнить, значит, самое время заглянуть в частотный словарь.

Есть такой замечательный сервис Test Your Vocabulary , который позволяет по небольшой выборке (несколько десятков слов), путём сопоставления ваших результатов с имеющимися данными статистического анализа, примерно определить ваш словарный запас. Там же имеются различные графики результатов, например, вот это распределение участников (неанглоговорящих) по словарному запасу:

Как видим, уровень словарного запаса большинства людей находится в районе 4500 слов. Медиана же распределения находится в районе 7800 слов (у половины людей словарный запас меньше, у половины - больше).

По данным других лингвистических исследований словарный запас в 6–7 тысяч слов гарантирует понимание 85% английской речи. Таким образом, можно заключить, что 6-тысячный словарь для начала может быть вполне приемлемой целью.

Итак, возвращаясь к нашему алгоритму. После того, как вы нашли совершенно неизвестное вам слово - сразу же ищите его частотном словаре. Если, например, вы задались целью увеличить свой запас не менее чем до 6000 тысяч слов, и искомое слово как раз входит в первые 6 тысяч - ставьте его на повторение.

Фактически, после изучения первых 6000 в ЧС, ваш словарный запас будет конечно же больше, за счёт тех слов, которые вы уже знаете, и которые не вошли в изученный интервал ЧС.

Ну а теперь вопрос. Где взять частотный словарь? В Гугле? Как бы не так.

Как правило, сайты по изучению английского предлагают нам только первую тысячу слов ЧС, а за более обширный словарь придётся платить. Да, первые поиски словаря хотя бы на 3000 слов вызвали у меня бурю негодования. Но потом мне всё же удалось найти весьма обширный словарь, которым, однако, невозможно было пользоваться для поиска слов: он был разбит на много страниц, а текст, кстати, был защищен от копипаста (помогает, конечно же, только в случае со школьниками или домохозяйками). Потому, чтобы нормально работать с частотным словарём, я (не без определённой доли изобретательности) выцепил со страниц код и объединил первые 6000 необходимых мне слов в одну таблицу .

Пользуйтесь на здоровье, и да здравствует свободный доступ к информации.

Update: расширил таблицу до 16000 слов . Этот словарь должен покрыть 98% английских фраз.

Примечание: в таблице пропущены некоторые номера - это имена собственные, переводить которые просто нет смысла.

Информация от спонсора

Примо4ки.com: электроника и гаджеты по низким ценам, продажа китайских телефонов . Качество гарантировано магазином.

Вторая версия частотного списка

На этой странице Вы можете получить списки наиболее частотных слов русского языка. До настоящего времени Частотный словарь русского языка под ред. Л.Н.Засориной (1977) чаще всего использовался в качестве источника информации о частоте русских слов. Однако корпус, на основе которого была подсчитана частота слов в этом словаре, по современным стандартам очень мал (около миллиона слов). Кроме того, список существенно устарел: он соответствует частоте использования слов в период с 20-х до 60-х годов. В результате корпус включает большое число идеологических источников, например, произведения Ленина и Калинина, Материалы 22 и 23 съездов КПСС, советские газеты. Слова советский и товарищ входят в первую сотню русских слов, наряду со служебными словами (они встречаются чаще слов где, здесь, ваш ), слова партия, революция, коммунистический встречаются чаще чем назад, около, лучше и т.д. Наконец, список слов из словаря Засориной не существует в электронном виде.

Список слов, доступный с этой страницы, содержит примерно 35000 слов с частотой большей 1 ipm (вхождений на миллион слов, instances per million words). Имеется также более короткий список из 5000 наиболее частотных русских слов. Списки используют кодировку кириллицы utf8 и упакованы утилитой WinZip (пользователи Linux или Mac могут использовать StuffIt для распаковки).

Структура списков соответствует формату лемматизированных списков из British National Corpus (BNC) , созданных Адамом Килгарифом, а именно:
порядковый номер, частота (ipm), лемма, часть речи (классификация BNC).

Слова с частотой больше 1 ipm

- словоформы, отсортированные по частоте

Список 5000 наиболее частых слов

- леммы, отсортированные в алфавитном порядке
- леммы, отсортированные по частоте

Некоторые статистические данные об использовании русских слов

Средняя длина слова 5.28 символа.
Средняя длина предложения 10.38 слов.
1000 наиболее частотных лемм покрывает 64.0708% текста.
2000 наиболее частотных лемм покрывают 71.9521% текста.
3000 наиболее частотных лемм покрывают 76.5104% текста.
5000 наиболее частотных лемм покрывают 82.0604% текста.

Более полная информация о соответствии между частотой слова и покрытием корпуса находится .

Список построен на основе представительного корпуса современного русского языка. Он включает в себя подборку современной прозы, политических мемуаров, современных газет и научно-популярной литературы (около 40 миллионов слов, проза составляет примерно чуть больше половины объема). Все тексты корпуса были написаны на русском в промежутке между 1970 и 2002; большинство между 1980 и 1995, газетный корпус 1997-1999 (корпус основан на текстах из Библиотеки Мошкова и корпуса современной публицистики А.В.Баранова).

Хорошо известно, что большие тексты представляют проблему для составления частотных списков, поскольке относительно длинный текст может содержать большое количество вхождений некоторого редкого слова, что существенно увеличит его частоту в итоговом списке. Например, корпус, использованный для составления данного списка, содержит вариацию на тему Толкиеновского "Повелителя Колец" (автор Ник Перумов). Несмотря на то, что длина этого романа составляет 250 тыс.слов, менее одного процента всего корпуса, частота использования слова хоббит в этом романе ставит его в первую тысячу русских слов, если частоту считать по всем текстам без ограничений на их длину. По этой причине частотные списки были составлены при условии, что выборка из больших текстов ограничена 10 тыс. слов, и выборка из текстов одного автора составляет менее 100 тыс. слов. В результате подмножество полного корпуса, использованное при подсчете частоты, составляет около 16 миллионов слов.

Распределение слов в текстах далеко от равномерного. Некоторые слова (например, предлоги) встречаются во многих текстах с вполне предсказуемой частотой. Частота других (например, местоимений или ментальных глаголов) существенно зависит от автора или жанра текста, в то время как многие слова относятся к "заразным": если это слово (например, имя собственное, обозначение человека по званию или должности или технический термин) встретилось в тексте один раз, весьма вероятно, что оно повторится там еще много раз, таким образом, существенно повышая его частоту в документе. Сушествуют разные способы измерения такой вариации (Church, K. and Gale, W. (1995) Poisson Mixtures, Journal of Natural Language Engineering , 1:2). Простейший способ для оценки поведения слова: посчитать коэффициент вариации, который вычисляется как среднеквадратичное отклонение, поделенное на среднее значение. Среднеквадратичное отклонение дает абсолютное значение вариации набора данных (оно увеличивается для слов с большей средней частотой), в то время как коэффициент вариации позволяет сравнить распределение слов с неравной средней частотой. Значения отклонений для 5000 наиболее частотных слов можно посмотреть . Структура файла:
лемма, средняя частота (ipm), число текстов, в которых это слово встречается, среднеквадратичное отклонение частоты по все текстам, коэффициент вариации, дисперсия.

Корпус, средства для работы с ним, а также параллельный англо-русский корпус (выравнение на основе предложения) описаны, в частности, в следующей публикации автора:

Sharoff, Serge, (2002). Meaning as use: exploitation of aligned corpora for the contrastive study of lexical semantics. Proc. of Language Resources and Evaluation Conference (LREC02). May, 2002, Las Palmas, Spain.

Также отдельные частотные списки есть для следующих классов слов:

Создание корпуса, разработка соответствующих программных средств и частотных списков были поддержаны грантом, предоставленным автору Фондом имени Гумбольдта, Германия. Лемматизация для анализа словоформ в корпусе была проведена с помощью морфологического анализатора Диалинг. Поскольку многие словоформы неоднозначны (например, дорогой, были, стали, для, три, уже ), частота некоторых слов не вполне достоверна, например, для рассматривалось как глагол, только если за ним не следует существительное, прилагательное или местоимение, стали всегда рассматривалось как существительное, для супруги всегда выбиралось супруга при возможных супруг и супруги (мн.ч). Критериями для выбора словоформы служили:

частота соответствующей леммы (забрал, стану, подать в качестве существительного крайне маловероятно, поэтому в этих случаях выбирается глагол);
сравнительная частота конкретной формы (обе леммы для стали достаточно частотны, но существительное в отличие от глагола очень часто употребляется именно в этой форме; форму пора приходится считать в предикативном употреблении, в то время как существительное выступает во всех своих остальных формах).

Подобно словарю Засориной фамилии, имена и отчества были отфильтрованы из лемматизированных частотных списков, но географические названия оставлены, поскольку сложно оправдать почему в словаре Засориной оставлены московский или американский , но не Москва и Америка . Частотный список словоформ отфильтрован не был.

053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 345 Труды международной конференции «Диалог 2008» ЧАСТОТНЫЙ СЛОВАРЬ НАЦИОНАЛЬНОГО КОРПУСА РУССКОГО ЯЗЫКА: КОНЦЕПЦИЯ И ТЕХНОЛОГИЯ СОЗДАНИЯ FREQUENCY DICTIONARY OF THE RUSSIAN NATIONAL CORPUS: PRINCIPLES AND TECHNOLOGY Ляшевская О.Н. ([email protected]), Институт русского языка им. В.В. Виноградова РАН Шаров С.А. ([email protected]), Университет Лидса, Великобритания Словарь содержит представительный базовый словник современного русского языка (2- я половина XX – начало XXI вв.), снабженный информацией о частотности употребления, статистическом распределении по текстам и жанрам, по времени создания текстов. Словарь основан на текстах Национального корпуса русского языка объемом 100 млн. словоупотреб- лении. 1. Введение Для русского языка было разработано несколько частотных словарей. Пионером был словарь Г. Йоссельсона, изданный в 1953 году в Детройте на материале языка по преимуществу дореволюционной России. Словари Э.А. Штейнфельд (1963), Л.Н. Засориной (1977), Л. Леннгрена (1993) и др. были созданы на основе относительно небольших коллекций текстов (400 тысяч - 1 миллион слов) и в большой степени отражают специфику русского языка советского периода: частоты слов товарищ и партия в них сопоставимы со служеб- ными словами, а слово расческа отсутствует. Существуют также специализированные словари, в частности, сло- варь Е.М. Степановой (1976), посвященный общенаучной лексике. Отдельную отрасль статистических словарей составляют словари языка Пушкина, Достоевского, Грибоедова, Цветаевой (Виноградов 1956-1961, Шайкевич и др. 2003, Поляков 1999, Белякова и др. 1996), которые полностью описывают язык данного писателя. Новый частотный словарь – универсальный. Несмотря на то, что последний его прямой предшественник был выпущен 15 лет назад (Леннгрен 1993), очевидно, что за это время изменилось многое – как сам язык, так и технология подготовки частотных словарей. Наш словарь призван представить статистическую картину совре- менного словоупотребления (1950-2005 г.), заполнив, в частности, лакуну последних двух десятилетий, а также показать изменения, произошедшие в языке с 1950 года. Словарь базируется на 100-миллионном корпусе, в то время как предыдущие словари опирались на мате- риал объемом от 400 тыс. до 1 млн. словоупотреблений. Национальный корпус (www.ruscorpora.ru, НКРЯ 2005) более представителен по охвату материала, так как содержит сбалансированную коллекцию текстов разных типов, жанров и стилей, в том числе и тексты русского зарубежья. Распределение текстов в подкорпусе совре- менного русского языка (с 1950 года) по функциональным стилям показано в таблице 1. Тексты нехудожествен- ной литературы относятся к более чем 50 предметным областям (экономика и финансы, право, путешествия и др.), а их типология варьируется от законов и научных статей до интервью, инструкций и объявлений (всего более 100 типов). Художественные тексты включают романы, повести, рассказы, очерки, пьесы, сказки, эссе, литературные письма и др. Художественная литература 36% Публицистика 42% Прочая нехудожественная литература 17% Устная литература 5% Таблица 1. Функциональные стили подкорпуса современного русского языка Большой размер и стилистическая сбалансированность корпуса являются предпосылкой того, что он будет давать надежные статистические результаты для наиболее частотных слов: так, состав первых 20 000 элементов не будет существенно меняться, если, сохранив пропорцию, заменить данные тексты другими или сравнить несколько подвыборок корпуса. Это показывает опыт составления частотных словарей других 100-миллионных 345 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 346 Ляшевская О.Н., Шаров С.А. национальных корпусов, таких как британский, чешский (Leech et al. 2001, Čermák & Křen 2004), а также корпу- са испанского языка (Davies 2005). Естественно, что частотный словарь НКРЯ во многом, и в технологических вопросах, и содержательно, ориентируется на эти образцы. 2. Размер корпуса и надежность выборки Существующие частотные словари для русского языка были построены на сравнительно небольших кор- пусах: ЭВМ первых поколений не могли работать с корпусами большего размера. Интересно, что теоретические рекомендации, выработанные в 1970-е годы (Пиотровский и др. 1972), также доказывали, что для достоверного описания 1600-1700 наиболее частотных слов достаточно использовать корпус размером 400 тыс. словоупотреб- лений. Эта аргументация строилась на понятии доверительного интервала, который широко используется в ста- тистике и социологии: если мы знаем размер выборки и экспериментальную вероятность события в этой выбор- ке (т.е. частоту слова нашем корпусе), то мы можем вычислить доверительный интервал вероятности этого собы- тия на всей популяции (т.е. частоту употребления того же слова во всем пространстве языка). В таблице 2 приводятся примеры частоты отдельных слов в словарях Леннгрена, Засориной и Штейнфельд в сравнении с частотами НКРЯ и 150-миллионного корпуса русского языка, собранного из Интернета (о последнем см. Sharoff 2006). Несмотря на то, что слова думать, задача, любить безусловно отно- сятся к ядру языка (входят в число 200-500 самых частотных лемм), в небольших корпусах даже их частота раз- личается весьма существенно. Частота сравнительно менее частотных слов (загрязнение, изучение, милый) варьи- руется в еще больших пределах. Хотя состав Интернет-корпуса довольно существенно отличается от НКРЯ (большим количеством технических текстов и форумов и меньшим количеством художественной литературы), различия в частоте этих единиц между ними не столь велики. Лемма Леннгрен Засорина Штейнф. НКРЯ Интернет власть 202 364 138 422 428 думать 609 1094 1058 865 818 загрязнение 69 1 0 9 11 задача 499 421 250 228 292 изучение 193 110 0 63 78 любить 415 632 595 549 650 милый 58 242 135 129 110 Таблица 2. Сравнение частоты отдельных слов (среднее на миллион словоупотреблений). Как видим, теоретические рекомендации относительно достаточного размера корпуса в данном случае оказываются не слишком достоверными. Причина этого кроется в исходных допущениях на нормальное Гауссово распределение частоты слов, в соответствии с которым каждое слово встречается с одинаковой часто- той во всех текстах. Если слово встретилось в тексте один раз, то при нормальном распределении это не влияет на вероятность его употребления там во второй раз. Но в реальности это не так. Каждый текст имеет некоторую собственную тему, слова которой в этом тексте будут употребляться намного чаще среднего. В тексте про хоб- битов слово хоббит будет употребляться так же часто, как и многие служебные слова, что существенно повысит его частоту в корпусе, который будет включать хотя бы один такой текст1. В результате частотный список, построенный на основе корпуса, отражает специфику тех текстов, которые попали в него при его составлении. Таблица 2 показывает несовершенство частотных словарей, построенных на относительно небольших корпусах, но простое увеличение размера корпуса также не гарантирует стабильности результатов. При интер- претации списков частотного словаря надо помнить, что любой корпус, каким бы большим он ни был, является конечным подмножеством потенциально бесконечного множества текстов на данном языке. Любая другая выборка этого подмножества породит несколько другой список, который будет отличаться в своих менее частот- ных элементах. Корпус большего размера, отражающий большее количество тем и функциональных стилей (кор- 1 Кеннет Черч называл эту ситуацию проблемой Норьеги (Church 2000), Адам Килгаррифф - whelk problem, от сравнительно редкого английского слова, обозначающего вид моллюска (Kilgarriff 1997). 346 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 347 Частотный словарь Национального корпуса русского языка пус типа BNC или НКРЯ), обеспечивает хорошую надежность для наиболее частотных элементов. Тем не менее, дальнейшее увеличение объема текстов в ущерб их разнообразию (см., например, проекты создания Гига-корпу- сов английского и китайского языков, содержащих более миллиарда словоупотреблений новостных текстов, Cieri & Liberman 2002), может приводить к меньшей надежности частотного списка на таких корпусах за счет сдвига их словаря в сторону новостной лексики. Поскольку задачей частотного словаря является не просто ранжировать слова по их частоте в отдельном корпусе, но и определить лексическое ядро языка, необходимо отделить слова, часто встречающиеся во многих текстах, от тех, чье лексическое поведение подобно словам Норьега или хоббит, и которые случайно оказались в той или иной позиции частотного списка. Так в Чешском национальном корпусе используется понятие средней уменьшенной частоты (ARF, Average Reduced Frequency), в котором частота слова взвешивается по расстоянию между отдельными словоупотреблениями (Čermak & Křen 2005). Во многих частотных словарях (Леннгрена, Британского национального корпуса, словаря французской лексики в области бизнеса) используется коэффици- ент D, введенный А. Жуйаном (Juilland et al. 1970), который принимает во внимание как число документов, в которых встречается слово, так и его относительную частоту в этих документах: где µ – средняя частота слова по всему корпусу, σ – среднее квадратичное отклонение этой частоты на отдельных документах, n – число документов, в которых встречается это слово. Значение D у слов, встречающихся в большинстве документов, близко к 100, а у слов, часто встречаю- щихся лишь в небольшом числе документов, близко к 0. Частотный список словаря Леннгрена даже отсортиро- ван по значению произведения этого коэффициента на среднюю частоту слова. В связи с тем, что теоретический статус этого произведения неясен, мы не считали целесообразным сортировать наш словарь по нему. Однако его указание для каждого слова дает возможность оценить, насколько оно специфично для отдельных предметных областей. Например, слова жуткий, специфический и сырье имеют примерно равную частоту (21 употребление на миллион слов), но при этом коэффициент D у специфический - 66, сырье - 18, а у жуткий - 78, что означает, что последнее слово значимо для большего числа предметных областей и (при прочих равных условиях) имеет большие шансы на место в неспециализированном словаре. 3. Структура словаря Концепция словаря предполагает издание «бумажной» версии с сопутствующим ей электронным вариан- том, представляющим частотный словарь в более полном объеме. Словарная часть содержит следующие разде- лы: I. Общая лексика ● алфавитный список лемм ● частотный список лемм ● распределение лемм по функциональным стилям: частотный словарь художественной литературы, словарь значимой лексики художественной литературы частотный словарь публицистики, словарь значимой газетно-новостной лексики частотный словарь другой нехудожественной литературы, словарь значимой лексики частотный словарь живой устной речи, словарь значимой лексики живой устной речи ● алфавитный список словоформ II. Части речи ● частотный список имен существительных ● частотный список глаголов ● частотный список имен прилагательных ● частотный список наречий и предикативов ● частотный список местоимений (местоимения-существительные, прилагательные, наречия, предикати- вы) ● частотный список лемм служебных частей речи III. Вспомогательные таблицы 347 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 348 Ляшевская О.Н., Шаров С.А. ● данные о частотности частеречных классов и другая статистическая информация IV. Имена собственные и аббревиатуры ● алфавитный список лемм В алфавитном списке лемм приводится имя леммы, часть речи, общая частота леммы, число документов, в которых она встретилась и коэффициент вариации D. Общая частота характеризует число употреблений на миллион слов корпуса, или ipm (instances per million words). Это делается для того, чтобы упростить сравнение частоты слова в разных корпусах, которые могут довольно сильно отличаться по своим размерам. Например, если слово власть встречается 55 раз в корпусе размером 400 тыс. слов, 364 раза в миллионном корпусе и 40598 раз в 100-миллионном корпусе современного русского языка и 55673 раза в большом 135-миллионном корпусе НКРЯ, то его частота в ipm составит 137.5, 364.0, 372.06 и 412.39, соответственно. Алфавитный список электро- нного издания включает 60 000 наиболее частотных лемм. В списке лемм, упорядоченном по частотности, указываются имя леммы, часть речи, общая частота леммы, число документов, коэффициент D и распределение частотности по десятилетиям. Частотный список включает 20 000 самых частотных лемм. Частотные словари функциональных стилей составлены на основе подкорпусов художественной литера- туры, публицистики, другой нехудожественной литературы и устной речи. В список включены 5 000 самых частотных лемм этих подкорпусов. Список наиболее типичных лемм для каждого типа текстов был выделен на основе сравнения частоты лемм в таких текстах и в остальном корпусе. В качестве метрики сравнения был использован критерий отношения правдоподобия (log-likelihood), вычисляемый на основе следующей матрицы: Подкорпус Другие тексты Весь корпус Частота а b а+b Размер с d c+d На основе этой матрицы значение отношения правдоподобия G2 можно вычислить по следующей форму- ле (Rayson & Garside 2000): Словари значимой лексики для разных функциональных стилей включают по 500 лемм. Алфавитный список словоформ включает все словоформы корпуса с частотой выше 0.1 ipm (всего около 15 тыс.); приводится общая частота словоформы. Омонимичные словоформы помечаются знаком *. В разделе «Части речи» частотный список лемм разбит на шесть подсписков: имена существительные, гла- голы, имена прилагательные, наречия и предикативы, местоимения и служебные части речи. Для каждой леммы указана ее общая частота и ранг (порядковый номер) в общем списке. Каждый список содержит по 1 тысяче наи- более частотных лемм. Вспомогательные таблицы включают в себя данные о частотности частеречных классов, других грамма- тических категорий, а также информацию о покрытии текста лексемами, средней длине слова, словоформы и предложения. Завершает словарь алфавитный список имен собственных и аббревиатур. Имена собственные отделены от основной части словника, так как образуют значительно менее стабильную в статистическом отношении группу, а их частотность в большой степени зависит от выбора текстов в корпусе и их хронотопа. В Леннгрен 1993 выска- зано мнение, что включение имен собственных в частотный словарь на общих основаниях неизбежно приводит к его преждевременному устареванию. Для получения списка имен собственных и аббревиатур из конкорданса корпуса были выделены имена существительные и сокращения, написание которых в текстах с большой буквы превышало 95-процентный порог, ср. Россия, Смирнов, ГРЭС, МИД, КЗоТ.2 В словарь включена ядерная часть этого списка, насчитывающая 3 000 наиболее частотных единиц. По традиции, сложившейся для изданий такого рода, на страницах словаря представлена рубрика «Интересные факты»: публикуются списки самых популярных слов различных лексических групп (дни недели, погодные явления, цвета, глаголы движения и т.д.), а также самые длинные словоформы и частотный список зна- ков пунктуации. 2 Особо отметим, что прилагательные типа Христов, Петин, Костромской/костромской относятся к общей лексике. 348 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 349 Частотный словарь Национального корпуса русского языка 6429 костюм 2288 плащ 4890 сапог 2179 юбка 3696 пальто 1904 шинель 3696 рубашка 1894 наряд* 3410 куртка 1822 туфля 3396 шапка 1668 рубаха 3126 ботинок 1633 джинсы 3041 платок 1585 перчатка 2962 пиджак 1522 шуба 2955 брюки 1356 мундир 2840 штаны 1251 фуражка 2686 шляпа 1235 свитер 2617 берет 1134 валенок Таблица 3. Частотный список обозначений одежды и обуви. В качестве примера в таблице 3 мы приводим частоты имен существительных, обозначающих одежду и обувь. Как можно ожидать, список отражает, с одной стороны, «типичность» элементов гардероба (валенки зани- мают только 26 место в списке), а с другой стороны, их «значимость» при описании внешности человека в тек- стах (костюм – более перцептивно выделенная вещь, чем ботинки). 4. Подготовка словарного материала Базовые списки частотного словаря были получены в автоматическом режиме, при этом использовалась метатекстовая и лексико-грамматическая разметка корпуса. На основе метатекстовой информации были построе- ны и сравнивались между собой частотные списки на отдельных выборках корпуса (по функциональным стилям, по времени создания текста). Другой вид разметки, лексико-грамматическая, позволяет установить исходную форму слова (лемму), ее часть речи и такие грамматические характеристики, как падеж, число, время и т. д.3 Это дало возможность собрать данные о частотности не только отдельных словоформ, но и лексем, а также об упо- требительности тех или иных грамматических категорий. При создании настоящего словаря был использован вариант лексико-грамматической разметки корпуса с автоматическим разрешением морфологической омонимии. Русский язык как язык с богатым словоизменением создает дополнительные трудности для составителей частотного словаря, так как многие словоформы в текстах омонимичны (ср. словоформу стали как форму глаго- ла стать и существительного сталь, словоформу банка, представляющую леммы банк и банка, слова типа вера и Вера). Тем не менее, в частотном словаре исходная форма слова, или лемма, должна быть приписана любой словоформе однозначно. В словарях предшествующего поколения (Засорина 1977, Леннгрен 1993) омонимия разрешалась вруч- ную, так как объем обрабатываемого корпуса был незначителен. Очевидно, что для 100-миллионного корпуса такое решение не подходит. При составлении настоящего словаря был учтен опыт чешских коллег, которым при- шлось дорабатывать морфологический анализатор, пополнять словарь и проводить ручную редактуру. Первоначально корпус НКРЯ был размечен морфологическим анализатором Mystem (Сегалович, Маслов 1998). Неоднозначность в лексико-грамматической разметке была разрешена с помощью программы А.В. Сокирко, использующей модель триграмм и тренировочный подкорпус со снятой вручную омонимией (Сокирко, Толдова 2005). Существенную проблему для лемматизации представляют также несловарные слова (Ляшевская и др. 2007). Если слово отсутствует в грамматической словаре морфологического парсера, то ему приписываются одна или несколько гипотез об исходной форме слова и его грамматических характеристиках. В результате в частот- 3 Принципы лемматизации и состав частей речи определяются морфологическим стандартом корпуса (НКРЯ 2005), который в общем и целом соответствует принципам Грамматического словаря русского языка (Зализняк 1977). Некоторые особенно- сти лемматизации связаны с тем, что сбор данных происходит по преимуществу в автоматическом режиме. Отметим, что учи- тывается только пословная разметка: устойчивые обороты, составные предлоги и другие неоднословные лексические едини- цы (ср. Новый год, в течение, тем не менее, друг друга) не включаются в словарь. 349 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 350 Ляшевская О.Н., Шаров С.А. ный словарь попадают такие «леммы», как благодарностий (ср. словоформу благодарностию), Янсный (ср. Янсен), Барклаивать (ср. Барклай). Между тем, доля несловарных словоформ в НКРЯ составляет 3% всех сло- воупотреблений и 45% списка словоформ корпуса. Для частотных несловарных словоформ использовались про- граммы пост-обработки морфологической разметки НКРЯ, составленные Б.П. Кобрицовым и Г.К. Бронниковым, а также результаты валидации работы этих программ, полученные О.Н. Ляшевской и Д.К. Бронниковой (Ляшевская 2007, Бронникова 2007). Наиболее эффективными оказались два подхода к лемматизации несловар- ных слов: кластеризация гипотез о лемме и типе парадигмы (наиболее вероятным для словоформы считается тот разбор, который встречается и у других несловарных словоформ, таким образом, словоформы «ищут» себе сосе- дей по словоизменительной парадигме) и выделение наиболее продуктивных приставок. Поскольку автоматическое разрешение омонимии и интерпретация несловарных форм допускают опреде- ленную, хотя и незначительную, погрешность, омонимы, входящие в первые 20 тысяч частотных слов, подверг- лись дополнительной ручной проверке. *** Авторы выражают благодарность В.А. Плунгяну, А.Я. Шайкевичу, а также Е.А. Гришиной, Б.П. Кобрицову, Е.В. Рахилиной, Д.В. Сичинаве и другим участникам семинара НКРЯ, принимавшим участие в обсуждении принципов создания словаря. Мы благодарим О. Урюпину, Д. и Г. Бронниковых, Б. Кобрицова, сотрудников ООО «Яндекс» А. Аброскина, Н. Григорьева, А. Сокирко за помощь в сборе и обработке материала. Список литературы 1. Бронникова Д.К. Сравнение алгоритмов лемматизации на материале Национального корпуса русского языка. Дипломная работа. М.: РГГУ, 2007. 2. Белякова И.Ю., Оловянникова И.П., Ревзина О.Г. (сост.). Словарь поэтического языка Марины Цветаевой. В 4-х томах. М: Дом-музей Марины Цветаевой, 1996. 3. Виноградов В.В. (отв. ред.). Словарь языка Пушкина. Т. I – IV. М., 1956-1961. 4. Зализняк А.А. Грамматический словарь русского языка: Словоизменение. М., 1977; 4-е изд.: М.: Русские словари, 2003. 5. Засорина Л.Н. (ред.). Частотный словарь русского языка. Москва: Русский язык, 1977. 6. Лённгрен Л. (ред.). Частотный словарь современного русского языка . Uppsala, 1993. 7. Ляшевская О.Н.. К проблеме лемматизации несловарных слов // Компьютерная лингвистика и интеллекту- альные технологии: Труды международной конференции «Диалог 2007». М, 2007. 8. Ляшевская О.Н., Кобрицов Б.П., Сичинава Д.В. Автоматизация построения словаря на материале массива несловарных словоформ // Интернет-математика 2007. Екатеринбург, 2007. 9. НКРЯ: Национальный корпус русского языка 2003-2005: Результаты и перспективы. М.: Индрик, 2005. 10. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А.. Математическая лингвистика. М.: Высшая школа, 1972. 11. Поляков А.Е.. Электронный словарь языка писателя (на примере языка А.С. Грибоедова) // Труды Международного семинара Диалог-99 по компьютерной лигвистике и ее приложениям. Таруса, 1999. М., 1999. Т. 2. С. 230-236. 12. Сегалович И., Маслов М.. Русский морфологический анализ и синтез с генерацией моделей словоизмене- ния для не описанных в словаре слов // Труды международной семинара Диалог’98 по компьютерной лингви- стике и ее приложениям. Казань, 1998. Т.2. С. 547–552. 13. Сокирко А.В., Толдова С.Ю. Сравнение эффективности двух методик снятия лексической и морфологи- ческой неоднозначности для русского языка // Международная конференция «Корпусная лингвистика 2004». С.- Пб., 2004. 14. Степанова Е.М. Частотный словарь общенаучной лексики. М., 1976. 15. Шайкевич А.Я., Андрющенко В.М., Ребецкая Н.А. Статистический словарь языка Достоевского. М.: Языки славянской культуры, 2003. 16. Штейнфельд Э.А. Частотный словарь современного русского литературного языка. Таллин, 1963. 17. Čermák F., Křen M. (eds.). Frekvenční slovník češtiny (Frequency dictionary of Czech). Praha: NLN, 2004. 18. Čermák F., Křen M. New generation corpus-based frequency dictionaries: The case of Czech // International Journal of Corpus Linguistics, 10, 2005. P. 453-467. 19. Church K.W. Empirical estimates of adaptation: the chance of two Noriegas is closer to p/2 than p2 // Proceedings of the 18th Сonference on Computational Linguistics (COLING). Saarbrücken, Germany, 2000. Vol. 1. P. 180-186. 20. Cieri Ch., Liberman M. Language resources creation and distribution at the Linguistic Data Consortium // Proceedings of LREC 02. Las Palmas, Spain, 2002. C. 1327-1333. 350 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 351 Частотный словарь Национального корпуса русского языка 21. Davies M. A Frequency Dictionary of Spanish: Core Vocabulary for Learners. London – N.Y.: Routledge, 2005. 22. Josselson H.H. The Russian Word Count and Frequency Analysis of Grammatical Categories of Standard Literary Russian. Detroit: Wayne University Press, 1953. 23. Juilland A., Brodin D., Davidovitch C. Frequency Dictionary of French Words. The Hague-Paris: Mouton, 1970. 24. Kilgarriff A. Putting frequencies in the dictionary // International Journal of Lexicography, 10 (2), 1997. P. 135- 155. 25. Leech G., Rayson P., Wilson A. Word Frequencies in Written and Spoken English: based on the British National Corpus. London: Longman, 2001. 26. Rayson P., Garside R. Comparing corpora using frequency profiling // Proceedings of the Comparing Corpora Workshop at ACL 2000. Hong Kong, 2000. P. 1-6. 27. Sharoff S. Creating general-purpose corpora using automated search engine queries // Baroni M., Bernardini S. (eds.), WaCky! Working papers on the Web as Corpus. Bologna: Gedit, 2006. http://wackybook.sslmit.unibo.it. 351

В котором отобраны наиболее употребительные в речи слова (обычно в пределах нескольких тысяч). В качестве пособия для преподавателей был издан “Частотный словарь современного русского литературного языка” Э. А. Штейнфельдт (1963 г.). В словаре, содержащем 2500 слов, дается список слов по частоте, списки слов по частям речи, с указанием частотности некоторых форм, и общий список слов по алфавиту. В 1968 г. вышел словарь “2380 наиболее употребительных слов русской разговорной речи”, подготовленный преподавателями русского языка Университета дружбы народов им. Патриса Лумумбы. Более полным по составу является изданный в США частотный словарь Г.Г. Йоссельсона (1953 г.), построенный на разнообразном по жанрам материале с общим количеством слов около одного миллиона и содержащий 5230 слов, приводимых в двух списках; в первом указанное количество слов разбито на шесть групп в порядке убывающей частотности употребления, во втором слова расположены в алфавитном порядке, с указанием номера группы, в которой слово представлено в первом списке. При оценке и использовании этого словаря следует иметь в виду, что почти половина обследованных текстов относится к дореволюционному периоду (из них 25% к периоду 1830-1900 гг.), поэтому вытекающие из этого материала лингвостатистические выводы во многих случаях не отражают современное словоупотребление. Особый подбор материала имеется в двух частотных словарях Фр. Малиржа. Один из них (1951 г.) создан на материале советских газет и журналов 1948 г., другой (1961 г.) построен на анализе текстов писем советских школьников к чехословацким; оба преследуют учебные цели. В 1970 г. вышел “Частотный словарь общенаучной лексики” под редакцией Е. М. Степановой, а в 1971 г. “Частотный словарь языка газеты” Г. П. Поляковой и Г. Я. Солганика. Этимологический словарь. Словарь, содержащий слова с объяснением их происхождения. Первым русским этимологическим словарем был “Корнеслов русского языка, сравненного со всеми главнейшими славянскими наречиями и с двадцатью четырьмя иностранными языками” ф. С. Шимкевича (1842 г.). В словаре разработано 1378 корней обиходных русских слов, во многих случаях имеются произвольные сопоставления и ошибочные утверждения. Следующим в хронологическом порядке был “Опыт словаря русского языка сравнительно с языками индоевропейскими” М. Иэюмова (1880 г.), стоявший также на невысоком теоретическом уровне. Выше по качеству, хотя несвободным от неверных объяснений, был “Сравнительный этимологический словарь русского языка” Н. В. Горяева (1892 г.). Наиболее известен из дореволюционных изданий “Этимологический словарь русского языка” А. Г. Преображенского (при жизни автора вышло в 1910- 1916 гг. 14 выпусков, объединенных в два тома; окончание было опубликовано в 1949 г. в “Трудах Института русского языка АН СССР”; словарь полностью переиздан фотомеханическим способом). Словарь содержит объяснение этимологии многих общеупотребительных русских слов и части заимствованных. Как те, так и другие группируются по первообразным словам или по корням. При редко встречающихся словах обычно приводятся ссылки на писателей. Хотя словарь далеко не полон и содержит немало устаревших для нашего времени или просто неверных объяснений, он и сейчас служит важным пособием по этимологии. В 1961 г. вышел “Краткий этимологический словарь русского языка” Н. М. Шанского, В. В. Иванова и Т. В. Шанской, под редакцией С. Г. Бархударова. Словарь, изданный как научно-популярное пособие для учителя средней школы, содержит этимологическое толкование общеупотребительных слов современного русского литературного языка, входящих вего активный запас. При объяснении русских слов обычно приводится последовательность словообразовательного процесса (второе издание вышло в 1971 г., третье, исправленное и дополненное,- в 1975 г.). Для школьной практики предназначались тауже пробный “Школьный этимологический словарь”, созданный коллективом языковедов Калининского государственного педагогического института под руководством Г. М. Милейковской и рассматривающий 180 корней (1957 г.), и словарь “Почему не иначе?” Л. В. Успенского, содержащий занимательные рассказы о жизни слов (1967 г.). В 1970 г. появился “Этимологический словарь русского языка” Г. П. Цыганенке, изданный в Киеве. Словарь имеет научно-популярный характер и в качестве справочного пособия предназначен для учителей-словесников и учащихся средней школы. С 1963 г. стал выходить отдельными выпусками “Этимологический словарь русского языка”, работа над которым ведется в этимологическом кабинете Московского государственного университета под руководством Н. М. Шанского. Словарь, предназначенный для специалистов-филологов, предполагается издать в восьми основных и двух дополнительных томах, в которых будет дана этимология диалектизмов и устаревших слов. Этимологические исследования в области русского языка проводятся и за рубежом. В 1950- 1958 гг. в Гейдельберге отдельными выпусками вышел трехтомный. “Русский этимологический словарь” М. Фасмера (в 1964-1973 гг. под названием “Этимологический словарь русского языка” с дополнениями переводчика О. Н. Трубачева он был издан на русском языке в четырех томах в Москве). Этот словарь является самым обширным из словарей данного типа и содержит, кроме нарицательных существительных, довольно большое количество имен лиц и географических названий. Однако словарь не свободен от неточностей, ошибок, неоправданных сопоставлений. В настоящее время начато издание многотомного “Этимологического словаря славянских языков. Праславянский лексический фонд”, которое осуществляется под редакцией О. Н. Трубачева. В первом выпуске (1974г.) содержится предисловие с изложением принципов реконструкции праславянской лексики, списки литературы и собственно словарь. К типу этимологических словарей примыкает “Краткий топонимический словарь” В. А. Никонова, содержащий сведения о происхождении и судьбе около 4 000 названий наиболее крупных географических объектов СССР и зарубежных стран (1966 г.), а также

“Словарь русских личных имен” Н. А. Петровского, включающий около 2600 личных имен и сообщающий сведения об их происхождении (1967 г.), и “Словарь названий жителей (РСФСР)” (под редакцией А. М. Бабкина), в котором собрано около 6000 названий жителей населенных пунктов Российской Федерации и названий жителей столиц союзных республик (1964 г.), “Словарь названий жителей СССР” (под редакцией А. М. Бабкина и Е. А. Левашова), в приложении к которому приводится также первый опыт собрания названий жителей городов зарубежных стран (1975 г.).

ЧАСТОТНЫЙ СЛОВАРЬ

вид словаря (См. Словарь) (обычно одноязычного), в котором лексические единицы характеризуются с точки зрения степени их употребительности в совокупности текстов, представительных либо для языка в целом, либо для отдельного функционального стиля (См. Стиль), либо для одного автора. В зависимости от типа лексические единицы различаются Ч. с. словоформ, слов (лексем), основ слов (используются в информатике), слов в определённых значениях (семантический Ч. с.), словосочетаний. Различаются абсолютные и относительные характеристики употребительности лексической единицы (x ).Абсолютной характеристикой является частота (f ) данной лексической единицы (х ), равная числу употреблений х в обследованной совокупности текстов f (x ). В Ч. с. приводится либо f (x ), либо нормированная частота

где N - число исследованных слов текста. Относительной характеристикой употребительности лексической единицы является либо её ранг (число лексических единиц, которые в данном Ч. с. имеют абсолютную характеристику употребительности, более высокую или равную абсолютной характеристике данной лексической единицы), либо какой-либо признак, по которому ранг может быть вычислен с большей или меньшей точностью. В большинстве Ч. с. приводятся и абсолютные, и относительные характеристики. Ч. с. используются для создания эффективных методик обучения языку, для выделения ключевых слов (в информатике), для создания рациональных кодов (в теории связи).

Лит.: Ермоленко Г. В., Лингвистическая статистика. Краткий очерк и библиографический указатель, Алма-Ата, 1970; Штейнфельдт Э. А., Частотный словарь современного русского литературного языка, М., 1973; Частотный словарь русского языка, под ред. Л. Н. Засориной, М., 1977; Kučera Н., Francis W., Computational analysis of present-day American English, Providence, 1967; Kvantitativni lingvistika, Statni knihovna ČSSR, 1964-1972; Meier Н., Deutsche Sprachstatistik, Bd 1-2, Hildesheim, 1964; Dictionnaire des fréquences vocabulaire littéraire des XIX et XX siecles, v. 1- 4, P.- Nancy, 1971 (Centre de recherche pour un trésor de la langue française); Bailey R., Doležel L., An annotated bibliography of statistical stylistics, Ann Arbor, 1968.