Частоты и слова
Страница 1

Чем чаще встречается в текстах слово, тем оно употребительнее, или, говоря языком математики, имеет большую частоту. Но как избежать слов, характерных только для данного текста, а в других почти не встречающихся? Самый лучший путь — брать не один источник, а несколько. А затем, подсчитав, сколько раз встречаются в этих книгах различные слова, сравнить результаты. Если они совпадают, то слово действительно является частым (или редким). Если не совпадают, то, значит, в одном из текстов оно было завышено из-за сюжета или пристрастия автора к этому слову.

Так, весьма частое для «Капитанской дочки» слово крепость, встретилось всего лишь в четырнадцати источниках из ста тридцати трех. Значит, слово это отнюдь не частое и занимает скромное место в списке самых употребительных слов русского языка. А составляй мы список лишь по «Капитанской дочке», то оно вошло бы едва ли не в первую двадцатку самых ходовых слов нашего языка!

В «Истории Пугачева» оно встречается еще чаще — сто тридцать четыре раза (ведь там речь то и дело идет о крепостях, взятых Пугачевым). В «Путешествии в Арзрум» оно встречается шестнадцать раз. Зато во всех художественных произведениях (кроме «Капитанской дочки») Пушкин употребил слово крепость всего один раз (в «Дубровском») и два раза в стихотворениях и поэмах.

Но не только количество разных текстов может гарантировать наши подсчеты от случайности. Не менее важно взять большой объем этих текстов. И чем он больше, тем вернее мы гарантированы, что никакие случайные факторы не повлияют на точность наших подсчетов.

Подсчеты частот слов производились давно: еще в средние века составлялись индексы к религиозным текстам, в которых указывалось, сколько и где упоминаются слова бог, ангел и т. д. Но только на пороге нашего века появляется серьезная потребность в частотных словарях. Первым таким словарем считается словарь немецкого языка, выпущенный в Берлине в 1897–1898 годах. Его составитель Ф. Кединг обработал колоссальный материал в одиннадцать миллионов слов!

Вслед за тем приходит черед частотных словарей английского языка. В Лондоне в 1904 году священник Дж. Ноулз составляет список из слов, которые встретились более двадцати пяти раз в текстах, объемом в сто тысяч слов.

Американец Р. Элдридж, управляющий небольшой фабрикой, где в основном работали иммигранты, за два года расписал на карточки двести пятьдесят статей из газет, составивших около пятидесяти тысяч слов, и подсчитал частоты этих слов.

Первоначально, как говорил Элдридж в предисловии к своему словарю, выпущенному в 1911 году, его целью было выявить минимум слов, который помог бы рабочим-иностранцам быстро овладеть разговорной речью. Но затем, продолжает Элдридж, он понял, что частотные словари могут принести и более существенную пользу, в том числе оказать помощь в реформе английской орфографии, которую справедливо называют «чудовищной».

Но частотные словари Ноулза, Элдриджа, а также ряд других, выпущенных в начале нашего века, были все-таки любительскими, ненадежными. Ноулз опирался на текст Библии, Элдридж — на текст газетных статей, другие авторы — на выборки из различных писем. Да и объем исследуемого материала был невелик. В двадцатых годах профессора Колумбийского университета Э. Торндайк и И. Лордж начинают работу над серией больших частотных словарей английского языка. Завершился их четвертьвековой труд выпуском крупнейшего в мире частотного словаря. Обработав различные тексты общим объемом в восемнадцать миллионов слов, ученые привели в своем словаре тридцать тысяч слов, которые встретились в этих текстах.

Страницы: 1 2

Другие статьи:

МОДЕЛЬ МИРА
Соотношение языка, культуры и окружающего мира — вот предмет изучения этнолингвистики, науки, родившейся на стыке языкознания, этнографии и истории культуры. Об увлекательнейших проблемах этой дис ...

О способностях к языку
Вплоть до тех пор, пока новый Кальман Кёньвеш со всей силой своего авторитета не заявит, что никаких талантов и способностей к языку не существует, мы будем вновь и вновь слышать замечания вроде: ...