Чем чаще встречается в текстах слово, тем оно употребительнее, или, говоря языком математики, имеет большую частоту. Но как избежать слов, характерных только для данного текста, а в других почти не встречающихся? Самый лучший путь — брать не один источник, а несколько. А затем, подсчитав, сколько раз встречаются в этих книгах различные слова, сравнить результаты. Если они совпадают, то слово действительно является частым (или редким). Если не совпадают, то, значит, в одном из текстов оно было завышено из-за сюжета или пристрастия автора к этому слову.
Так, весьма частое для «Капитанской дочки» слово крепость, встретилось всего лишь в четырнадцати источниках из ста тридцати трех. Значит, слово это отнюдь не частое и занимает скромное место в списке самых употребительных слов русского языка. А составляй мы список лишь по «Капитанской дочке», то оно вошло бы едва ли не в первую двадцатку самых ходовых слов нашего языка!
В «Истории Пугачева» оно встречается еще чаще — сто тридцать четыре раза (ведь там речь то и дело идет о крепостях, взятых Пугачевым). В «Путешествии в Арзрум» оно встречается шестнадцать раз. Зато во всех художественных произведениях (кроме «Капитанской дочки») Пушкин употребил слово крепость всего один раз (в «Дубровском») и два раза в стихотворениях и поэмах.
Но не только количество разных текстов может гарантировать наши подсчеты от случайности. Не менее важно взять большой объем этих текстов. И чем он больше, тем вернее мы гарантированы, что никакие случайные факторы не повлияют на точность наших подсчетов.
Подсчеты частот слов производились давно: еще в средние века составлялись индексы к религиозным текстам, в которых указывалось, сколько и где упоминаются слова бог, ангел и т. д. Но только на пороге нашего века появляется серьезная потребность в частотных словарях. Первым таким словарем считается словарь немецкого языка, выпущенный в Берлине в 1897–1898 годах. Его составитель Ф. Кединг обработал колоссальный материал в одиннадцать миллионов слов!
Вслед за тем приходит черед частотных словарей английского языка. В Лондоне в 1904 году священник Дж. Ноулз составляет список из слов, которые встретились более двадцати пяти раз в текстах, объемом в сто тысяч слов.
Американец Р. Элдридж, управляющий небольшой фабрикой, где в основном работали иммигранты, за два года расписал на карточки двести пятьдесят статей из газет, составивших около пятидесяти тысяч слов, и подсчитал частоты этих слов.
Первоначально, как говорил Элдридж в предисловии к своему словарю, выпущенному в 1911 году, его целью было выявить минимум слов, который помог бы рабочим-иностранцам быстро овладеть разговорной речью. Но затем, продолжает Элдридж, он понял, что частотные словари могут принести и более существенную пользу, в том числе оказать помощь в реформе английской орфографии, которую справедливо называют «чудовищной».
Но частотные словари Ноулза, Элдриджа, а также ряд других, выпущенных в начале нашего века, были все-таки любительскими, ненадежными. Ноулз опирался на текст Библии, Элдридж — на текст газетных статей, другие авторы — на выборки из различных писем. Да и объем исследуемого материала был невелик. В двадцатых годах профессора Колумбийского университета Э. Торндайк и И. Лордж начинают работу над серией больших частотных словарей английского языка. Завершился их четвертьвековой труд выпуском крупнейшего в мире частотного словаря. Обработав различные тексты общим объемом в восемнадцать миллионов слов, ученые привели в своем словаре тридцать тысяч слов, которые встретились в этих текстах.
Другие статьи:
МОДЕЛЬ МИРА
Соотношение языка, культуры и окружающего мира — вот предмет изучения этнолингвистики,
науки, родившейся на стыке языкознания, этнографии и истории культуры. Об увлекательнейших
проблемах этой дис ...
О способностях к языку
Вплоть до тех пор, пока новый Кальман Кёньвеш со всей силой своего авторитета
не заявит, что никаких талантов и способностей к языку не существует, мы будем вновь
и вновь слышать замечания вроде:
...