Как наполняют сокровищницу?

Как составляются тезаурусы?

Роджет ничего не знал и, разумеется, не мог знать, каких результатов достигнут науки, занимающиеся проблемой смысла, но он интуитивно понял основные принципы составления тезаурусов: сначала собираются слова из текстов или различных словарей. Затем слова эти выстраиваются по алфавиту, а после из них образуются определение группы, связанные по смыслу.

Какой может быть эта смысловая связь? Во-первых, одно и то же значение можно выразить с помощью разных слов или оборотов. Вполне понятно, что все синонимы будут объединены. Во-вторых, смыслы слов могут быть полностью противоположны (как антонимы типа холодный — горячий, мертвый — живой и т. п.) В-третьих, смысл одного слова может включать в себя смысл другого, или даже многих слов, например значение слова человек включает в себя наименования сотен различных национальностей нашей планеты. Смысловые связи между словами могут строиться по типу причина — следствие или часть — целое. Наконец значения слов между собой связаны самыми различными ассоциациями. Причем именно проблема ассоциаций является наиболее трудно разрешимой задачей при построении того или иного тезауруса.

Специалистам в данной области науки нетрудно выделить термины, которыми эта наука пользуется. Сложнее построить иерархию из слов-терминов по смыслу. Однако и эта задача разрешима логическим путем. Можно разграничить смысл слов и словосочетаний, которые образуют новые значения. Например, термины скорость бурения и бурение скоростное — это не синонимы, они имеют совершенно разные значения, так же как дюнный песок и песчаная дюна. Но специалисты по информатике с успехом ликвидируют подобного рода случаи (в первом случае бурение является аспектом, а во втором — атрибутом; в сочетании песчаная дюна песок — вещественная составляющая, а в сочетании дюнный песок — причина образования дюны).

С ассоциациями дело обстоит много сложней. Ибо здесь действуют законы не двузначной, а многозначной логики.

В тезаурусах группируются, например, понятия ранение — несчастные случаи — диагноз — медицина — патология — терапия или чернила — краски — печатание — письмо. Интуитивно нам понятно, что объединение этих слов оправдано. Но попробуйте-ка доказать его путем формальной логики, и вы убедитесь, что это далеко не так просто, как на первый взгляд кажется. А ведь такие связи существуют не только между обычными словами языка, но и научными терминами.

Еще в 1942 году американский исследователь А. Л. Болдуин попытался внести количественные меры в изучение смысловых связей между словами. Он подсчитал совместную встречаемость слов в письмах, написанных одной женщиной, и показал, что частоты их могут быть указателями настроений этой женщины, круга ее интересов и т. п. С тех пор предложено несколько десятков формул, по которым можно вычислять смысловые связи слов.

Применяются для выявления этих связей и электронные вычислительные машины.

Конечно, как замечает один из специалистов по информатике — Р. М. Нидхем, «нельзя ожидать, что в результате нескольких часов работы ЭВМ. будет получено нечто, что могло бы сразу же заменить интуицию и труд ученого (который все равно необходим при выборе единиц анализа и интерпретации результатов). На что мы можем надеяться — так это на то, что выявятся группы слов, ранее не замеченные, но потенциально возможные».

Тезаурусы составляются учеными в «союзе» с машиной.

Сначала группа специалистов подчеркивает термины в данной области знания. Затем тексты вводятся в ЭВМ, которая выдает эти слова в исходной форме, то есть в именительном падеже, единственном числе и т. п. Потом специалисты разбивают на участки смысловое «поле», внутри этих участков производят более мелкое деление, а полученную схему оформляют в виде анкеты.

Анкета заполняется специалистами по каждому термину, а затем она поступает в ЭВМ, которая объединяет все термины, имеющие одинаковые признаки. И, наконец, человек составляет из них тезаурус.

Другие статьи:

Сколько слов нужно знать?
Тот факт, что словарь языка содержит примерно 300 тысяч слов, имеет только теоретический интерес для начинающего изучать этот язык. Едва ли не главный принцип для разумной организации своих заняти ...

Эпилог… с продолжением
Наш рассказ о языках мира подошел к концу. Мы совершили три кругосветных путешествия. Сначала вслед, за народами, говорящими на индоевропейских языках, побывали на всех материках планеты (ведь и н ...