Как составляются тезаурусы?
Роджет ничего не знал и, разумеется, не мог знать, каких результатов достигнут науки, занимающиеся проблемой смысла, но он интуитивно понял основные принципы составления тезаурусов: сначала собираются слова из текстов или различных словарей. Затем слова эти выстраиваются по алфавиту, а после из них образуются определение группы, связанные по смыслу.
Какой может быть эта смысловая связь? Во-первых, одно и то же значение можно выразить с помощью разных слов или оборотов. Вполне понятно, что все синонимы будут объединены. Во-вторых, смыслы слов могут быть полностью противоположны (как антонимы типа холодный — горячий, мертвый — живой и т. п.) В-третьих, смысл одного слова может включать в себя смысл другого, или даже многих слов, например значение слова человек включает в себя наименования сотен различных национальностей нашей планеты. Смысловые связи между словами могут строиться по типу причина — следствие или часть — целое. Наконец значения слов между собой связаны самыми различными ассоциациями. Причем именно проблема ассоциаций является наиболее трудно разрешимой задачей при построении того или иного тезауруса.
Специалистам в данной области науки нетрудно выделить термины, которыми эта наука пользуется. Сложнее построить иерархию из слов-терминов по смыслу. Однако и эта задача разрешима логическим путем. Можно разграничить смысл слов и словосочетаний, которые образуют новые значения. Например, термины скорость бурения и бурение скоростное — это не синонимы, они имеют совершенно разные значения, так же как дюнный песок и песчаная дюна. Но специалисты по информатике с успехом ликвидируют подобного рода случаи (в первом случае бурение является аспектом, а во втором — атрибутом; в сочетании песчаная дюна песок — вещественная составляющая, а в сочетании дюнный песок — причина образования дюны).
С ассоциациями дело обстоит много сложней. Ибо здесь действуют законы не двузначной, а многозначной логики.
В тезаурусах группируются, например, понятия ранение — несчастные случаи — диагноз — медицина — патология — терапия или чернила — краски — печатание — письмо. Интуитивно нам понятно, что объединение этих слов оправдано. Но попробуйте-ка доказать его путем формальной логики, и вы убедитесь, что это далеко не так просто, как на первый взгляд кажется. А ведь такие связи существуют не только между обычными словами языка, но и научными терминами.
Еще в 1942 году американский исследователь А. Л. Болдуин попытался внести количественные меры в изучение смысловых связей между словами. Он подсчитал совместную встречаемость слов в письмах, написанных одной женщиной, и показал, что частоты их могут быть указателями настроений этой женщины, круга ее интересов и т. п. С тех пор предложено несколько десятков формул, по которым можно вычислять смысловые связи слов.
Применяются для выявления этих связей и электронные вычислительные машины.
Конечно, как замечает один из специалистов по информатике — Р. М. Нидхем, «нельзя ожидать, что в результате нескольких часов работы ЭВМ. будет получено нечто, что могло бы сразу же заменить интуицию и труд ученого (который все равно необходим при выборе единиц анализа и интерпретации результатов). На что мы можем надеяться — так это на то, что выявятся группы слов, ранее не замеченные, но потенциально возможные».
Тезаурусы составляются учеными в «союзе» с машиной.
Сначала группа специалистов подчеркивает термины в данной области знания. Затем тексты вводятся в ЭВМ, которая выдает эти слова в исходной форме, то есть в именительном падеже, единственном числе и т. п. Потом специалисты разбивают на участки смысловое «поле», внутри этих участков производят более мелкое деление, а полученную схему оформляют в виде анкеты.
Анкета заполняется специалистами по каждому термину, а затем она поступает в ЭВМ, которая объединяет все термины, имеющие одинаковые признаки. И, наконец, человек составляет из них тезаурус.
Другие статьи:
Как читать?
Поначалу особенно не размахиваясь, почти поверхностно, а затем уже придирчиво,
скрупулезно, добросовестно.
К начальной поверхностности я призываю в первую очередь моих коллег-мужчин, а
среди них ...
Как заучивать слова?
Общепринятый способ заучивания слов заключается в следующем. В левый столбец
пишем в тетрадку иностранные слова данного текста, в правый – соответствующие им
слова родного языка. Закрываем ладонью ...