читать дальшеДескрипторный язык.
Дескрипторный язык – это ИПЯ ЛЕ которого являются дескрипторы и его использование основано на принципе координатного индексирования. (индексир-е координация систематизация, предметное инд-е – существуют)
Ключевое слово – слово/словосочетание которое несет наибольшую смысловую нагрузку с точки зрения информ-ого поиска.
Дескриптор (англ-описание) – ЛЕ выраженная словом/словосочетанием и являющаяся наименованием класса условной эквивалентности ключевых слов.
Ключевые слова подлежащие в поисковом образе док-а/запроса замене на дескрипторы называются – АСКРИПТОРЫ.
Координатное индексирование – индексирование путем перечисления ключевых слов и дескрипторов. Принцип координатного индексирования заключается в том, что центральная тема документа или инф. запроса выражается в виде наиболее значимых слов/словосочетаний, которые являются условно координатами документа/запроса.
процедура координатного индексирования:
тема1 - ксерография и консервация документа проблемы и потанциальные возможности
ключевые слова: ксерография, консервация, документы
тема2 - опыт организации микрофильмирования больших информационных массивов в ВИНИТИ.
ключевые слова: микрофильмирование, информационный массив.
Принцип координатного индексирования был разработан Мортимером Таубе (1910 – 1965) – библиотекарь, специалист в области математической логики и информатики. в 60-е годы вел математич. логику в университетах США, возглавлял журнал, занимал ведущую должность в библиотеке конгресса США, создал теорию координатного индексирования, на этой теории был основан ИПЯ нового типа дескрипторный ИПЯ повсеместно применяемый в компьютерных ИПС и поисковых машинах интернета. Разработал в 52 году систему УНИТЕРМ.
Кельвин Муэрс (1919-1994) – американский математик, пионер информатики, основоположник теории информационного поиска. в 1950-м году ввел в научный оборот термины – информационный поиск, ИПС, ИПЯ, поисковый образ, дескриптор, дескрипторный словарь, 59-год закон Муэрса – актуализировался в эпоху интернета. в основе большинства бесполезных вэб-сайтов, невостребованных локальных сетей и никому не нужных интерактивных продуктах как правило лежат ошибочные представления о пользователях и неверные модели их поведения при поиске информации.
Система УНИТЕРМ была основана на принципе координатного индексирования разработанного Муэрсом с Таубе. Принципы координатного индексирования, происходящие из системы Унитерм получили свое развитие в дескрипторном ИПЯ.
Структура дескрипторного языка – Алфавит дескрипторного языка совпадает с алфавитом того естественного языка, на котором он создается. Дополнительно в его составе могут использоваться арабские и римские цифры, скобки, др. знаки/ символы. Лексика дескрипторного языка в качестве основных ЛЕ включает дескрипторы и аскрипторы.
Дескриптор – нормализованное слово, которому искусственным путем предана смысловая однозначность. Устранение неоднозначности производится путем снабжения многозначных слов соответствующим пояснением – РЕЛЯТОРОМ (он помещяется в круглые скобки в конце дискриптора/аскриптора).
П: Лицо (часть тела)
Лицо (субъект права)
акт (документ)
акт (действие)
Устранение синонимии достигается за счет использования отсылок
Буква «С» (сининим)
«См» (смотри)
Аскриптор – недескриптор, нондескриптор – ЛЕ в информационно-поисковом тезаурусе, которая не может быть использована для координатного индексирования и подлежит замене на дескрипторы. Аскрипторы всегда сопровождаются отсылками на заменяющие их дескрипторы.
П: Токсины – аскриптор
см Яды – дескриптор
Парадигматические отношения в дескрипторном ИПЯ представлены в качестве системы ссылок, отсылок, помет, реализуются в структуре словарной статьи.
Различают дескрипторную и аскрипторную словарные статьи.
Дескрипторная статья строится по следующей формуле:
Д {Мс, Мв, Мн, Ма}
Д - заглавный дескриптор,
Мс - множество условных эквивалентных ключевых слов – аскрипторов
Мв - множество вышестоящих дескрипторов (процедур)
Мн - множество нижестоящих дескрипторов
Ма - множество дескрипторов ассоциативно связанных заглавным дескриптором.
*каждое из представленных множеств может быть пустым.
внутри множества слова в алфавите
П: дескрипторная статья-
Пастбища
С Вагоны
Выпаса
В Угодья кортовые
Угодья с/х
Н(вид) Пастбище естественное
Многолетнее
А(ассоциат.) Залужение
Аскрипторная статья состоит из аскриптора и заменяющих его при обработке и поиске дескрипторов.
П: Не совпадение рисунка – синоним – растроф
статья: Не совпадение рисунка
см Растроф
Особенности дескрипторного языка.
1. Тесная связь с естественным языком,
2. Режим использования предполагающий объединение дескрипторов в сложные выражения соответствующие предложениям естественного языка в процессе поиска т.е. значительно позже индексирования документов. (поэтому посткоординированный ИПЯ, предкоординатное индексирование)
Дескрипторный ИПЯ – не иерархический, словарный (т.к. план его выражения совпадает с планов выражения естественного языка), посткоординированный ИПЯ, контролируемый с помощью информационно-поисковых тезаурусов. Предназначен для автомтизированного поиска информации.
Информационно-поисковых тезаурус (ИПТ).
Структура, методика построения, классификация
Гост 7.25 2001 – определение ИПТ:
ИПТ – контролируемый словарь ЛЕ дескрипторного языка основанный на лексике естественного языка, отображающий семантические(смысловые) отношения между ЛЕ.
Функции ИПТ:
Обеспечивает перевод с естественного языка на дескрипторный документов/запросов
Отрежает полезные для поиска информации смысловые связи между дескрипторами, что повышает полноту и качество поиска.
Служит справочным и терминологическим пособием в той или иной отросли знания.
Структура ИПТ:
1) Вводная часть
2) Лекскико-семантический указатель терминов, являющийся алфавитным списком ключевых слов и заглавных дескрипторов с их словарными статьями
3) Систематический указатель дескрипторов который может быть тематическим, категориальным, смешанным
4) Указатель иерархических отношений между дескрипторами
5) Пермутационный указатель ключевых слов и дескрипторов.
Далее – ищем ГОСТ. значимые пункты: 4, 4.6, 4.7, 4.8, 4.9, 4.10, 4.11.1.2
картинки – из ГОСТ. пояснение – расширенное.
Этапы построения ИПТ:
1) Определение тематического охвата ИПТ (см. гост)
2) сбор массива ЛЕ –
формирование начинается с отбора ключевых слов которые в последствии подвергаются специальной семантической переработке. Отбор ключевых слов осуществляется на основе предствавительной коллекции документов и запросов (не менее 600) дополнительно ключевые слова могут выбираться из рабрикаторов, П: рубрикатор ГРНТИ, словарей, справочников, других номативно- технических документов. подробнее см. ГОСТ
В качестве ключевых слов желательно иметь однословные термины выраженные существительным в т. ч. отглагольным существительным, субстантивированным прилагательным, причастием. Но понятия не всегда выражаются 1 словом, поэтому в качестве ключевых слов следует использовать устойчивые словосочетания.
3) формулировка ключевых слов и их дескрипторизация
Формулировка кл. слов происходит одновременно с процессом отбора ключевых слов. На этом этапе происходит нормализация ключевых слов, редактирование, уточнение формулировок. Существительные вводятся в Именительном падеже, есть словосочетания. Можно использовать как ед. так и множ. число ключевые слова обозначающие абстрактные понятия – ед. число (искл. строит. работы, физические свойства).
термины наз. материал, вещество в ед. числе если это видовое понятие
во множественном числе если это родовое понятие ( П: платина, но платиновые металлы)
нормализация словосочетаний ставит перед разработчиками вопрос в какой форме записывать – прямой или инвертируемой форме.
Нормализация – придание однозначости устр-е полисемию, омонимию, синонимию. Синонимия – с пом. отсылки см., омонимия с помощью РЕЛЯТОРОВ, полисимия с пом. развернутых словосочетаний.
Дескрипторизация ключевых слов – критерии выбора:
научность
краткость, понятность
частота использования
продуктивность термина
4) установление парадигматических отношений (систематизация и группировка ЛЕ)
парадигматические отношения могут быть сильные (иерархия, подчинение, система-элемент, целое часть) слабые (процесс-оборудование, процесс-материал и др.) после их установление идет оформление дескрипторной статьи
5) дескрипторные и аскрипторные статьи
6) оформление ИПТ
7) экспертиза и регистрация ИПТ.
Классификация ИПТ
Тезаурус отлич. от дискрипрорного
дескриптор – перечисление
тезаурусе закреплены парадигматические отношения выражены в структуре дискрипторной, аскрипторной статьи.
Классификация:
№ Основание деления Вид ИПТ
1 Широта тематич. охвата Политематические(многоотрослевые
Отрослевые,
Узкоотрослевые (проблемные, по узкой теме проблеме)
2 Назначение Базисные (базовые) – содержат необходимый набор терминов по отросли знания словаря набор стандартных терминов.
Рабочие ИПТ – строится на основе базисного, он шире.
3 Системность построения Комплексы
Отдельные ИПТ
4 Особенности состава лексики и внутриструктурного построения ИПТ включающие дескрипторы и аскрипторы
ИПТ включающие только дескрипторы
ФАСЕТИЗИРОВАННЫЕ ИПТ (фасетно-блочные тезаурусы) –систему создал Соколов Аркадий Васильевич.
5 Количество естественных языков Одноязычные
Многоязычные
6 Форма представления В печатном виде
На машиночитаемых носителях (на CD и в интернете)
7 Знаковая природа информации Текстовые
Визуальные (значит. часть – изображения, формулы карты, схемы, иллюстрации)
Смешанные – соч. текст и изображения
*в след. раз Форматы представления данных:
Практическая. (выполняли вместе, с объяснением)
термины:
алфавитные каталоги
систематические каталоги
менеджмент
СПА
управление
электронные каталоги
предметные каталоги
сводные каталоги
устраним синонимию:
Аскрипторная статья:
Управление
см. Менеджмент
дескриптор – менеджмент
Дескрипторная статья:
Менеджмент
С Управление
К каждому термину должна быть выстроена ДЕСКРИПТОРНАЯ СТАТЬЯ:
дескриптор – БИБЛИОТЕЧНЫЕ КАТАЛОГИ
Дескрипторная статья:
Библиотечные каталоги
с
в Справочно-поисковый аппарат
н Алфавитные каталоги
Предметные каталоги
Систематические каталоги
Электронные каталоги
а Сводные каталоги
В алфавите заглавий аскрипторные и дескрипторные в перемешку