Теория экономических информационных систем


Теория экономических информационных систем - стр. 55


Связь основного и инвертированного файла в этом случае выглядит иначе и показана на рис. 13.

Пусть дан запрос: найти все документы, содержащие ключевые слова B и D. Система обратится к инвертированному файлу и найдет группы ключей B и D. Совпадающие значения номеров укажут в нашем примере на искомую запись с номером 110.

Ключевые слова А, В, С, D, Е

Номер записи

Основной файл

Инвертированный файл

50

A   B

A   50

   

105

B   C

110

B   D   E

B   50

120

C   D

    105

    110

C  105

     120

D  110

     120

  

E   110

Рис. 13. Связь основного и инвертированного файла

Логические связки в запросах могут быть любыми, и с математической точки зрения требуемые поисковые операции есть операции пересечения, объединения, вычитания над множествами номеров записей, которые хранятся в инвертированных массивах для атрибутов, названных в запросе.

Следует отметить, что поиск по инвертированному файлу обнаруживает только номера записей и плохо приспособлен для указания всех ключей, связанных с найденной записью. Между тем эта информация часто запрашивается. В одном из наших примеров запись с адресом 110 была найдена по значениям ключей B и D очень быстро, но определить, есть ли в этой записи третий ключ Е, используя только инвертированный файл, очень трудно.

Модель инвертированных файлов служит основой для ряда современных информационно-поисковых систем. Одна база данных создается обычно для одного класса документов, которые объединены общей тематикой, например, справочная информация о предприятиях и организациях, сведения о производимой продукции, информация о происходящих выставках.

С учетом реляционного подхода одна база данных в таком случае соответствует одному отношению.

Значением атрибута может быть текст произвольных размеров, причем разбиение этого текста на строки может варьироваться и не должно влиять на реализацию поисковых запросов.




Начало  Назад  Вперед