303
11.4. Базы данных и Internet
Задача системы интеграции информации, поддерживаемой средст-
вами Internet, состоит в том, чтобы отвечать на запросы, которые могут
потребовать извлечения данных из множества Internet-источников. Мно-
гие из проблем, с которыми связаны эти задачи, аналогичны проблемам
создания систем неоднородных баз данных, но при этом мы имеем дело
с большим и не постоянным множеством Internet-источников, каждый из
которых, имеет большую степенью автономности и характеризуется
разными метаданными.
Так же, как и в ранее рассмотренном случае, интеграции может
строиться на подходе, основанном на хранилищах данных или на вирту-
альном подходе. В первом случае данные из множества Internet-
источников загружаются в хранилище, и далее все запросы будут обра-
щены к этому хранилищу данных. При этом необходимо, чтобы данные,
изменяемые в источниках, обновлялось и хранилище. Однако преиму-
щество состоит в том, что может быть гарантирована адекватная эффек-
тивность на стадии обработки запроса.
При виртуальном подходе, когда данные остаются в Internet-
источниках, запросы к системе интеграции на стадии исполнения разде-
ляются на запросы к отдельным источникам, а результаты, соответст-
венно, интегрируются. При таком подходе данные не тиражируются, и
тем самым гарантируется их актуальность на стадии обработки запро-
сов. С другой стороны, поскольку Internet-источники автономны, для
обеспечения адекватной эффективности необходима более сложная тех-
нология обработки запросов. Виртуальный подход более уместен при
построении таких систем, где число источников велико, данные изме-
няются часто, и имеется слабый контроль над Internet-источниками.
Нужно, однако, подчеркнуть, что многие проблемы, которые возникают
при виртуальном подходе, возникают также и при использовании хра-
нилищ данных (хотя зачастую и в несколько иной форме).
Создание систем для решения любой из указанных выше задач
требует, как и в случае классических баз данных, выбора для моделиро-
вания предметной области. Однако, кроме модели самих информацион-
ных объектов, нам необходимо также моделировать сам Internet (как
среду доступа), структуру Web-сайтов, внутреннюю структуру Web-
страниц или другого типа ресурса.
Важной особенностью моделирования Internet-ресурса является и
то, что во многих случаях данные слабо структурированы: нет какой-
либо фиксированной схемы, которая была бы задана заранее, а пред-
ставления данных поступающих из разных источников могут различать-
ся уже на уровне набора атрибутов или иметь различные типы.
Другая особенность Internet-ресурса – это связи между объектами.
Моделирование множества Web-страниц, а также связи между ними ос-