
Глава 9. Измерение Web-трафика 345
как удаление повторных символов "/". Запрошенные URI, которые отличаются
в чем-то незначительном, могут быть отслежены во время обработки журнала. В дру-
гих ситуациях сервер может трактовать некоторые URI как псевдонимы других URL
Без доступа к настройкам сервера распознавание таких имен прак1ически невозмож-
но.
Большинство исследований обычно предполагает, что различные URI соответству-
ют различным ресурсам.
9.5.3.
Реконструкция действий пользователя
Анализ результатов измерений Web-трафика обычно требует определения того,
когда и как часто происходят определенные события, связагншю с пользователем.
Изучение поведения пользователя включает, например, определение, когда пользо-
ватель щелкает мышью на гинерссылке. Даже если программный клиент использу-
ется лишь одним пользователем, все равно определение и классификация действий
пользователя представляет собой сложную задачу. Информация из НТТР-занро-
сов и ответов, также как длительность передачи и размер отправленных данных,
могут быть использованы для реконструкции ключевых событий. Например, поле
Time в журнале сервера предоставляет удобный способ определить последователь-
ность запросов, отправленных одним и тем же клиентом. Время между последую-
щими запросами может подсказать, какие запросы относятся к одному сеансу посе-
щения Web-сайта и какие из этих запросов соответствуют активизации пользова-
телем гиперссылки, в отличие от запросов на встроенные ресурсы, которые
посылаются браузером автоматически.
HTTP не сохраняет своего состояния, что затрудняет определение того, какие за-
просы связаны друг с другом, так как сеанс взаимодействия клие11та и Web-сервера
не имеет четкого начала и конца. Вместо этого, начало сеанса взаимодействия между
клиентом и Web-сервером можно определить на основе измерений, нолучен1нлх при
протоколировании и мониторинге пакетов. Первый запрос соответствует началу се-
анса. Запрос, пришедший через несколько десятков секунд после предыдущего за-
проса, сделанного тем же самым клиентом, может рассматриваться как принадлежа-
щий тому же сеансу. Более точные выводы возможны при наличии дополнительной
информации о структуре сайта. Например, запрошенный URI может соответство-
вать гиперссылке на одной из предыдущих страниц, что увеличивает вероятность
того,
что запрос был инициирован в результате щелчка мышью на гиперссылке на
одной из этих страниц. Информация о гиперссылках на просмотренных страницах
может быть получена из поля Referer в НТТР-занросе. Структура гипертекста мо-
жет быть получена с помощью анализа Web-страниц на этапе обработки данных,
хотя их содержимое может быть изменено со времени проведения измерений.
Одиночное действие пользователя, такое как щелчок мышью на гинерссылке,
может инициировать несколько HTTP-запросов для загрузки Web-страницы и
встроенных в нее изображений. Выявление действий пользователя требует эффек-
тивных способов различения запросов, вызванных непосредственно пользователем,
и запросов, сгенерированных автоматически. Хотя журнал браузера различает эти
запросы, журнал прокси-сервера/Web-cepBepa или результаты мониторинга паке-
тов не будут содержать этой информации, если только не доступно содержимое
всей страницы. Вместо этого может различаться время между последующими за-
просами: если запрос приходит меньше чем, скажем, через одну или две секунды
после предыдущего запроса, отправленного тем же клиентом, то он автоматически
считается выданным браузером. Выводы будут точнее, если запрашиваемый URI
соответствует изображению, например, GIF- или JPEG-файлу. Запрошенный ре-