Маркетер
  • Маркетинг
  • Digital
  • Реклама
  • Public Relations
  • Менеджмент
  • Новости
  • Маркетинг
  • Digital
  • Реклама
  • Public Relations
  • Менеджмент
  • Новости
YouTube 154 Подписчики
Telegram 241 Подписчики
VK 0 Подписчиков
Маркетер
Маркетер
  • Маркетинг
  • Digital
  • Реклама
  • Public Relations
  • Менеджмент
  • Новости
  • Статистика

Идентификация пользователей

  • 03.05.2001

Автор статьи: Басов Алексей

В основе идентификации пользователя в интернете лежат его действия, без которых статистическая система не знает, подключен он сейчас к Сети или нет. На данный момент подавляющее большинство систем учета пользователей учитывают только запросы на загрузку web-страниц (то есть запросы по протоколу HTTP), таким образом, посещения Сети только для просмотра текущей корреспонденции (протоколы POP3, IMAP) или загрузки файлов через протокол FTP остаются неучтенными.
Каждое действие описывается рядом параметров, которые можно зафиксировать. Это: некоторые передаваемые серверу характеристики браузера (тип, язык, встроенные расширения, поддержка приложений), просматриваемая страница, ссылающаяся страница, IP-адрес, данные прокси-сервера, поддержка <жетонов> (cookie) и Java, а также часовой пояс. Все эти параметры передаются серверу при запросе страницы или могут быть получены через специальный Java-код, установленный на просматриваемой странице. На основе полученных исходных данных можно с некоторой точностью идентифицировать пользователя.
Трудности опознания
погрешность идентификации, основанной на IP-адресе (до недавнего времени учет <хостов> был основным методом идентификации), складывается из погрешностей передачи и погрешностей пользования компьютером. Так, например, при работе пользователей через прокси-сервер вся подсеть, которая за ним скрывается, в большинстве случаев будет иметь единый IP-адрес. С другой стороны, работая через коммутируемое соединение, пользователь при каждом подключении будет получать от провайдера новый IP-адрес и т. д. В России, где выделенные каналы для домашних пользователей являются большой редкостью, погрешность идентификации по одному IP-адресу очень высока: в среднем до 40% пользователей не могут быть идентифицированы таким способом.
Для более точной идентификации еще в начале 90-х годов начали применять так называемые <жетоны> — небольшие файлы, записываемые на компьютер пользователя при заходе на сайт. В этих файлах содержится некоторая ключевая информация (например, уникальный идентификационный номер, присваиваемый пользователю <движком> сайта) в специальном формате. При последующем заходе на сайт записанная ранее информация считывается и именно таким способом пользователь идентифицируется.
погрешности этого метода заметно ниже, так как они идентифицируют не IP-адрес, который в большинстве случаев выдается динамически из пула, а конкретный компьютер. Тем не менее остаются проблемы совместного использования компьютеров, а также идентификация тех пользователей, которые используют различные компьютеры для подключения к Сети (например, дома и на работе, в институте и в интернет-кафе и т. д.). вышеописанные погрешности частично компенсируются существующей в ОС Windows возможностью заведения на одном компьютере нескольких профилей с различными настройками интернета, так как в этом случае cookies пишутся для каждого пользователя отдельно.
К сожалению, далеко не все пользователи реально задействуют эту возможность, поэтому наиболее точным методом идентификации на сегодняшний момент является прямой опрос (авторизация) пользователей (ввод ими уникального имени — login). Очевидно, что реализовать сквозную авторизацию пользователей на всем пространстве интернета невозможно, даже если бы на то было согласие всех пользователей.
Для компенсации погрешностей идентификации, возникающих из-за удаления или отказа в приеме cookies, используется интегральная идентификация одновременно по нескольким параметрам. Совместно с cookies используют IP-адреса и некоторые параметры браузера, которые передаются в HTTP-запросе. Например, если у пользователя отключены cookies, но мы хотим его идентифицировать в пределах сеанса, то запоминается IP-адрес и настройки компьютера — разрешение монитора, количество цветов, версия браузера и т. п. — вряд ли эти настройки будут изменены в течение просмотра одного сайта, поэтому можно достигнуть очень высокой степени идентификации. Указанная схема имеет смысл только в пределах сеанса (здесь сеанс — это одно непрерывное подключение пользователя к интернету), для долговременного мониторинга ее использовать нельзя, так как эти настройки изменяются.
Следует особо отметить, что при любой схеме идентификации, включая сквозную авторизацию, статистическая система не имеет персональных данных пользователя, если он не пожелает их специально сообщить. Таким образом, не может идти и речи о нарушении какой бы то ни было приватности — все данные собираются в обезличенном виде.
Вторичные данные
По полученным исходным данным можно получить вторичные отчеты путем группировки нескольких полученных параметров. Так, например, располагая данными о часовом поясе и IP-адресе, а также сеткой распределения IP-адресов между интернет-провайдерами, можно получить данные о географии пользователя с точностью до города или области. По этим же данным, а также по времени соединения можно вычислить место соединения (дома, на работе, в институте и пр.). Анализируя статистику за продолжительный период времени, можно отделить пользователей мобильных компьютеров, которые подключаются через разных провайдеров и из разных типов подсетей, от стационарных. При наличии на странице специального раздельного кода, реализованного в системе SpyLOG, можно получить данные о скорости загрузки страницы, а следовательно, и о скорости соединения.
Возможности получения вторичной информации о пользователях ограничены только возможностями алгоритмизации процессов (лишь некоторые способы добычи <вторсырья> приведены в таблице). Например, можно построить эвристический алгоритм, который на основе изначально введенных данных и маршрутов пользователей, а также манере поведения их на сайте, будет определять пол и возраст человека. Одновременно по группе технических данных (таких, как скорость соединения, разрешение монитора и пр.) совместно с интересами пользователей можно с некоторой точностью определять социальный статус и сферу занятости пользователей и так далее.
Несколько месяцев назад компания Amazon проводила закрытые эксперименты на посетителях своего магазина. В зависимости от некоторых характеристик пользователя (географии, экранного разрешения и пр.) менялись цены на запрашиваемые человеком в магазине товары. Эксперимент получил огласку случайно, когда один из покупателей магазина решил заказать себе книжку, находясь в другой стране.
Однако опыты по построению сложных аналитических алгоритмов, задействующих интеллектуальные схемы, на данный момент только начинаются. Скорее всего, уже в следующем году можно ожидать появления систем, идентифицирующих пользователя по его биометрическим характеристикам (например, манере перелистывания страниц, набора текста и пр.). Вопрос только в том, какие вычислительные мощности для этого потребуются.

вторичные данные
география IP-адрес, база данных распределения адресов между провайдерами, часовой пояс
социальный статус маршрут пользователя по сети, IP-адрес, производительность компьютера и/или разрешение экрана (для домашних пользователей)
уровень доходов информация о посещаемых сайтах (интернет-магазины, histile)
профессиональная деятельность анализ маршрутов втечение рабочего времени
пол, возраст эвристический анализ маршрута пользователя + маска контрольной группы
Алексей Волков

Предыдущий материал
  • Статистика

Работа с аудиторией

  • 03.05.2001
  • Алексей Волков
Read More
Следующий материал
  • Статистика

Идентификация пользователей в мобильной среде

  • 03.05.2001
  • Алексей Волков
Read More
Вас также может заинтересовать
Read More
  • Статистика

Чей чай? Какой чай? Как чай?

  • Андрей Бабкин
  • 22.04.2015
Read More
  • Статистика

14 инструментов, которые покажут почему посетители покидают сайт

  • Fllayres
  • 20.03.2014
Read More
  • Готовые исследования
  • Исследования рынка
  • Статистика

Исследование GFK: Покупательские предпочтения и привычки россиян на рынке одежды

  • jokar
  • 20.06.2010
Read More
  • Статистика

Анализ посещаемости интернет-сайта.

  • Kovalev Aleksejj
  • 22.04.2005
Read More
  • Статистика

Тараканьи бега русского интернета

  • alexvolkov
  • 30.05.2003
Read More
  • Статистика

Полет над гнездом cookушки

  • Алексей Волков
  • 06.05.2001
Read More
  • Статистика

Статистика сайта. Откуда ноги растут?

  • Алексей Волков
  • 06.05.2001
Read More
  • Статистика

Анализ эффективности рекламной кампании

  • Алексей Волков
  • 03.05.2001

Добавить комментарий

Для отправки комментария вам необходимо авторизоваться.

Свежие посты
  • Дайджест постов Сергея Людкевича
    • 12.09.24
  • Как юристы тормозят бизнес
    • 30.08.24
  • Продвижение оптовых кампаний в Яндекс Директ
    • 06.03.24
  • Cарафанное радио
    • 13.01.24
  • 5-55: История компании
    • 01.03.23
Маркетер
  • О проекте
  • Информационное спонсорство
  • Рекламным агентствам
  • Ссылки
(с) ООО "Маркетер". Официальный сайт. Маркетер: Статьи про рекламу, маркетинг, public relations, интернет

Введите ключевые слова для поиска и нажмите Enter