Prengen: система прогнозирования веб-запросов

С появлением цифровых технологий и растущим спросом на предоставление первоклассных услуг огромному количеству пользователей, которое процветает день ото дня, возникает желание предложить эффективный и своевременный метод, который может оценить огромный объем данных или информации. генерируются пользователями явно или неявно, когда они просматривают, нажимают, комментируют, ищут и т. д., и в результате помогает экстраполировать следующий курс действий, который может предпринять пользователь. Поскольку все больше пользователей получают доступ к информации в Интернете, появляется прекрасная возможность изучить журналы сервера, чтобы узнать о возможных действиях пользователей в будущем. Бенефициары таких передовых технологий — например, Amazon, Flipkart — получили большую выгоду, применяя последнюю тенденцию к использованию систем рекомендаций, которые пытаются уловить поведение клиентов, когда они просматривают, и предлагают предложения соответственно. Предлагаемые рекомендательные системы работают с навигационными данными пользователей, хранящимися на веб-серверах сайтов и поисковых систем; соответственно, его можно использовать для рекомендаций внутри веб-сайта и между веб-сайтами. В том числе, наводнение пользователей может быть лучше всего удовлетворено путем развертывания соответствующих обсуждаемых методов, которые могут предвещать предстоящие действия пользователя и обеспечивать преимущество, особенно для новых платформ электронной коммерции и цифрового маркетинга, для отображения нужных данных в нужное время.

https://www.youtube.com/watch?v=LcFwqfkzgsI

С появлением Интернета мы наблюдаем значительный рост числа его пользователей. Он стал неотъемлемой частью нашей повседневной жизни. Интернет оказался удобным решением наших повседневных проблем, но из-за роста числа пользователей он также стал океаном информации, в котором легко запутаться, а с появлением Web 2.0 Интернет стал обычным явлением. и в результате было создано огромное количество данных, которые чаще всего называют большими данными. Таким образом, возникла предпосылка системы руководства. Есть куски данных, которые мы генерируем за один день. В настоящее время у большинства из нас есть учетные записи в социальных сетях, таких как Twitter, Facebook, Yahoo, учетные записи различных торговых сайтов, таких как Amazon, приложения для заказа еды Flipkart и т. д. Все они ежедневно создают огромные объемы данных [1]. Этот огромный объем данных можно использовать для изучения поведения пользователя и прогнозирования следующей веб-страницы, которую он/она может посетить. В нынешнюю эпоху каждый хочет выиграть немного времени, и с предсказанием следующей веб-страницы его можно сократить, что приведет к лучшему и плавному взаимодействию с пользователем.

Действия, которые мы выполняем в Интернете, такие как серфинг, просмотр фильмов на Netflix, просмотр товара в Интернете, покупка, посещение сайта, проверка цен на продукт, учитывают данные и приводят к созданию больших данных. Затем эти данные собираются и обрабатываются таким образом, чтобы из них можно было получить некоторую полезную информацию и предсказать поведение пользователя. Затем эти данные передаются в механизмы, основанные на прогнозировании, которые впоследствии приводят к прогнозированию наших интересов и будущих действий. Так же, как Netflix, Spotify, все они предлагают фильмы в соответствии с нашими интересами, настроением, временем суток.

В сети растет число предсказуемых моделей активности. Точный прогноз может сократить время доступа пользователей и уменьшить сетевой трафик, если предварительная доставка осуществляется должным образом. Проделана большая работа с рекомендациями по системам и программам предварительной доставки[3]. Системы рекомендаций, которые полагаются на прогностические модели, чтобы делать предположения. Традиционный подход к базовой системе прогнозирования основан на отслеживании серверных журналов пользователей и сборе данных о том, в какой последовательности он посещает веб-страницы, и изучении этих шаблонов для прогнозирования следующего. Системы рекомендаций были основным строительным блоком системы прогнозирования. Изначально они только помогали нам изучать и предсказывать интерес пользователя, а затем соответствующим образом снабжать его этой информацией.

В этой статье мы представляем модель, которая изучает различные варианты выбора, которые пользователи делают при поиске, посещении различных сайтов, задании вопросов, просмотре вещей, посещении элемента, составлении списка пожеланий, проверке и т. д. Алгоритм анализирует действия пользователя, изучает их, находит закономерности, читает их и предсказывает их дальнейшие действия, и это продолжается, продолжает учиться и развиваться самостоятельно. Поэтому мы изложили концепцию прогнозирования следующей веб-страницы, которую может использовать пользователь.

Основываясь на подходе к разработке и философии, рекомендательные системы сильно различаются на системы, основанные на содержании и сотрудничестве. В то время как системы на основе контента используют информацию о конкретном пользователе для создания рекомендаций, интерактивные системы используют информацию от той же группы пользователей для получения рекомендаций. Рекомендуемая программа рекомендаций в нашей работе — это совместная программа, которая использует объединенный опыт других пользователей для предоставления рекомендаций.

ГЕНЕРАЦИЯ И ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ

Так как данные разные для всех сайтов. Итак, для каждого сайта разные данные, которые можно собрать

В следующих пользовательских журналах приведены данные, которые необходимо собрать для обучения модели.

Сбор данных:

Сбор данных относится к процессу сбора, маркировки, анализа некоторого количества информации о целевых переменных в установленной системе, которая помогает нам оценивать и прогнозировать будущие тенденции.

Журнал пользователя:

Журнал пользователя содержит все страницы, запрошенные пользователем вместе с сеансом. Предположим, что есть 5 страниц с идентификаторами 0, 1, 2, 3 и 4. Таким образом, таблица журнала содержит следующие столбцы.

Идентификатор сеанса/IP-адрес: IP-адрес сеанса и IP-адрес для уникальной идентификации пользователя и персонализации прогноза.
Текущая страница: сохраняет все доступные страницы. В этом примере он содержит 0, 1, 2, 3 и 4. Он показывает, какую страницу посещают пользователи после этой страницы.
Количество посещений: содержит все страницы, на которые пользователи могут переходить после текущей страницы. Когда пользователь посещает страницу, количество посещений увеличивается в соответствующем столбце.

Предварительная обработка данных:

Предварительная обработка данных относится к преобразованию огромного количества данных во что-то полезное, то есть в часть информации, чтобы алгоритм мог дать благоприятный результат. В этом случае все файлы журналов преобразуются в фиктивные переменные. Текущая страница показывает результат. Все остальные столбцы на следующей странице, которую посещает пользователь.

МЕТОДОЛОГИЯ

Алгоритм внешнего интерфейса

Алгоритм показывает, как внешний интерфейс обрабатывает ответы серверной части и как он взаимодействует с серверной частью для обеспечения функциональности. Когда пользователь впервые посещает веб-приложение, серверная часть отправляет ответ в соответствии с запросом. Внешний интерфейс отображает эту страницу и отправляет запрос для прогнозирования следующей страницы. Когда внешний интерфейс получает ответ, он проверяет, сделал ли пользователь какой-либо другой запрос, если пользователь не сделал больше запросов к тому времени, когда Внешний интерфейс предварительно загружает прогнозируемую веб-страницу и не отображает ее, и после этого, если пользователь делает тот же запрос, он отправляет флаг изменения базы данных (чтобы проверить, изменились ли данные после ответа на прогноз), если нет, то предварительно загруженная страница отображается как есть. в противном случае отображается после изменения данных.

Если пользователь отправляет любой другой запрос, кроме предсказанного запроса, то предварительно загруженная страница отбрасывается, и будет отправлен флаг ошибки предсказания.

Алгоритм поведения серверной части

Этот алгоритм показывает, как должен вести себя бэкенд, чтобы получить функциональность предиктивного движка,

Когда пользователь делает запрос к серверной части, серверная часть отправляет запрошенную страницу и сохраняет сведения о сеансе. Всякий раз, когда пользователь посещает любую страницу, создается журнал, чтобы понять поведение пользователей.

Когда передняя часть делает запрос на проверку базы данных, внутренняя часть ищет изменения в течение периода и отправляет данные, и если база данных не изменилась, она отправляет ложный флаг.

Алгоритм приоритета вероятности:

Так как есть две таблицы для предсказания. Одна таблица дает прогноз для одного пользователя, а другая таблица определяет прогноз для всех пользователей. Таким образом, этот алгоритм указывает, какой прогноз следует использовать.

Блок-схема

Логистическая регрессия для прогнозирования:

Поиск актива называется функцией, используемой в контексте маршрута, функцией входа.

Логистическая деятельность, также называемая сигмовидной активностью, выполняется математиками для описания структур человеческого роста в окружающей среде, которые быстро увеличиваются и несут силы природы. Это S-образная кривая, которая может взять любое число с реальным значением и поместить его в значения между 0 и 1, но не непосредственно в этих пределах.

Логистическая регрессия названа в честь функции, используемой в основе метода, логистической функции.

Логистическая функция, также называемая сигмовидной функцией, была разработана статистиками для описания свойств роста населения в экологии, быстрого роста и максимального использования пропускной способности окружающей среды. Это S-образная кривая, которая может взять любое число с действительным знаком и преобразовать его в значение от 0 до 1, но никогда точно в этих пределах.

В качестве альтернативы мы предполагаем, что вход (X) может принадлежать категории по умолчанию (Y = 1), мы можем официально записать это как:

Обратите внимание, что оценки вероятности должны быть преобразованы в двоичные значения (0 или 1), чтобы делать прогнозы вероятности. Подробнее об этом позже, когда мы будем говорить о предсказаниях.

Логистический поиск — это простой процесс, но прогноз можно изменить с помощью функции входа в систему. Результатом этого является то, что мы больше не можем понимать предсказание как максимально возможное сочетание входных данных с разворотом линии, например, продолжая сверху, модель можно описать как:

Приведенное выше уравнение также можно записать в виде:

Это полезно, потому что мы видим, что выходные данные правого вывода также просты (как линейный переход), а левый ввод — это текст по умолчанию категории по умолчанию.

Шкала слева называется вызовами категории по умолчанию (исторически мы используем вызовы, например, вызовы используются для скачек, а не возможностей). Рейтинги рассчитываются как среднее значение вероятности события, деленное на возможности, не связанные с событиями, т.е. 0,8 / (1–0,8) с 4 шансами, поэтому вместо этого мы можем написать:

Поскольку задачи изменяются при входе в систему, мы называем это левосторонним журналом или пробитом. Могут использоваться другие типы функций преобразования (за пределами области видимости), но в результате обычно ссылаются на версию, которая связывает уравнение переменной строки в таких возможностях, как операция ссылки, например.

Мы можем вернуть экспоненту вправо и обозначить ее как:

Навигация:

Когда таблица прогнозов готова, возникает первый вопрос, откуда брать вероятность: из таблицы средних прогнозов или из таблицы персонализированных прогнозов. Ответ на этот вопрос: что имеет большую ценность. Предположим, что вероятность для страницы A из средней таблицы равна P1, а вероятность для страницы B из персонализированной таблицы равна P2, тогда, если P1 больше, чем P2, то прогнозирование P1 будет предпочтительным, и наоборот.

Данная диаграмма показывает навигацию согласно прогнозу. По этим данным будет осуществляться следующая навигация

1 -> 2

1 -> 3

3 -> 4

3 -> 3

Поскольку с текущей страницы может быть несколько переходов, предпочтительнее сумма обоих прогнозов. Какой бы путь ни имел больший вес, тот путь и будет выбран.

РЕЗУЛЬТАТ

Журналы были собраны за период около пяти месяцев и протестированы студентом университета на веб-сайте покупок. Мы реализовали эту работу с помощью javascript и python. Для этой цели мы использовали сервер server core i5 с 4 ГБ оперативной памяти. Файлы веб-журналов имеют формат значений, разделенных запятыми (CSV)[2].

Таблица среднего прогноза

Данная таблица показывает, как прогнозируемая таблица будет храниться в формате CSV. Текущая страница представляет собой страницу, которую пользователь посещает в данный момент, а средняя вероятность показывает, какова вероятность перейти на следующую страницу с текущей страницы.

Персонализация таблицы прогнозов:

Персонализированная таблица прогнозов показывает персонализированную таблицу прогнозов, сгруппированную по идентификатору пользователя или идентификатору сеанса. какой пользователь сейчас посещает, а средняя вероятность показывает, какова вероятность перейти на следующую страницу с текущей страницы.

На приведенном ниже изображении показана реализация и то, как предварительно загруженные данные сохраняются в буфере и отображаются на консоли.

Показанная ниже тепловая карта представляет результат предсказанных значений по сравнению с реальными значениями. Как показано на тепловой карте, пренаген дает довольно хороший результат.

ОГРАНИЧЕНИЯ И БУДУЩЕЕ СФЕРА ПРИМЕНЕНИЯ

Этот обзорный документ поможет будущим исследователям в области прогнозирования веб-страниц определить доступные методы. Этот документ также поможет исследователю проводить свои исследования более эффективно.

Наши результаты также показывают, что оба этих алгоритма обучения и прогнозирования можно использовать в режиме реального времени. В нашем алгоритме есть быстрые приложения для кеша веб-сервера, программы предварительной доставки и рекомендации. В нашей будущей работе мы хотим использовать этот алгоритм в этих областях.

ЗАКЛЮЧЕНИЕ

Интернет упростил мир, в настоящее время мы можем найти в Интернете все, что угодно. В прошлом спрос на модели, основанные на предсказаниях, возрос. С генерацией больших данных на ежедневной основе. Поскольку Интернет превратился в океан, в котором легко заблудиться, нам нужно что-то, что направляло бы пользователя и предоставляло ему эффективный, плавный и позитивный опыт. Наш алгоритм/модель показала положительные результаты, предсказав следующую веб-страницу, которую может захотеть пользователь, и сделав процесс серфинга плавным. Благодаря самообучающемуся и улучшающемуся алгоритму мы можем прогнозировать более точные результаты и обещать лучшие результаты в будущем. Этот алгоритм также поможет другим начинающим умам узнать об алгоритме, основанном на прогнозировании, и разработать более эффективную систему в будущем. Этот алгоритм также направлен на улучшение опыта серфинга пользователей, живущих в отдаленных районах, поскольку алгоритм будет предсказывать наиболее желаемый результат, что сокращает их затраты времени и обеспечивает лучший опыт серфинга.

Prengen: система прогнозирования веб-запросов

Вопросы по теме