Vestnik of Astrakhan State Technical University. Series: Management, computer science and informatics

Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика

2072-9502 2224-9761

113891

10.24143/2072-9502-2026-1-96-103

GLAEOV

УПРАВЛЕНИЕ В ОРГАНИЗАЦИОНЫХ СИСТЕМАХ

MANAGEMENT IN ORGANIZATIONAL SYSTEMS

УПРАВЛЕНИЕ В ОРГАНИЗАЦИОНЫХ СИСТЕМАХ

Methods for predicting traffic to an organization's web resources

Методы прогнозирования посещаемости веб-ресурсов организации

Авксентьева

Елена Юрьевна

Avksentieva

Elena Yurievna

eavksenteva@itmo.ru

кандидат педагогических наук;

candidate of pedagogical sciences;

Серов

Александр Валерьевич

Serov

Aleksandr Valer'evich

avseroff@mail.ru

Национальный исследовательский университет ИТМО Россия ITMO University Russian Federation

Санкт-Петербургский политехнический университет Петра Великого Россия Peter the Great St. Petersburg Polytechnic University Russian Federation

27 01 2026

2026 1 84 91 16 06 2025 16 01 2026

https://vestnik.astu.ru/en/nauka/article/113891/view

С развитием технологий в мире растет объем интернет-торговли, что говорит о необходимости анализа и прогнозирования посещаемости информационных веб-ресурсов. Рассмотрены различные инструменты сбора и анализа веб-трафика, такие как Google Analytics, Яндекс.Метрика, Adobe Analysis, Liveinternet и ClickTale. Исходя из анализа возможных для получения данных из указанных источников, были выделены ключевые метрики для прогнозирования посещаемости. Метрики были сгруппированы по качественному и количественному признаку. Количественные метрики были использованы для прогнозирования с помощью статистических моделей, качественные метрики выступали в роли описательных полей для рядов, прогнозируемых с помощью машинного обучения. Так, например, трафик, просмотры, глубина просмотра были выделены как количественные переменные, тогда как события, сеанс, отказ, цель, конверсия, источник трафика и возвраты – как качественные. Были построены и проанализированы статистические модели по прогнозированию посещаемости веб-ресурсов и модели с применением машинного обучения. Для построения были использованы модели: SARIMA –сезонная авторегрессионная интегрированная модель скользящего среднего, модель Хольта – Винтера (алгоритм тройного экспоненциального сглаживания) и модель авторегрессии с градиентным бустингом. Данный анализ позволил провести сравнение точности моделей, используя критерии среднеквадратичной ошибки, корня из среднеквадратичной ошибки и средней абсолютной ошибки. Модель градиентного бустинга показала наименьшие показатели ошибок в среднем, что говорит о наиболее высокой точности, однако для некоторых рядов статистические модели показали большую точность, что говорит о необходимости комбинирования моделей для достижения наиболее оптимального результата.

With the development of technology, the volume of online commerce is increasing, highlighting the need for analysis and forecasting of the traffic to informational web resources. The article examines various tools for collecting and analyzing web traffic, such as Google Analytics, Yandex.Metrica, Adobe Analysis, LiveInternet, and ClickTale. Based on the analysis of the data obtainable from these sources, key metrics for forecasting traffic were identified. The metrics were grouped by qualitative and quantitative characteristics. Quantitative metrics were used for forecasting with statistical models, while qualitative metrics served as descriptive fields for the series forecasted using machine learning. For example, traffic, views, and depth of visit were identified as quantitative variables, while events, sessions, bounce rate, goals, conversions, traffic sources, and returns were classified as qualitative. Additionally, both statistical models for forecasting web traffic and models using machine learning were constructed and analyzed. The models used included SARIMA (Seasonal Autoregressive Integrated Moving Average), the Holt–Winters model, and an autoregressive model with gradient boosting. This analysis allowed for a comparison of the accuracy of the models using criteria such as mean squared error, root mean squared error, and mean absolute error. In conclusion, the gradient boosting model demonstrated the lowest average error rates, indicating the highest accuracy; however, for some series, statistical models showed greater accuracy, suggesting the need for a combination of models to achieve the most optimal results.

прогнозирование посещаемость веб-ресурсы метрики трафика временные ряды статистические методы машинное обучение

prediction traffic web resources traffic metrics time series statistical methods machine learning

ВведениеСтатья посвящена новым цифровым технологиям, которые используются с целью анализа и прогнозирования посещаемости информационных веб-ресурсов. За последние 10 лет российский рынок интернет-торговли вырос в 11 раз [1]. Крупные предприятия уделяют возрастающее внимание цифровому присутствию на интернет-ресурсах, что подчеркивает важность анализа подобного рода данных. В данном исследовании проанализированы различные методы прогнозирования, на основе которых можно сделать вывод о дальнейшей посещаемости веб-ресурса, а также возможный набор данных, которые используются для решения этой задачи. Цель исследования – систематизация и оценка современных методов прогнозирования посещаемости веб-ресурсов.В связи с увеличением рынка интернет-торговли и популяризацией данного способа ведения бизнеса крупные предприятия все чаще осознают необходимость активного присутствия в цифровом пространстве, что подчеркивает важность использования современных цифровых технологий для обработки и анализа данных. Для анализа необходимо понимать возможные источники данных и их структуру. В работе [2] выделены 5 основных ресурсов сбора данных для веб-аналитики: GoogleAnalytics, Яндекс.Метрика, AdobeAnalysis, Liveinternet, ClickTale.Из вышеуказанных источников можно собрать данные по следующим метрикам:– трафик: общее количество человек, которые посетили сайт за определенное время;– просмотры: количество страниц сайта, которые пользователи открыли или обновили;– глубина просмотра: количество просмотренных страниц за один визит. Глубина просмотра рассчитывается как отношение общего количества просмотров к количеству визитов;– события: взаимодействие пользователей с элементами сайта. Например, заполнение формы, воспроизведение видео, скачивание прайс-листа, копирование поля e-mail;– сеанс: визит пользователем сайта. Все взаимодействия с сайтом, просмотры страниц и различные события за время нахождения считаются как один визит;– отказы: процент тех посещений, когда пользователи сразу ушли с сайта или посмотрели только одну его страницу, не совершив целевого действия;– цель: действие посетителя сайта, которое считается наиболее ценным;– конверсия: процентное соотношение числа посетителей, выполнивших целевое действие, к общему числу посетителей;– источники трафика: каналы, откуда пришли посетители;– возвраты: те случаи, когда пользователи добавили сайт к себе в закладки и заходят из них, либо пользователи, которые запомнили домен [2].Представленные метрики классифицируются на 2 категории: количественные и качественные. Количественные показатели использовались для анализа временных тенденций и прогнозирования, качественные помогают классифицировать или сегментировать пользователей для анализа поведения конкретных групп. В рамках представленной задачи целевым показателем будет являться трафик, основной набор данных будет выглядеть как временной ряд количества посещений в единицу времени. В работах исследователей под временным рядом принято понимать последовательность наблюдений, записанных через последовательные временные интервалы. Данные временных рядов собираются через регулярные промежутки времени, например, ежечасно, ежедневно, ежемесячно, ежегодно [3–5]. Данные о трафике представляют собой временной ряд, что позволяет применять к ним различные методы прогнозирования – как статистические, так и методы машинного обучения.Статистические методы работают с двумерными данными (количественная переменная, расположенная на временном отрезке), которые подаются на вход модели, что позволяет выделить как сезонную составляющую, так и трендовую. Однако не все данные подходят для таких методов. Для верификации пригодности временного ряда необходимо провести анализ стационарности ряда. Это фундаментальное свойство для многих моделей анализа временных рядов, при котором математическое ожидание, дисперсия и структура автоковариаций остаются постоянными во времени. Для проверки данного свойства ряда проводят тест Дики – Фуллера [6]:yt = θyt – 1 + εt,где yt – значение временного ряда в момент t; θ – коэффициент; εt – случайная ошибка.Временной ряд является стационарным, а значит, не содержит единичный корень и описывается авторегрессионным процессом первого порядка, когда ∣θ∣ < 1. При θ = 1 временной ряд нестационарен, содержит единичный корень и описывается процессом случайного блуждания [6]. Несмотря на важность данного теста, его выполнение необязательно при применении методов машинного обучения. Напротив, данные методы широко используются для обнаружения сложных и непрямых связей внутри данных, но для этого необходимо большое количество feature-переменных. Под feature-переменной в работе [7] Орельена Жерона понимается отдельная измеряемая характеристика или свойство наблюдаемого явления. Другие качественные и количественные данные, помимо трафика, смогут выступить в роли дополнительных, описательных переменных, например общее количество просмотров, сеансов и событий. Также на основе количественных переменных можно рассчитать статистические feature-переменные, такие как лаги переменной, средние и медианные значения за различные периоды, отклонения и дельты. Кроме того, из самой даты необходимо собрать определенное количество переменных, важных для установления сезонной связи в модели. Построение и сравнение моделей прогнозированияДля анализа эффективности различных методов прогнозирования используется открытый источник данных: веб-трафик различных страниц Википедии. В работе разобраны методы SARIMA, Хольта – Винтера и градиентный бустинг. Перед работой с моделями необходимо провести анализ данных. В него входят общая визуализация данных, анализ наиболее значимых статей и STL-разложение. Временной ряд, представленный на графике (рис. 1), сильно подвержен сезонности. Рис. 1. Визуализация данных о посещении страниц Википедии Fig. 1. Visualization of Wikipedia page visit data Для дальнейшего анализа потребуется STL-разложение и анализ сезонной компоненты. Не менее значимым является выявление основных контрибуторов – самых объемных по посещаемости страниц, т. к. они наиболее сильно будут влиять на оценку моделей (рис. 2). Рис. 2. Топ-10 страниц по посещению Fig. 2. Top-10 pages by visits Как видно на графике, статья Википедии, посвященная Моцарту, является наиболее популярной, следовательно, для моделей SARIMA и Хольта – Винтера будет иметь большое значение стационарность этого ряда. Разложим данные на компоненты STL: сезонность, тренд и потери (рис. 3). Рис. 3. STL-разложение временного рядаFig. 3. STL decomposition of time series Исходя из STL-разложения, можно сделать вывод о повышении популярности Википедии, а также сильной сезонности, которая может объясняться сезонностью в сфере образования: экзамены, сессии. Приступим к построению прогнозных моделей, т. к. SARIMA работает исключительно с двумерными рядами, просчет модели будет происходить в итеративном формате, по каждому ряду по отдельности. Предварительно данные были сгруппированы по неделям для прогнозирования на более высоком уровне. Максимально возможный период прогнозирования зависит от исторического периода данных и может составлять четверть от исторического периода. Для данных о веб-трафике различных страниц Википедии период составляет 13 недель. Сама модель SARIMA использует несколько статистических показателей для прогноза: S – сезонность, AR – авторегрессия, I – интеграция, MA – скользящее среднее. На вход модель принимает 7 параметров: порядки каждой составляющей, сезонные порядки каждой составляющей и период сезонности, в прогнозировании по неделям период равен 52. В данной работе был проведен анализ наиболее подходящих параметров каждой переменной от 0 до 5 с шагом 1. Лучшая модель для каждого ряда далее выступала как результирующая для получения наибольшей точности. Результат представлен на рис. 4. Рис. 4. Прогноз модели SARIMAFig. 4. SARIMA model forecast Далее исследуется модель Хольта – Винтера, за основу которой взято разложение ряда на сезонную и трендовую составляющие. Такое разложение комбинируется с экспоненциальным сглаживанием, что лишает ее определенной гибкости. Данная модель подходит для стабильных рядов, с одинаковой сезонностью и понятным трендом. Ряды посещений Википедии сложно назвать стабильными, т. к. тренд в отдельно взятых рядах нестабилен. Результат прогноза адаптивной модели Хольта – Винтера представлен на рис. 5. Рис. 5. Прогноз адаптивной модели Хольта-Винтера Fig. 5. Holt–Winters adaptive model prediction Далее рассмотрим более сложную модель, которая уже может включать в себя дополнительные feature-переменные – градиентный бустинг. Принцип работы заключается в постепенном итеративном наращивании более слабых моделей для получения точного прогноза. Свое название метод получил благодаря использованию принципа градиентного спуска, где на каждой итерации считается градиент функции потерь, последующие модели обучаются на нем, улучшаясь в нужном направлении. Ключевым фактором успешного применения градиентного бустинга является использование корректных feature-переменных. Из полученных данных удалось создать 24 статистических переменных: 13 лагов переменной, среднее, медиана, стандартное отклонение за 4, 8 и 13 недель, дельты первого лага и среднего, медианы. Также 5 временных переменных, описывающих год, месяц, номер недели, сезон и квартал. Наиболее важными по итогу прогнозирования оказались месяц, первый лаг, среднее за 4 недели. Результат представлен на рис. 6. Рис. 6. Прогноз модели градиентного бустингаFig. 6. Prediction of the gradient boosting model Для анализа точности моделей использовались 3 метрики: MSE, MAE и RMSE. MSE – среднеквадратичное отклонение, рассчитывает, насколько предсказанное значение отклоняется от фактических. Однако у MSE есть недостаток: т. к. он считается в квадрате, его интерпретация может вызывать осложнения. Для более легкой интерпретации в работе используется параметр RMSE, который берет корень от MSE. В качестве третьего параметра используется MAE – средняя абсолютная ошибка, которую можно интерпретировать как модуль дельты фактического и предсказанного значения. Результаты сравнения моделей представлены на рис. 7. Рис. 7. Сравнение моделей по прогнозированию посещений ВикипедииFig. 7. Comparison of models for predicting visits Wikipedia На основании полученных значений метрик можно сделать вывод, что модель градиентного бустинга продемонстрировала наименьшую ошибку прогноза в задаче прогнозирования посещаемости страниц Википедии. ЗаключениеНаучная новизна работы заключается в комплексном подходе к прогнозированию посещаемости веб-ресурсов, сочетающем традиционные и современные методы, а также в практических выводах, которые могут быть полезны для бизнеса и дальнейших исследований в этой области. Несмотря на то, что модель градиентного бустинга продемонстрировала наилучшие результаты, для некоторых рядов более точной оказалась модель SARIMA, для некоторых – Хольта – Винтера. Полученные результаты свидетельствуют о необходимости комбинации различных методов для достижения наиболее точного прогноза. Также следует рассмотреть возможность ансамблирования моделей в разных пропорциях. Задача прогнозирования посещаемости веб-ресурсов стала одной из ключевых задач маркетинга и интернет-торговли. Поскольку данная сфера с каждым годом набирает популярность, важность подобных моделей для бизнеса будет расти, а методы становиться более сложными и точными. Кроме того, следует обратить внимание на использование рекуррентных искусственных нейронных сетей для прогнозирования посещаемости. Применение моделей, которые обладают способностью учитывать временные зависимости и сложные паттерны в данных, потенциально повышает точность прогнозирования.Таким образом, будущее прогнозирования посещаемости веб-ресурсов связано с интеграцией различных методов и технологий, что позволит бизнесу не только адаптироваться к изменениям на рынке, но и предвосхищать потребности своих клиентов. Важно продолжать исследовать и внедрять новые подходы, чтобы оставаться на шаг впереди в этой быстро меняющейся среде.

Интернет-торговля (рынок России) // TADVISER. Государство. Бизнес. Технологии. URL: https://clck.ru/3RGv9z (дата обращения: 09.04.2025).

Internet-torgovlya (rynok Rossii) [Online commerce (Russian market)]. TADVISER. Gosudarstvo. Biznes. Tekhnologii. Available at: https://clck.ru/3RGv9z (accessed: 09.04.2025).

Кнаан А. Р. Использование инструментов веб-аналитики для улучшения посещаемости сайта // Научный результат. Информационные технологии. 2020. Т. 5. № 2. С. 32–37.

Knaan A. R. Ispol'zovanie instrumentov veb-analitiki dlya uluchsheniya poseshchaemosti sajta [Using web analytics tools to improve website traffic]. Nauchnyj rezul'tat. Informacionnye tekhnologii, 2020, vol. 5, no. 2, pp. 32-37.

Хайндман Р. Д., Атанасопулос Дж. Прогнозирование: принципы и практики. М.: ДМК Пресс, 2023. 458 с.

Hajndman R. D., Atanasopulos Dzh. Prognozirovanie: principy i praktiki [Forecasting: principles and practices]. Moscow, DMK Press, 2023. 458 p.

Сурина А. В. Анализ временных рядов: учеб. пособие. СПб., 2025. 90 с.

Surina A. V. Analiz vremennyh ryadov: uchebnoe posobie [Time series analysis: a textbook]. Saint Petersburg, 2025. 90 p.

Шамвей Р. Х., Стоффер Д. С. Анализ временных рядов и его приложения. Springer, 2017. 562 с.

Shamvej R. H., Stoffer D. S. Analiz vremennyh ryadov i ego prilozheniya [Time series analysis and its applications]. Springer, 2017. 562 p.

Тест Дики – Фуллера. URL: https://bigenc.ru/c/test-diki-fullera-ba2fa5 (дата обращения: 09.04.2025).

Test Diki – Fullera [The Dickey–Fuller Test]. Available at: https://bigenc.ru/c/test-diki-fullera-ba2fa5 (accessed: 09.04.2025).

Géron A. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media, Inc., 2022. 864 p.