Семплирование

При наличии большого количества статистических данных, собираемых счетчиком, Яндекс Метрика может использовать только часть из них. Например, обрабатывать 1/10 всех визитов (и, соответственно, домножить результаты на 10 там, где это необходимо).

Процесс формирования такой выборки называется семплированием. Семплирование представляет собой степень сочетания скорости получения результатов и их точности.

Например, в результате работы семплирования в отчет могут не попасть данные по очень редко посещаемым URL-адресам или очень редко встречающимся поисковым фразам.

Управлять семплированием можно с помощью параметра запроса accuracy, задающего размер выборки, по которой будет производиться расчет.

Этот параметр может принимать несколько значений:

  • low — возвращает быстрый результат на основе сокращенной выборки данных.
  • medium — возвращает результат на основе выборки, сочетающей скорость и точность данных.
  • high — возвращает наиболее точное значение, используя наибольшую выборку данных. Этот режим может потребовать дополнительное время и замедлить обработку запроса.
  • full — возвращает все данные.

Так же этот параметр может принимать числовое значение из полуинтервала (0,1]:

  • 1 — отсутствует семплирование (соответствует значению full).
  • 0.1 или 0.01 — доля возвращаемых данных (10%, 1%). Любое значение (например, 0.42) будет округляться до ближайшей степени числа 10.

По умолчанию параметр accuracy имеет значение medium.

В возвращаемых результатах примененное семплирование описывается следующими параметрами:

  • sample_share — доля данных, по которым осуществлялся расчет (значение от 0 до 1).
  • sample_size — количество строк в выборке данных.
  • sample_space — общее количество строк в исходных данных (без применения семплирования).