Семплирование. Справочник разработчика

При наличии большого количества статистических данных, собираемых счетчиком, Яндекс Метрика может использовать только часть из них. Например, обрабатывать 1/10 всех визитов (и, соответственно, домножить результаты на 10 там, где это необходимо).

Процесс формирования такой выборки называется семплированием. Семплирование представляет собой степень сочетания скорости получения результатов и их точности.

Например, в результате работы семплирования в отчет могут не попасть данные по очень редко посещаемым URL-адресам или очень редко встречающимся поисковым фразам.

Управлять семплированием можно с помощью параметра запроса accuracy, задающего размер выборки, по которой будет производиться расчет.

Этот параметр может принимать несколько значений:

low — возвращает быстрый результат на основе сокращенной выборки данных.
medium — возвращает результат на основе выборки, сочетающей скорость и точность данных.
high — возвращает наиболее точное значение, используя наибольшую выборку данных. Этот режим может потребовать дополнительное время и замедлить обработку запроса.
full — возвращает все данные.

Так же этот параметр может принимать числовое значение из полуинтервала (0,1]:

1 — отсутствует семплирование (соответствует значению full).
0.1 или 0.01 — доля возвращаемых данных (10%, 1%). Любое значение (например, 0.42) будет округляться до ближайшей степени числа 10.

По умолчанию параметр accuracy имеет значение medium.

В возвращаемых результатах примененное семплирование описывается следующими параметрами:

sample_share — доля данных, по которым осуществлялся расчет (значение от 0 до 1).
sample_size — количество строк в выборке данных.
sample_space — общее количество строк в исходных данных (без применения семплирования).

Была ли статья полезна?

Расскажите, что вам не понравилось в статье:

Локализация и расшифровка значений группировок

Примеры

Локализация и расшифровка значений группировок

Примеры