Сэмплирование — это способ выборки данных на основании которых будет построена отчетность. При сэмплировании для построения отчета используется только часть данных за период.
Сэмплирование применяется для того, чтобы снизить нагрузку на сервера при вычислениях и ускорить процесс формирования отчета.
Основной минус сэмплирования в том, что вы не получите точных данных, т.к. отчет строиться по части данных. Например в отчете на основе сэмплированных данных может быть показан доход 2 000 000, а на самом деле за этот период доход составил 3 000 000.
Как понять что к отчету в google analytics применено сэмплирование?
Обратите внимание на значок, похожий на щит, рядом с названием отчета. Если он оранжевого цвета, то к отчету применено сэмплирование, если навести на значок мышку, то появится подсказка с пояснением, что отчет создан на основе анализа определенного процента данных. Если значок зеленый, то отчет построен на 100% выборке данных
Согласно справке Google analytics стандартные отчеты не подвержены сэмплированию, т.е если вы никак не модифицируете отчеты, то в них будут присутствовать 100% данных.
Способы обхода сэмплирования
Уменьшение диапазона дат
Уменьшая диапазон дат, вы уменьшаете количество данных, которые придется обработать google analytics. Вы можете разбить нужный период на несколько диапазонов дат, сделать выгрузки в эксель и попытаться потом в экселе объединить нужные вам данные.
Выгрузка данных при помощи дополнения для google spreadsheets
Существует специальный аддон для гугл аналитикс, который умеет вытаскивать данные через api google analytics. Узнать подробнее и скачать его можно по ссылке
Аддон выгружает данные из google analytics в таблицу, где вы можете их обработать. У аддона есть свои ограничения, он способен загрузить только 10000 строк. Для того чтобы получить более 10000 строк вам необходимо добавить еще одну конфигурацию точно такого же отчета, но в полке start index указать значение 10001 таким образом вы дадите указание собирать данные с 10001 строки. Вы получите данные на двух листах и потом сможете их свести. Добавляйте больше конфигураций если вам нужно больше данных
Выгрузка при помощи Google Analytics Query Explorer
Еще один способ получения несемплированных данных это работа с api google analytics при помощи специального сервиса Google Analytics Query Explorer этот сервис позволяет при помощи ввода специальных параметров, аналогичных параметрам из предыдущего способа получать данные из google analytics, но тут тоже действует ограничение в 10000 строк, нужно делать несколько запросов если вам нужно много данных.
Выгрузка данных при помощи языка R
Существует специальный язык программирования R и специальная программа R-studio с их помощью можно вытягивать данные через api аналитикса, преимущество этого метода перед другими, в том, что вам не придется вручную выгружать по 10000 строк и сводить их вручную, есть специальный скрипт, и в нем заложен алгоритм который автоматически склеивает данные.
Кроме этого R это язык программирования в первую очередь направленный на обработку данных статистическими методами, изучив его глубже можно решать разные задачи по обработке данных. Подробнее о том как выгружать данные при помощи R-studio можно прочитать в этой статье
Купить google analytics 360
Это платная расширенная версия гугл аналитикса, в нем есть разные прикольные плюшки, а также увеличен лимит на не сэмплированные данные
Стандартная версия Google Analytics: 500 тыс. сеансов на уровне ресурса для используемого диапазона дат. Google Analytics 360: 100 млн сеансов на уровне представления для используемого диапазона дат.
Главный минус этого решения цена, минимально вам нужно будет платить 120 000 $ в год за использование этой системы