Google Analytics 中的采样指南

作者的观点完全是他们自己的(不包括催眠这一不太可能发生的事件),并且可能并不总是反映 Moz 的观点。

当分析所有存在的数据不可行或不切实际时,抽样是统计中使用的过程。相反,使用一个小的、随机选择的子集来保持事情的可管理性。许多分析平台使用某种采样来控制报告加载时间,并且在分析采样方面似乎存在三种思想流派。有些人对此感到害怕,坚持使用任何报告的非抽样版本。还有一些人对此感到放松,相信统计逻辑。最后,还有那些健忘的人。

这三个人都被误导了。

抽样并不可怕,但是,尤其是在 Google Analytics 中,它并不总是值得信任的。因此,绝对值得您花时间了解它何时发生、它如何影响您的工作以及如何避免它。

当它发生时 您始终可以知道何时使用采样

因为每个报告顶部的这一行:如果百分比小于 100%,则采样正在进行中。您会注意到上面我已经根据超过 5 亿个会话生成了一份报告,而没有进行任何抽样 – 抽样不仅仅涉及报告中涉及的会话数量。这与您要求平台报告的内容的复杂性有关。对比下面的内容(对小屏幕 佐治亚州手机号码列表 截图表示歉意;我想确保包含整个上下文,因此添加了说明文字来解释您正在查看的内容):

未应用分段,报告基于 100% 的会话

已应用细分,报告基于 0.17% 的会话

除了在第二种情况下使用段之外,两者是相同的。Google Analytics(分析)始终可以像第一种情况一样提供顶线总计的未抽样数据,但特别是细分市场很容易提示抽样。

还可以通过使用次级维度来引入完全相同的采样级别

手机号码清单

应用辅助维度,报告基于 0.17% 的会话

其他一些专门报告也倾向于这种级别的抽样,最 B2B传真线索 值得注意的是:

电子商务概述
《流量报告》
基于 0.17% 会话的报告
基于 <0.1% 的会话的报告

到目前为止,总结一下,当我们使用以下内容时可以进行采样:

一段
不止一维
某些详细报告(包括电子商务概览和 AdWords 广告系列)
《流》报道
采样精度
在大多数情况下,抽样实际上是相当可靠的。取下面两个同期有机流量的数字,一个取自 0.17% 的微小样本,另一个取自未采样:

根据 0.17% 的会话进行报告,通过有机报告 303,384,785 个会话

基于 100% 会话的报告,通过有机报告 296,387,352 个会话

与 0.17% 的实际会话样本相比,差异仅为 2.4%。有趣的是,当我在较短的时间内(上个季度)重复进行这种比较时,样本大小达到了 71.3%,但误差幅度相当相似,均为 2.3%。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部