在上周的 SEOmoz.org 研讨会上本·亨德里克森提出了独特的定位技术。演讲受到热烈欢迎——我从未见过一次行业会议多次被雷鸣般的掌声打断。
我怀疑我能否通过一篇文章重现 320 名研讨会参与者自发分享的那种兴奋;我的目标是解释主题建模(最初的“主题建模”)、向量空间模型(最初的“向量空间模型”)的概念,它们与搜索的关系,并介绍我们在使用LDA(带有隐藏变量的狄利克雷分布,原始狄利克雷分配)。我还将尝试解释这些理论工具与 SEO 的联系以及它们在定位中的实际应用。
哪些因素决定排名——图表
你们中的许多人可能听说过SEOmoz每两年进行一次的排名因素调查(明年还会有另一波调查;我期待非常有趣的结果!)。在SEOmoz,我们当然意识到基于SEO专家意见平均的方法并不完美,某些因素可能会被遗漏,其他因素可能被高估或低估。
下面是我为最近的演示创建的图表。该图表总结了该研究,显示了最重要的排名因素组:
基于对 SERP 的所有测量、测试和观察,我经常有这样的印象:诸如词频或TF*IDF (缩写解释如下)等页面因素的重要性相当小。即使对于竞争性较低的关键词,也不会因为向其中一个网站的内容添加更多关键词、同义词或主题相关词而造成混淆。我的许多对话者也分享了这些和其他经验,使我做出这样的假设:搜索结果中的位置主要由链接决定。
最新的数据库专门研究潜在客户生成,为目标外展提供了Aguira电子邮件列表7582联系信息。我们的综合列表确保访问经过验证的高质量潜在 安圭拉电子邮件列表 7582 条联系信息 客户,帮助企业有效与潜在客户建立联系。通过利用我们的Aguira联系数据,公司可以提高潜在客户的生产工作,增强销售机会并推动业务增长。信任最新数据库,以获取准确的,结果驱动的铅解决方案。
但我真的很喜欢犯错。
我们的主题建模实验,尤其是使用LDA过程进行的实验,已经显示出其令人惊讶的有效性。这让我(我想,上周二本演讲的大多数听众)质疑我们目前对页面因素的理解是否过于简单化并扭曲了我们的态度。
为什么搜索引擎需要主题建模?
有些查询确实很简单——例如,有关“维基百科”的查询是明确的,即使是非常原始的搜索引擎也可以返回相关结果。然而,还有更困难的查询。现在让我们看看搜索引擎确定两个结果的顺序的方法– 一个看似简单的问题,但在某些情况下它可能会变得更加复杂。
搜索引擎必须能够识别每个页面的意图。当查询很复杂或有许多与内容相关的结果时,这一点尤其重要。显然,即使在页面的关键位置使用关键字四次甚至五次,甚至额外出现其同义词/主题相关词,也并不一定意味着该页面确实对应于互联网用户的查询。
另请阅读
SEO 托管和 IP 地址在后端的重要性 – Dominik Wojcik
主题建模,包括LDA,并不是什么新鲜事,我们的行动也不是一场革命。这些概念在 SEO 行业中已经众所周知;许多 SEO 专家投入了大量的工作来尝试将它们应用到实践中。然而,据我们所知,还没有人公开推出主题建模工具,也没有人将这种方法的分析结果与谷歌搜索结果进行比较(例如,看看页面内容对谷歌有多重要)。本演讲中最有趣的部分(在我看来)是他提供的数字。
术语向量空间和主题建模
术语向量空间、主题建模和余弦相似度似乎是一些困难的概念,当 Ben 在演讲中第一次提到它们时,许多观众(包括我自己)感到困惑。幸运的是,本(在剑桥数学毕业生威尔·克里奇洛的帮助下)非常清楚地解释了一切。现在,我将尽力忠实地重复我所听到的内容。
在上面的例子中,我们假设每个英语单词与主题“cat”或主题“dog”相关联,并且不存在其他主题。为了测量给定单词与“dog”的关系,我们使用向量空间 为您的企业提供人工智能电话营销呼叫中心 模型来数学计算这种关系。上面的澄清图表显示了我们的假设。像“Bigfoot”这样的短语完美地位于“cat”和“dog”之间。然而,诸如“猫”或“狗”之类的词显然比另一个主题更接近其中一个主题,并且这种关系的强度由向量的角度来表示(因此我们有一个可以用于进一步分析的值)计算)。
顺便说一句 – 在LDA向量空间模型中,主题没有自己的标签,例如“狗”或“猫”,而是使用“与狗主题相关的向量”等术语。
不幸的是,我无法以图形方式呈现更复杂的情况。这里复杂性的增加是将这个简单的模型扩展到数千或数百万个主题,每个主题都有自己的维度(任何尝试过的人都会意识到在博客文章中绘制超过 3 个维度是相当困难的)。使用这个模型,我们可以计算任何单词或单词组与选定主题之间的相似度。您可以在斯坦福大学发表的一篇文章中了解更多相关信息(信息检索简介),该部分是其中的一部分向量空间模型。
LDA 和 Google.com 返回结果的相关性
10 个月前,Ben(与 SEOmoz 团队的其他成员合作)创建了一个基于 LDA 简化版本的主题建模系统。这是一项非常困难的任务,但我们怀疑我们是否是 SEO 行业中第一个做到这一点的人(尽管我们可能是第一个公开提供此类工具的人)。
当我们开始研究 LDA 时,我们不知道搜索引擎中使用的 LDA 模型可以使用哪些输入。更让我们印象深刻的是相关研究结果:
使用与我们相同的方法关于 Google 和 Bing 返回的结果之间的相关性的报告,发表在 SMX Advanced 上(此处有关它的更多详细信息),我们提供了 SEO 专家已知的衡量标准(TF*IDF,链接 IP 数量)和 LDA 结果的 Spearman 排名相关系数。
- TF*IDF – 一种经典的术语权重方法,比基于关键字密度测量的更原始的方法更精确地测量关键字使用情况。为了计算 Spearman 排名相关系数,我们采用了 Google 排名中出现的页面内容的 TF*IDF 结果。
- 链接 IP 数量– 这是基于与 Google.com 结果高度相关的链接的独立衡量标准。显示链接到我们的 URL 的托管网站的唯一 IP 号码的数量。正如我们已经写过的,如果我们用诸如页面权威性(它使用机器学习技术来构建更复杂的排名模型)之类的衡量标准来补充它,我们会获得更高的相关系数,但为了进行比较,我们将坚持原始值有关链接数量的数据。
- Cosine LDA(原名“LDA cosine”) ——这是我们测试 LDA 工具的结果。该工具测量给定子页面或内容片段与查询之间的主题“余弦相似度”。
LDA 分数和 Google 排名之间的相关性非常高。当然,这并不是完全相关,但考虑到谷歌算法的复杂性以及影响因素的众多,这是出乎意料的。当然,LDA分数和Google排名之间的高度相关性并不一定意味着页面内容对排名有很大影响(我们打 ATB 目录 算进行更多测试来帮助确定是否存在因果关系)。也许好的链接往往会引导至 LDA 工具意义上的“相关”网站 ,或者可能还有 Google 算法的另一个未知方面在起作用。
然而,由于 Google 结果与其他“良好 SEO 实践”(例如 [title] 中的关键字、静态 URL 等)的相关性远低于 LDA,并且证明因果关系的问题同样很大,因此我们认为对于许多 SEO 专家来说,这项技术将会非常有趣。
LDA测试工具——如何使用?
我们刚刚发布了 LDA 测试工具。输入单词、短语、文本片段或子页面的整个内容(提供其 URL),还输入查询(您想要排名的关键字/短语),该工具将返回确定余弦相似度的百分比结果(100% – 完全合规,0% – 无连接)。
使用该工具时,请记住:
- 该工具仅适用于英语– 该工具基于英语语料库,因此结果仅对英语短语和页面有意义[编者注:在创建基于波兰语语料库的工具之前,它值得关注的是Google本身以搜索结果下方的“类似搜索”列表的形式和“奇迹轮”的形式提供的单词之间的联系,尽管这种技术怎么强调都不为过,如下所述]
- 同义词、“类似搜索”和信息圈可能还不够——术语向量模型是“主题”的非常复杂的表示,尽管许多 SEO 专家建议使用同义词和“类似搜索”作为网站上的关键字,但其他很大程度上表明了“主题相关内容”的重要性,但是,尚未开发出任何方法来衡量其相关性并检查其与 SERP 的相关性。我们的工具提供的结果基于对单词之间联系的比经典方法假设的更细致的解释,
- 该工具的每次运行都会给出略有不同的结果– 为了了解特定城市选民的观点,民意调查人员不会单独询问每个人,而是随机选择,例如 100 人。同样,我们的工具仅分析材料的随机样本(分析整个事情会花费太多时间)。因此,您必须考虑相同内容和查询组合的结果中 1-5% 的差异,
- LDA 并没有给出完整的情况– 请记住,虽然 LDA 结果与 SERP 的相关性相对较高,但为 0.33,因此您不应期望它忠实地再现 SERP(对于这种情况,相关性必须达到1.0) ,
- 结果是相对的– 不要认为 15% 或 20% 总是不好的结果。如果您的 SERP 前 10 名竞争对手的 LDA 分数也在 10-20% 范围内,那么您可能做得很好。有些查询根本不会被算法视为与主题相关(这可能是由于我们算法的弱点或查询本身的不寻常性质造成的),
- 我们的主题模型目前不考虑短语– 目前,我们的工具可以处理单个单词的主题。我们假设搜索引擎中使用的模型已经突破了这个限制并支持多词短语;我们希望也将这种可能性包含在我们的工具中,
- 垃圾邮件关键字可能会提高您的 LDA 分数,但可能不会提高您的排名– 尝试过度使用一个概念通常会在 SEO 中产生灾难性的结果。即使我们的工具完美地复制了 Google 测量单词和主题相关性的方法,试图将 50 个单词塞到一个页面上只是为了提高其 LDA 分数也是不明智的。定位器的目的是为人们提供他们正在寻找的优质内容,而 Google 足够聪明,能够将垃圾内容与垃圾内容区分开来,这些内容写在“LDA 下”(我们的工具可能无法做到这一点),
我建议您不要只关注 LDA,而是创建一个类似于下面的表:
(Google.com 对查询“SEO”的 SERP 分析,包括 Linkscape 和 LDA 的结果)
如何用数据填充该表?首先,启动工具关键词难度,导出那里获得的结果,然后手动添加缺失的数据(将来,我们打算将这种类型的分析直接构建到Web应用程序测试工具中)。
一旦你准备好了表格并填充了数据,你就会更好地了解是什么决定了你的竞争对手的高位——锚文本、领域权威,或者可能是与主题建模相关的东西(当确定LDA结果可以有用)。
谷歌使用了更先进的技术
虽然相关性很高,并且 SEOmoz.org 团队及其社区成员对该工具的兴奋程度也很高,但必须指出的是,这并不是 Google 算法的逆向工程。我们可能已经构建了一个很棒的工具,可以帮助您提高页面的相关性并确定主题建模是否是一个重要的排名因素。该工具是否真的能做到这一切还有待观察。
我们对这个新工具感到兴奋,不是因为它使用了一些秘密公式(LDA 和向量空间模型都是几十年前发明的),而是因为它让我们有机会测量我们以前几乎无法测量的 SEO 参数。
顺便说一下——谢谢迈克尔·科塔姆,谁建议我们看一下Google 员工对 pLDA 的研究。双方员工撰写的科学文章谷歌什么微软(必应),关于 LDA 的内容还有很多。您所要做的就是仔细查看它们,您会发现几乎可以肯定搜索引擎将使用高级的类似 LDA 的模型。该工具的高度相关性和测试表明,即使相当简化的实施仍然可以带来有价值的结果并帮助优化网站。
对于那些想要了解更多详细信息的人,我们提供 XLS 格式的原始数据。如果您对该主题感兴趣,请写信给 Ben (Ben Monkey SEOmoz dot org)。
您如何向您的老板/客户解释这一点?
最简单的方法是使用这样的类比:
如果我们想要定位短语“therollingstones”,我们应该使用诸如“MickJagger”、“KeithRichards”和“concertdates”之类的短语。然而,使用“红宝石”、“祖母绿”、“宝石”等词语并不是最好的主意,因为结合团体名称“滚石”的字面意思,它可能会向搜索引擎推荐(并且互联网用户)认为该网站是关于宝石的,而不是摇滚乐队。
该工具使我们能够很好地近似确定与竞争对手相比,我们处理网站上的单词选择的能力如何(只需向该工具提供一段文本)。该工具还可以帮助您发现错误,例如滚石乐队网站上没有提及 Keith Richards。
我们很好奇我们的工具在实践中将如何工作。一些人已经写信给我们报告说,在考虑了 LDA 结果之后,他们的网站的搜索结果出现了显着的跳跃。当然,这并不以任何直接方式表明所使用的工具或算法,但它给人带来了获得良好结果的希望。
附言。我们计划补充这个工具,使其能够推荐我们应该添加或删除的单词,以提高网站的得分。
[来源
[2010 年 9 月 17 日更新,SprawnyMarketing.pl 编辑团队]:本文中提出的 LDA 与 Google 排名相关性的结果结果证明存在严重缺陷:
当 SEOmoz.org 团队的 Ben Hendricson 两周前发表演讲时LDA工具的实验结果,我们似乎正在面对一场几乎一场革命。该工具检查页面内容与关键字的主题相关性,试图复制 Google 为此目的使用的方法。 Hendricson 的实验表明,使用 LDA 工具计算的排名与 google.com 的真实排名之间存在前所未有的相关性。 SEO 行业不仅要获得出色的定位工具,还要确保 SEO 文案是比以前假设的更重要的排名因素。前天,亨德里克森但他承认他的计算有误,相关性不是0.32,而是0.17。这意味着什么?
LDA 并不能比其他独立方法(例如计算包含定位网站链接的网站的唯一 IP,或 TF*IDF 方法)更好地反映 Google 排名。在考虑了正确的相关系数后,它必须说的是<strong>LDA充其量是反映基于网站内容排名的最佳可用方法</strong>,但它比基于链接的方法要弱:
<img class=”alignnone size-large wp-image- 4748”标题=”lda_tf_idf_chart_fixed_2”src=”https://sprawnymarketing.pl/wp-content/uploads/2010/09/lda_tf_idf_chart_fixed_2-530×326.png”alt=””宽度=”530”高度=”326” />
上面是比较各种方法的相关系数的<strong>更新图表</strong>。
Ben Hendricson 宣称“主题建模仍然是一个有前途的领域,尽管没有我之前想象的那么多”,并且“0.17 的相关性仍然令人兴奋,尽管不如 0.32 那样令人兴奋”。他还详细解释了错误是如何发生的,并多次为误导读者而道歉。
Ben 后来的注释表明,<strong>可能发现了另一个人为夸大相关性的错误</strong>,因此结果可能会更低。本承诺彻底检查并描述它。
就我个人而言,虽然有些失望,但我只能对 SEOmoz.org 团队和 Ben Hendricson 勇敢承担错误责任并自行披露的敬意。