搜索引擎的工作原理:抓取、索引和排名
搜索引擎的工作原理:抓取、索引和排名-搜索引擎如何工作
首先,出现。
正如我们在第 1 章中中提到的,搜索引擎是应答机。它们的存在是为了发现、理解和组织互联网内容,以便为搜索者提出的问题提供最相关的结果。
为了出现在搜索结果中,您的内容首先需要对搜索引擎可见。这可以说是 SEO 难题中最重要的部分:如果找不到您的网站,您将永远不会出现在 SERP(搜索引擎结果页面)中。
搜索引擎是如何工作的?
搜索引擎通过三个主要功能工作:
爬行:在 Internet 上搜索内容,查看他们找到的每个 URL 的代码/内容。
索引:存储和组织在爬行过程中发现的内容。一旦页面在索引中,它就会在运行中显示为相关查询的结果。
排名:提供最能回答搜索者查询的内容片段,这意味着结果按最相关到最不相关的顺序排列。
什么是搜索引擎抓取?
爬网是搜索引擎派出一组机器人(称为爬虫或蜘蛛)来查找新内容和更新内容的发现过程。内容可能会有所不同——它可以是网页、图像、视频、PDF 等——但无论格式如何,内容都是通过链接发现的。111111
搜索引擎的工作原理:抓取、索引和排名-搜索引擎如何工作
Googlebot 首先获取几个网页,然后按照这些网页上的链接查找新网址。通过沿着这条链接路径跳跃,爬虫能够找到新内容并将其添加到名为Caffeine的索引中——一个包含已发现 URL 的庞大数据库——稍后在搜索者寻找该 URL 上的内容是很好的搭配。
什么是搜索引擎索引?
搜索引擎处理和存储他们在索引中找到的信息,索引是一个巨大的数据库,包含他们发现的所有内容,并认为足以为搜索者提供服务。
搜索引擎排名
当有人执行搜索时,搜索引擎会在其索引中搜索高度相关的内容,然后对该内容进行排序,以期解决搜索者的查询。这种按相关性对搜索结果进行排序称为排名。一般来说,您可以假设网站排名越高,搜索引擎认为该网站与查询越相关。
可以从您网站的部分或全部阻止搜索引擎爬虫,或指示搜索引擎避免将某些页面存储在其索引中。虽然这样做可能是有原因的,但如果您希望搜索者找到您的内容,您必须首先确保爬虫可以访问它并且可以编入索引。否则,它就像看不见一样好。
到本章结束时,您将拥有使用搜索引擎所需的上下文,而不是与之对抗!
在 SEO 中,并非所有搜索引擎都是平等的
许多初学者想知道特定搜索引擎的相对重要性。大多数人都知道谷歌拥有最大的市场份额,但针对必应、雅虎等进行优化有多重要?事实是,尽管存在30 多个主要网络搜索引擎,但 SEO 社区确实只关注 Google。为什么?简短的回答是,谷歌是绝大多数人搜索网络的地方。如果我们包括谷歌图片、谷歌地图和 YouTube(谷歌财产),超过 90%的网络搜索发生在谷歌上——几乎是必应和雅虎的 20 倍。
爬行:搜索引擎能找到你的网页吗?
正如您刚刚了解到的,确保您的网站被抓取并编入索引是出现在 SERP 中的先决条件。如果您已经有一个网站,最好先查看索引中的页面数量。这将深入了解 Google 是否正在抓取并找到您想要的所有页面,而没有您不想要的页面。
检查索引页面的一种方法是“site:dingjianseo.com”,这是一种高级搜索运算符。前往谷歌并在搜索栏中输入“site:dingjianseo.com”。这将返回 Google 在其索引中针对指定站点的结果:
搜索引擎的工作原理:抓取、索引和排名-搜索引擎如何工作
Google 显示的结果数量(请参阅上面的“关于 XX 结果”)并不准确,但它确实让您清楚地了解哪些页面已在您的网站上编入索引,以及它们目前如何显示在搜索结果中。
要获得更准确的结果,请监控并使用 Google Search Console 中的索引覆盖率报告。如果您目前没有,可以注册一个免费的Google Search Console 帐户。使用此工具,您可以为您的网站提交站点地图,并监控实际添加到 Google 索引中的提交页面数量等。
如果您没有出现在搜索结果中的任何位置,可能有以下几个原因:
您的网站是全新的,尚未被抓取。您的网站未链接到任何外部网站。您网站的导航使机器人难以有效地抓取它。您的站点包含一些称为爬虫指令的基本代码,这些代码会阻止搜索引擎。您的网站因垃圾邮件策略而受到影响 Google 的处罚。
告诉搜索引擎如何抓取您的网站
如果您使用 Google Search Console 或“site:domain.com”高级搜索运算符并发现索引中缺少某些重要页面和/或某些不重要的页面被错误地编入索引,则您可以进行一些优化实施以更好地指导 Googlebot 如何抓取您的网络内容。告诉搜索引擎如何抓取您的网站可以让您更好地控制索引中的内容。
搜索引擎的工作原理:抓取、索引和排名-搜索引擎如何工作
大多数人都考虑确保 Google 可以找到他们的重要页面,但很容易忘记有些页面您可能不想让 Googlebot 找到。这些可能包括诸如内容稀少的旧 URL、重复 URL(例如电子商务的排序和过滤参数)、特殊促销代码页、暂存或测试页等内容。
要引导 Googlebot 远离您网站的某些页面和部分,请使用 robots.txt。
机器人.txt
Robots.txt 文件位于网站的根目录(例如 yourdomain.com/robots.txt),并建议您的网站搜索引擎应该和不应该抓取网站的哪些部分,以及它们抓取您网站的速度, 通过特定的 robots.txt 指令。
Googlebot 如何处理 robots.txt 文件
如果 Googlebot 找不到某个网站的 robots.txt 文件,它会继续抓取该网站。
如果 Googlebot 找到某个网站的 robots.txt 文件,它通常会遵循建议并继续抓取该网站。
如果 Googlebot 在尝试访问网站的 robots.txt 文件时遇到错误并且无法确定该文件是否存在,则不会抓取该网站。优化抓取预算!
抓取预算是 Googlebot 在您离开之前会在您的网站上抓取的平均网址数,因此抓取预算优化可确保 Googlebot 不会浪费时间在不重要的网页上进行抓取,以免忽略您的重要网页。在拥有数万个 URL 的大型网站上,抓取预算最为重要,但阻止抓取工具访问您绝对不关心的内容绝不是一个坏主意。只要确保不要阻止爬虫访问您添加了其他指令的页面,例如规范或 noindex 标签。如果 Googlebot 被某个网页屏蔽,它将无法看到该网页上的说明。
并非所有网络机器人都遵循 robots.txt。怀有恶意的人(例如电子邮件地址抓取工具)会构建不遵循此协议的机器人。事实上,一些不法分子使用 robots.txt 文件来查找您的私人内容所在的位置。尽管从私人页面(例如登录和管理页面)阻止爬虫以使其不显示在索引中似乎是合乎逻辑的,但将这些 URL 的位置放在可公开访问的 robots.txt 文件中也意味着怀有恶意的人可以更容易地找到它们。最好对这些页面进行 NoIndex 并将它们放在登录表单后面,而不是将它们放在您的 robots.txt 文件中。
您可以在我们学习中心的robots.txt 部分阅读更多详细信息。
在 GSC 中定义 URL 参数
某些站点(最常见于电子商务)通过将某些参数附加到 URL 来在多个不同的 URL 上提供相同的内容。如果您曾经在网上购物过,您可能已经通过过滤器缩小了搜索范围。例如,您可以在亚马逊上搜索“鞋子”,然后按尺码、颜色和款式细化您的搜索。每次细化时,URL 都会略有变化:
URL 参数功能来准确告诉 Google 您希望他们如何处理您的页面。如果您使用此功能告诉 Googlebot“不抓取带有 ____ 参数的网址”,那么您实际上是在要求对 Googlebot 隐藏此内容,这可能会导致从搜索结果中删除这些页面。如果这些参数创建重复页面,这就是您想要的,但如果您希望将这些页面编入索引,则不理想。
爬虫能找到你所有的重要内容吗?
现在您已经了解了一些确保搜索引擎抓取工具远离您不重要的内容的策略,让我们了解可以帮助 Googlebot 找到您的重要页面的优化。
有时,搜索引擎可以通过抓取来找到您网站的某些部分,但其他页面或部分可能由于某种原因而被遮挡。确保搜索引擎能够发现您想要编入索引的所有内容,而不仅仅是您的主页,这一点很重要。
问问你自己:能机器人爬行通过您的网站,而不是仅仅把它?
搜索引擎的工作原理:抓取、索引和排名-搜索引擎如何工作
您的内容是否隐藏在登录表单后面?
如果您要求用户在访问某些内容之前登录、填写表格或回答调查,搜索引擎将看不到这些受保护的页面。爬虫绝对不会登录。
您是否依赖搜索表单?
机器人不能使用搜索表单。有些人认为,如果他们在自己的网站上放置搜索框,搜索引擎将能够找到访问者搜索的所有内容。
文本是否隐藏在非文本内容中?
不应使用非文本媒体形式(图像、视频、GIF 等)来显示您希望编入索引的文本。虽然搜索引擎在识别图像方面变得越来越好,但不能保证他们现在能够阅读和理解它。最好在网页的 <HTML> 标记中添加文本。
搜索引擎可以跟随您的网站导航吗?
正如爬虫需要通过来自其他站点的链接来发现您的站点一样,它也需要您自己站点上的链接路径来引导它从一个页面到另一个页面。如果您希望搜索引擎找到某个页面,但没有从任何其他页面链接到该页面,那么它就像不可见一样好。许多网站犯了一个严重错误,即以搜索引擎无法访问的方式构建导航,从而阻碍了它们在搜索结果中列出的能力。
常见的导航错误会使爬虫无法看到您的所有网站:移动导航显示与桌面导航不同的结果
菜单项不在 HTML 中的任何类型的导航,例如启用 JavaScript 的导航。谷歌在抓取和理解 Javascript 方面做得更好,但它仍然不是一个完美的过程。确保某些内容被 Google 找到、理解和索引的更可靠的方法是将其放入 HTML 中。个性化,或向特定类型的访问者显示独特的导航,而不是其他人,可能会伪装成搜索引擎爬虫,忘记通过导航链接到您网站上的主页面 - 请记住,链接是爬虫访问新页面的路径!这就是为什么您的网站必须具有清晰的导航和有用的 URL 文件夹结构的原因。
你有干净的信息架构吗?
信息架构是在网站上组织和标记内容以提高效率和用户可查找性的实践。最好的信息架构是直观的,这意味着用户不必费力地浏览您的网站或查找某些内容。
你在使用站点地图吗?
站点地图顾名思义:您网站上的 URL 列表,爬虫可以使用它来发现和索引您的内容。确保 Google 找到您的最高优先级页面的最简单方法之一是创建一个符合 Google 标准的文件并通过 Google Search Console 提交。虽然提交站点地图并不能取代对良好站点导航的需求,但它当然可以帮助爬虫跟踪到您所有重要页面的路径。
确保您只包含希望被搜索引擎索引的 URL,并确保为爬虫提供一致的指示。例如,如果您通过 robots.txt 阻止了该网址,或者在您的站点地图中包含重复的网址而不是首选的规范版本,则不要在站点地图中包含该网址(我们将在第5!)。
如果您的网站没有任何其他网站链接到它,您仍然可以通过在 Google Search Console 中提交 XML 站点地图来将其编入索引。不能保证他们会在索引中包含提交的 URL,但值得一试!
抓取工具在尝试访问您的网址时是否会出错?
在抓取您网站上的网址的过程中,抓取工具可能会遇到错误。您可以转到 Google Search Console 的“抓取错误”报告来检测可能发生这种情况的网址 - 该报告将向您显示服务器错误和未找到的错误。服务器日志文件也可以向您展示这一点,以及其他信息的宝库,例如抓取频率,但因为访问和剖析服务器日志文件是一种更高级的策略,虽然您可以在此处了解更多信息。
在对爬网错误报告执行任何有意义的操作之前,了解服务器错误和“未找到”错误很重要。
4xx 代码:当搜索引擎爬虫由于客户端错误而无法访问您的内容时
4xx 错误是客户端错误,意味着请求的 URL 包含错误的语法或无法实现。最常见的 4xx 错误之一是“404 – 未找到”错误。这些可能是由于 URL 错别字、删除的页面或损坏的重定向而发生的,仅举几个例子。当搜索引擎遇到 404 时,他们无法访问该 URL。当用户遇到 404 时,他们可能会感到沮丧并离开。
5xx 代码:当搜索引擎爬虫由于服务器错误而无法访问您的内容时
5xx 错误是服务器错误,意味着网页所在的服务器未能满足搜索者或搜索引擎访问该页面的请求。在 Google Search Console 的“抓取错误”报告中,有一个专门针对这些错误的选项卡。这些通常是因为对 URL 的请求超时,因此 Googlebot 放弃了请求。查看Google 的文档以了解有关修复服务器连接问题的更多信息。
幸运的是,有一种方法可以告诉搜索者和搜索引擎您的页面已经移动——301(永久)重定向。
搜索引擎的工作原理:抓取、索引和排名-搜索引擎如何工作
假设您将页面从example.com/young-dogs/移动到example.com/puppies/。搜索引擎和用户需要一座桥梁来从旧 URL 跨越到新 URL。该桥是 301 重定向。
301 状态代码本身意味着页面已永久移动到新位置,因此请避免将 URL 重定向到不相关的页面——旧 URL 内容实际上并不存在的 URL。如果某个页面正在针对某个查询进行排名,而您将其 301 指向具有不同内容的 URL,则它的排名位置可能会下降,因为与该特定查询相关的内容不再存在。301 很强大——负责任地移动 URL!
您还可以选择 302 重定向页面,但这应该保留用于临时移动以及在传递链接公平性不是那么重要的情况下。302s有点像绕道而行。您暂时通过某条路线吸收流量,但不会永远如此。一旦您确保您的网站针对可抓取性进行了优化,接下来的工作就是确保它可以被编入索引。
索引:搜索引擎如何解释和存储您的页面?
一旦您确定您的网站已被抓取,接下来的工作就是确保它可以被编入索引。没错——仅仅因为您的网站可以被搜索引擎发现和抓取,并不一定意味着它会被存储在他们的索引中。在上一节关于抓取中,我们讨论了搜索引擎如何发现您的网页。索引是存储您发现的页面的位置。爬虫找到页面后,搜索引擎会像浏览器一样呈现它。在此过程中,搜索引擎会分析该页面的内容。所有这些信息都存储在其索引中。
继续阅读以了解索引的工作原理以及如何确保您的站点进入这个非常重要的数据库。我可以看到 Googlebot 抓取工具如何查看我的网页吗?是的,您网页的缓存版本将反映 Googlebot 上次抓取该网页的快照。Google 以不同的频率抓取和缓存网页。比起 Roger the Mozbot 的创业者 Roger,您可以通过单击 SERP 中 URL 旁边的下拉箭头并选择“缓存”来查看页面的缓存版本:
搜索引擎的工作原理:抓取、索引和排名-搜索引擎如何工作
您还可以查看网站的纯文本版本,以确定您的重要内容是否被有效地抓取和缓存。页面是否曾从索引中删除?是的,页面可以从索引中删除!URL 可能被删除的一些主要原因包括:
URL 返回“未找到”错误 (4XX) 或服务器错误 (5XX) – 这可能是意外(页面被移动且未设置 301 重定向)或有意(页面被删除并 404将其从索引中删除)
URL 添加了 noindex 元标记 – 站点所有者可以添加此标记以指示搜索引擎从其索引中省略该页面。
该 URL 已因违反搜索引擎的网站管理员指南而受到人工处罚,因此已从索引中删除。
该 URL 已被阻止抓取,并在访问者访问该页面之前添加了所需的密码。
如果您认为您网站上以前在 Google 索引中的页面不再显示,您可以使用URL 检查工具来了解页面的状态,或者使用具有“请求索引”功能的Google 抓取将单个 URL 提交到索引。(额外奖励:GSC 的“获取”工具还有一个“呈现”选项,可让您查看 Google 解释您的页面的方式是否存在任何问题)。
告诉搜索引擎如何索引您的网站,机器人元指令,元指令(或“元标记”)是您可以向搜索引擎提供的有关您希望如何处理网页的说明。
您可以告诉搜索引擎爬虫诸如“不要在搜索结果中将此页面编入索引”或“不要将任何链接资产传递给任何页面链接”之类的信息。这些指令通过 HTML 页面(最常用)的 <head> 中的机器人元标记或通过 HTTP 标头中的 X-Robots-Tag 执行。
机器人元标记
可以在网页 HTML 的 <head> 中使用 robots 元标记。它可以排除所有或特定的搜索引擎。以下是最常见的元指令,以及您可以在哪些情况下应用它们。
index/noindex告诉引擎该页面是否应该被抓取并保存在搜索引擎的索引中以供检索。如果您选择使用“noindex”,那么您就是在向爬虫传达您希望从搜索结果中排除该页面的信息。默认情况下,搜索引擎假定它们可以索引所有页面,因此不需要使用“索引”值。
何时使用:如果您试图从 Google 的网站索引中删除薄页(例如:用户生成的个人资料页面),但您仍然希望访问者可以访问它们,您可以选择将页面标记为“noindex”。
follow/nofollow告诉搜索引擎是否应该关注页面上的链接或 nofollow。“跟随”会导致机器人跟随您页面上的链接并将链接权益传递给这些 URL。或者,如果您选择使用“nofollow”,搜索引擎将不会跟踪或传递任何链接资产到页面上的链接。默认情况下,假定所有页面都具有“follow”属性。
何时使用:当您试图阻止页面被索引以及阻止爬虫跟踪页面上的链接时,nofollow 通常与 noindex 一起使用。
noarchive用于限制搜索引擎保存页面的缓存副本。默认情况下,引擎将维护它们已编入索引的所有页面的可见副本,搜索者可通过搜索结果中的缓存链接访问这些副本。
何时使用:如果您经营一个电子商务网站并且您的价格经常变化,您可以考虑使用 noarchive 标签来防止搜索者看到过时的价格。
以下是元机器人 noindex、nofollow 标签的示例:
<!DOCTYPE html><html><head><meta name="robots" content="noindex, nofollow" /></head><body>...</body></html>
此示例将所有搜索引擎排除在索引页面和跟踪任何页面链接之外。如果您想排除多个爬虫,例如 googlebot 和 bing,则可以使用多个机器人排除标签。
X-Robots-Tag
x-robots 标记用于 URL 的 HTTP 标头中,如果您想大规模阻止搜索引擎,则提供比元标记更多的灵活性和功能,因为您可以使用正则表达式、阻止非 HTML 文件和应用全站 noindex 标记.
例如,您可以轻松排除整个文件夹或文件类型(如https://www.dingjianseo.com/category-1.html):
<Files ~ “\/?no\-bake\/.*”> 标题集 X-Robots-Tag “noindex, nofollow”</Files>
或特定文件类型(如 PDF):
<Files ~ “\.pdf$”> Header set X-Robots-Tag “noindex, nofollow”</Files>
有关元机器人标签的更多信息,请浏览Google 的机器人元标签规范。了解影响抓取和索引编制的不同方式将帮助您避免可能阻止您的重要页面被找到的常见陷阱。
排名:搜索引擎如何对网址进行排名?
搜索引擎如何确保当有人在搜索栏中键入查询时,他们会得到相关结果作为回报?该过程称为排名,或按与特定查询最相关到最不相关的搜索结果排序。
搜索引擎的工作原理:抓取、索引和排名-搜索引擎如何工作
为了确定相关性,搜索引擎使用算法、过程或公式,通过该算法以有意义的方式检索和排序存储的信息。这些算法多年来经历了许多变化,以提高搜索结果的质量。例如,谷歌每天都会进行算法调整——其中一些更新是微小的质量调整,而另一些则是为解决特定问题而部署的核心/广泛算法更新,例如企鹅解决链接垃圾邮件。查看我们的Google 算法更改历史记录,了解可追溯到 2000 年的已确认和未确认的 Google 更新列表。
为什么算法变化如此频繁?谷歌只是想让我们保持警觉吗?虽然谷歌并不总是透露他们为什么这样做的细节,但我们知道谷歌在进行算法调整时的目标是提高整体搜索质量。这就是为什么在回答算法更新问题时,谷歌会回答类似这样的话:“我们一直在进行高质量的更新。” 这表明,如果您的网站在算法调整后受到影响,请将其与Google 的质量指南或搜索质量评估指南进行比较,两者都非常能说明搜索引擎的需求。
搜索引擎想要什么?
搜索引擎一直想要同样的东西:以最有用的格式为搜索者的问题提供有用的答案。如果这是真的,那么为什么现在的 SEO 看起来与过去几年不同呢?
从学习一门新语言的人的角度来考虑它。
起初,他们对语言的理解非常初级——“见 Spot Run”。随着时间的推移,他们的理解开始加深,他们学习语义——语言背后的意义以及单词和短语之间的关系。最终,通过足够的练习,学生可以很好地了解语言,甚至可以理解细微差别,并且能够为模糊或不完整的问题提供答案。
当搜索引擎刚刚开始学习我们的语言时,通过使用实际上违反质量指南的技巧和策略来操纵系统要容易得多。以关键字填充为例。如果您想为“有趣的笑话”等特定关键字进行排名,您可以在页面上多次添加“有趣的笑话”一词,并使其加粗,以期提高您对该词的排名:
欢迎来到有趣的笑话!我们讲世界上最有趣的笑话。有趣的笑话是乐趣和疯狂。你的笑话等着你。坐下来阅读有趣的笑话,因为有趣的笑话可以让你快乐和有趣。一些有趣的最喜欢的笑话。
这种策略造成了糟糕的用户体验,而不是嘲笑有趣的笑话,人们被烦人的、难以阅读的文本轰炸。它可能在过去有效,但这绝不是搜索引擎想要的。
搜索引擎的工作原理:抓取、索引和排名-搜索引擎如何工作
链接在 SEO 中的作用
当我们谈论链接时,我们可能意味着两件事。反向链接或“入站链接”是来自其他网站的指向您网站的链接,而内部链接是您自己网站上指向您的其他页面(在同一网站上)的链接。
搜索引擎的工作原理:抓取、索引和排名-搜索引擎如何工作
链接历来在搜索引擎优化中发挥了重要作用。很早就,搜索引擎需要帮助确定哪些 URL 比其他 URL 更值得信赖,以帮助他们确定如何对搜索结果进行排名。计算指向任何给定站点的链接数量有助于他们做到这一点。
反向链接的工作方式与现实生活中的 WoM(口碑)推荐非常相似。让我们以假设的咖啡店 Jenny's Coffee 为例:别人的推荐=权威的好兆头,例子:许多不同的人都告诉过你珍妮的咖啡是城里最好的,来自你自己的推荐 = 有偏见,所以不是权威的好兆头
示例:珍妮声称珍妮的咖啡是镇上最好的
来自不相关或低质量来源的推荐 = 不是权威的好兆头,甚至可能让您被标记为垃圾邮件
示例:珍妮付钱让从未去过她的咖啡店的人告诉别人它有多好。
没有转介=不明确的权限
示例: Jenny's Coffee 可能不错,但是您一直找不到任何有意见的人,因此您无法确定。
这就是创建PageRank 的原因。PageRank(谷歌核心算法的一部分)是一种以谷歌创始人之一拉里佩奇命名的链接分析算法。PageRank 通过衡量指向网页的链接的质量和数量来估计网页的重要性。假设网页越相关、越重要、越值得信赖,它获得的链接就越多。
您从高权威(受信任)网站获得的反向链接越自然,您在搜索结果中排名更高的可能性就越大。
内容在 SEO 中扮演的角色
如果链接没有将搜索者定向到某些内容,则链接将毫无意义。东西是内容!内容不仅仅是文字;它是搜索者要消费的任何东西——有视频内容、图像内容,当然还有文本。如果搜索引擎是答录机,那么内容就是引擎提供这些答案的手段。
每当有人进行搜索时,都会有数以千计的可能结果,那么搜索引擎如何决定搜索者会发现哪些页面有价值呢?确定您的网页在给定查询中排名的很大一部分是您网页上的内容与查询意图的匹配程度。换句话说,此页面是否与搜索的词匹配并帮助完成搜索者试图完成的任务?
由于这种关注用户满意度和任务完成情况,因此对于您的内容应该多长时间、应该包含多少关键字或您在标题标签中放置的内容没有严格的基准。所有这些都可以影响页面在搜索中的表现,但重点应该放在将阅读内容的用户上。
今天,有数百甚至数千个排名信号,前三名保持相当一致:您网站的链接(作为第三方可信度信号)、页面内容(满足搜索者意图的优质内容)以及排名大脑。
什么是RankBrain?
RankBrain 是谷歌核心算法的机器学习组件。机器学习是一种计算机程序,它通过新的观察和训练数据随着时间的推移不断改进其预测。换句话说,它一直在学习,因为它一直在学习,搜索结果应该不断改进。
例如,如果 RankBrain 注意到排名较低的 URL 比排名较高的 URL 为用户提供了更好的结果,您可以打赌 RankBrain 会调整这些结果,将相关性更高的结果移至更高的位置,并将相关性较低的页面作为副产品降级。
搜索引擎的工作原理:抓取、索引和排名-搜索引擎如何工作
与搜索引擎的大多数事情一样,我们并不确切知道 RankBrain 的组成部分,但显然,Google 的人也不知道。
这对 SEO 意味着什么?
由于 Google 将继续利用 RankBrain 来推广最相关、最有用的内容,因此我们需要比以往任何时候都更加专注于满足搜索者的意图。为可能登陆您页面的搜索者提供尽可能好的信息和体验,您已经迈出了在 RankBrain 世界中表现良好的重要第一步。
参与度指标:相关性、因果关系或两者兼而有之?在谷歌排名中,参与度指标很可能是部分相关性和部分因果关系。当我们说参与度指标时,我们指的是表示搜索者如何通过搜索结果与您的网站互动的数据。这包括以下内容:
点击次数(来自搜索的访问)
页面停留时间(访问者离开页面之前在页面上花费的时间)
跳出率(用户仅查看一页的所有网站会话的百分比)
Pogo-sticking(点击一个有机结果,然后快速返回 SERP 以选择另一个结果)许多测试,包括Moz 自己的排名因素调查,表明参与度指标与更高的排名相关,但因果关系一直存在激烈争论。良好的参与度指标是否仅表明排名靠前的网站?或者网站排名靠前是因为它们拥有良好的参与度指标?
谷歌所说的
虽然他们从未使用过“直接排名信号”这个词,但谷歌已经明确表示他们绝对使用点击数据来修改特定查询的 SERP。根据谷歌前搜索质量主管Udi Manber 的说法:
“排名本身受点击数据的影响。如果我们发现,对于特定查询,80% 的人点击 #2,而只有 10% 的人点击 #1,过一段时间我们就会发现 #2 可能是人们想要的,所以我们会切换它。”谷歌前工程师 Edmond Lau 的另一条评论证实了这一点:“很明显,任何合理的搜索引擎都会使用自己结果上的点击数据反馈到排名中,以提高搜索结果的质量。使用点击数据的实际机制通常是专有的,但谷歌明确表示,它使用点击数据及其专利在排名调整的内容项目等系统上。”
由于谷歌需要保持和提高搜索质量,参与度指标似乎不可避免地不仅仅是相关性,但似乎谷歌没有将参与度指标称为“排名信号”,因为这些指标用于提高搜索质量,而单个 URL 的排名只是其中的一个副产品。
什么测试已经证实
各种测试已经证实,谷歌将根据搜索者的参与度调整 SERP 顺序:
Rand Fishkin 的 2014 年测试导致在让大约 200 人点击来自 SERP 的 URL 后,第 7 名的结果上升到第 1 名。有趣的是,排名提升似乎与访问链接的人的位置无关。在许多参与者所在的美国,排名位置飙升,而在谷歌加拿大、谷歌澳大利亚等的页面上排名仍然较低。
Larry Kim 在RankBrain 之前和之后的热门页面及其平均停留时间的比较似乎表明,谷歌算法的机器学习组件降低了人们不花太多时间浏览的页面的排名位置。
Darren Shaw 的测试也显示了用户行为对本地搜索和地图包结果的影响。
由于用户参与度指标显然用于调整 SERP 的质量,并将排名位置更改作为副产品,因此可以肯定地说 SEO 应该针对参与度进行优化。参与度不会改变您网页的客观质量,而是会改变您对搜索者相对于该查询的其他结果的价值。这就是为什么在没有更改您的页面或其反向链接后,如果搜索者的行为表明他们更喜欢其他页面,则排名可能会下降。
在网页排名方面,参与度指标就像一个事实检查器。链接和内容等客观因素首先对页面进行排名,然后参与度指标可以帮助谷歌在他们没有做对时进行调整。
搜索结果的演变
当搜索引擎缺乏今天的复杂性时,术语“10 个蓝色链接”被创造来描述 SERP 的扁平结构。每次执行搜索时,Google 都会返回一个包含 10 个自然结果的页面,每个结果都采用相同的格式。
搜索引擎的工作原理:抓取、索引和排名-搜索引擎如何工作
在这个搜索领域,保持第一名是 SEO 的圣杯。但后来发生了一些事情。谷歌开始在他们的搜索结果页面上添加新格式的结果,称为SERP 功能。其中一些 SERP 功能包括:
付费广告精选片段人们也问盒子本地(地图)包知识面板附加链接
谷歌一直在添加新的。他们甚至尝试了“零结果 SERP”,这是一种现象,即知识图谱中只有一个结果显示在 SERP 上,除了“查看更多结果”的选项外,它下面没有任何结果。由于两个主要原因,这些功能的添加引起了一些最初的恐慌。一方面,其中许多功能导致有机结果在 SERP 上被进一步推低。另一个副产品是更少的搜索者点击有机结果,因为在 SERP 本身上回答了更多的查询。
那么谷歌为什么要这样做呢?这一切都可以追溯到搜索体验。用户行为表明,不同的内容格式可以更好地满足某些查询。请注意不同类型的 SERP 功能如何匹配不同类型的查询意图。我们将在第 3 章中更多地讨论意图,但就目前而言,重要的是要知道答案可以以多种格式提供给搜索者,以及您如何构建内容会影响它在搜索中出现的格式。
本地化搜索
像谷歌这样的搜索引擎有自己的本地商业列表专有索引,它可以从中创建本地搜索结果。
如果您是具有物理位置的客户可以访问企业进行本地搜索引擎优化工作(例如:牙医)或为前往参观他们的客户(例如:管道工)业务,请务必要求,验证和优化一免费的Google 我的商家信息。
对于本地化搜索结果,Google 使用三个主要因素来确定排名:
关联距离突出
关联
相关性是本地企业与搜索者正在寻找的内容相匹配的程度。为确保企业尽其所能与搜索者相关,请确保企业信息填写完整、准确。
距离
Google 使用您的地理位置来更好地为您提供本地搜索结果。本地搜索结果对邻近度非常敏感,邻近度是指搜索者的位置和/或查询中指定的位置(如果搜索者包括一个)。
自然搜索结果对搜索者的位置很敏感,但很少像本地包结果那样明显。
突出
以知名度为一个因素,谷歌希望奖励在现实世界中知名的企业。除了企业的线下知名度外,Google 还会考虑一些在线因素来确定本地排名,例如:
评论
本地企业收到的 Google 评论数量以及这些评论的情绪对其在本地结果中的排名有显着影响。
引文
“企业引用”或“企业列表”是基于网络的对本地化平台(Yelp、Acxiom、YP、Infogroup、Localeze 等)上本地企业“NAP”(名称、地址、电话号码)的引用。 .
本地排名受本地商业引用的数量和一致性影响。谷歌从各种来源中提取数据,不断地构成其本地业务索引。当 Google 发现对企业名称、位置和电话号码的多个一致引用时,它会增强 Google 对该数据有效性的“信任”。这样一来,Google 就能够以更高的信心展示业务。Google 还使用网络上其他来源的信息,例如链接和文章。
有机排名
SEO 最佳实践也适用于本地 SEO,因为 Google 在确定本地排名时还会考虑网站在自然搜索结果中的位置。在下一章中,您将学习有助于 Google 和用户更好地理解您的内容的页面最佳实践。尽管谷歌没有将其列为本地排名因素,但参与度的作用只会随着时间的推移而增加。谷歌通过整合真实世界的数据,如热门访问时间和平均访问时长,继续丰富本地搜索结果...
搜索引擎的工作原理:抓取、索引和排名-搜索引擎如何工作
...甚至为搜索者提供提出业务问题的能力!
搜索引擎的工作原理:抓取、索引和排名-搜索引擎如何工作
毫无疑问,现在本地结果比以往任何时候都更受现实世界数据的影响。这种交互性是搜索者与本地企业互动和响应的方式,而不是像链接和引文这样的纯静态(和可玩游戏)信息。由于 Google 希望向搜索者提供最好、最相关的本地业务,因此他们使用实时参与度指标来确定质量和相关性是非常有意义的。
您不必了解 Google 算法的来龙去脉(这仍然是个谜!),但现在您应该对搜索引擎如何查找、解释、存储和排名内容有很好的基础知识。有了这些知识,让我们学习如何在在第 3 章(关键字研究)中选择您的内容将针对的关键字!
探索章节:
第1章:搜索引擎优化101
第2章:搜索引擎的工作原理——抓取、索引和排名
第3章:关键词研究
第4章:现场优化
第5章:技术SEO
第6章:链接建立和建立权限
第7章:衡量、确定优先级和执行SEO