如何为 WordPress 设置正确的 robots.txt

在大多数情况下,搜索机器人会使用 robots.txt 文件在网站上开始工作。就像路标一样,它指示机器人可以和不应该进入您网站的哪些地方。因此,如果此文件配置不正确,您网站的搜索引擎排名可能不会按计划进行。为了防止这种情况发生,在本文中,我们将了解 robots.txt 如何在 WordPress 中工作以及如何在 WordPress 网站上配置 robots.txtKinsta 博客
如ots.txt 文件您还需要了解什么什么是 WordPress robots.txt 文件?在讨论 WordPress robots.txt 文件之前,我们先定义一下本例中的“机器人”。机器人是访问互联网网站的任何类型的机器人。最常见的例子是搜索机器人。这些机器人在互联网上爬行,帮助谷歌等搜索引擎对络上数十亿页面进行索引和排名。
总的来说,机器人对互联网有利。或者至少应该如此。但这并不一定意味着您或其他网站所有者希望机器人不受控制地运行。

制网络机器人如何与网站交互的愿望导致了

Robots.txt 允许您控制听话的机器人如何与您的网站交互。有然而,“听话”这个词在这里起着重要的作用。 Robots.txt 无法强制机器人遵循其指令。恶意机器人可以并且将会忽略 robots.txt 文件此外,即使是信誉良好的组织也会忽略一些可以在 robots.txt 中指定的命令。
例如, Google 将忽略您添加到 robots.txt 中的有关其抓取工具访问您网站的频率的任何规则。您可以在 Google Search Console 中您网站的抓取速度设置页面上调整 Google 抓取您网站的速度。

因此,如果您遇到很多机器人问题,除了 robots.txt 之外,您还应该使用 Cloudflare 和 Sucuri 等解决方案。他们可以通过检查和过滤进入您网站的流量来保护您的网站免受不道德的机器人和各种攻击。 Cloudflare 设置指南但如果您没有机器人的麻烦,只想设置基本的网站访问,请继续阅读,本文将回答您的问题。何时使用 robots.txt 文件

对于大多数网站所有者来说,结构良好的

搜索引擎可以更快地抓取您的网站,而不会在您不希望它们找到的页面上浪费时间。这有助于机器人专注于对您重要的事情。
您可以通过阻止浪费服务器电量的不需要的机器人来节省服务器资源。
另请记住,robots.txt 并不是控制搜索引擎索引哪些页面的可靠方法。如果您的主要目标是防止某些页面出现在搜索结果中,则正确的方法是使用 noindex 规则或密码保护页面。这是因为robots.txt文件 不会阻止搜索引擎对您的内容建立索引,而只会阻止它们抓取您的内容。 Google 本身警告说,如果外部网站谷歌网站管理员分析师John Mueller也证实,如果页面上有链接,即使它被robots.txt文件阻止,它仍然可以被索引。以下是他在网站长中心论坛上的发言:

这里要记住的是 如果这些页面被

先生您好,如果您想成为我们的领导者,您可 在我 斯洛伐克电子邮件列表 们的页面联系我们,我们的产品比Gulka公司好得多,我们公司正在销售低红色的产品,我们正在全国各地销售我们的产品,我们是跟你说话,你就是产品。你可以做一次。

那么从理论上讲,有人可能会意外链接到这些页面之一。如果发生这种情况,我们可以索引没有任何内容的 URL,因为它被 robots.txt 文件阻止。这样我们就不会知道您不希望这些页面被索引。
如果它们未被 robots.txt 文件阻止,您可以在这些页面上设置 noindex 规则。如果有人发布了一个链接,我们点击该链接并认为这有一些有用的东西,我们就会知道这些页面不需要索引,我们可以完全跳过它们。因此,如果页面上有您不希望被索引的内容,请不要通过 robots.txt 关闭它们,而是使用 noindex。”
我需要 robots.txt 文件吗?
您的网站上不需要有 robots.txt 文件。如果您不介意所有机器人都可以自由抓取您的所有页面,则不必添加它,因为您没有任何关人的实际说明。使用 robots.txt 文件的情况下抓取您的页面客户对我们的评价:
很多优点。稳定的托管、有力的支持、快速而有力的响应。还有对客户忠诚的态度!
测试托管 30 天robots.txt 文件应返回什么 HTTP 状态代码robots.txt 文件必须返回 HTTP 状态代码 200 OK,以便搜索机器人可以访它。如果您在让搜索引擎对您的网页建立索引时遇到问题,您应该仔细检查为 robots.txt 文件返回的状态代码。 200 以外的任何状态代都可能阻止机器人访问您的网站。

些网站所有者报告称,由于 robots.txt 文件返回的状态不是

电子邮件列表

,他们的页面已从索引中删除。一位网站所有者在2022 年 3 月的Google SEO 办公时间中询问了索引问题,John Mueller 解释说,机器人.txt 文件应返回状态 200(如果存在)或状态 4XX(如果文件不存在)。在这种情况下,返回了 500 的内部服务器错误,根据 Mueller 的说法,这可能会导致 Googlebot 将该网站排除在索引之外在这条推文中也可以看到同样的情况,网站所有者报告说,由于 robots.txt 文件返回 500 错误,他的整个网站已被取消索引。
是否可以使用 robots 元标记代替 robots.txt 文件不。 robots 元标记允许您控制对哪些页面进行索引,robots.txt 文件允许您控制些页面进行爬网。机器人必须首先抓取页面以查看其中的规则。因此,您不应同时使用 disallow 和 noindex 规则,因为 noindex 不会被考虑在内。如果您的目标是从搜索引擎中排除某个页面,则 noindex 指令通常是最佳选择相关文章:
如何使用元标记查看帖子步骤 5. 什么是元标记以及如阅读文在网站上查找 robots.txt
通常,开箱即用的 WordPress 网站没有可以编辑的物理 robots.txt 文件,但引擎本身会创建一个包含一组基本规则的虚拟版本。,许多 SEO 插件或网站管理插件可以自动为 WordPress 创建标准 robots.txt 作为其功能的一部分。因此,您应该首先检查您是否有该文件。
robots.txt 文件位于何处:robots.txt 文件位于您网站的根目录,要查看它(如果您有),请在您的域名后面添加 /robots.txt。例如https://hostiq.ua/robots.txt。如果您在链接 https://your-domain/robots.txt 中看到条目,但托管站点的根目录中没有名为“robots.txt”的文件,则您只有一个虚robots.txt。要在 WordPress 中创建和编辑 Robots.txt 文件

是 WordPress 的 robots.txt 示例,它是由引擎本身生成的

文件。正如我们在上一章中所说,WordPress 默 使用 ShopifyChatfuel 自动化为 WhatsApp 提供运输 认的 robots.txt 是虚拟的,您无法编辑它。如果要编辑 robots.txt 文件,则必须在服务器上一个可以根据需要使用的物理文件。

以下是三种简单的方法:单,然后单击文件编辑器。网站速度会影响访问者对页面的感知,因此自 2018 年以来,它已成为 GoogleLSCache 插件进一步加快速度。查看资费您可以免费测试我们的托管 30 天。确保您的与我们合作更快 – 然后您将做出购买决定
如何使用多合一 SEO 编辑 WordPress 网站的 Robots.txt
如果您使用另一种流行的 SEO 插件 All in One SEO Pack,它会自动创建一个具有标准 WordPress 设置的 robots.txt 文件。您还可以添加自己的规则并直接从插件界面编辑 robots.txt 文件。
您所需要做的就是转到“多合一 SEO”→“工具”并找到“启用自定义 robots.txt”开关。WordPress的robots.txtobots.txt 的更多信息
如何通过 FTP 创建和编辑 robots.txt 文件
如果您没有使用任何允许您在管理面板中创建和编辑 robots.txt 的 SEO 插件,您可以创建该文件并通过 FTP 或主机控制面板进行管理。

使用任何文本编辑器创建一个名为 robots.txt 的空文件,然后通过 SFTP 连接到您的站点,并将该文件上传到您站点的根文件夹。您可以通过 SFTP 编辑 robots.txt 文件或上传该文件的新版本,对 robots.txt 文件进行进一步更改。17 名 FTP 客户端

另一种选择是通过主机控制面板创建和编辑文件

如何为 WordPress 创建 robots.txt 文件转到 1000个手机号码 您的域文件夹,然后单击顶部的+ 文件。将文件命名为“robots.txt”并单击“创建新文件”如何为WordPress 制作 robots.txt 文件要在文件中添加条目,请右键单击该文件,然后选择“编辑”并再次“编辑”。添加wordpress robots.txt要添加到 robots.txt 文件中的内容
您的服务器现在有一个 robots.txt 文件,您可以根据需要进行编辑。让我们看看在实践中要在其中写么正如我们在第一部分中所写,robots.txt 允许您控制机器人与您的网站交互的方式。您可以使用两个基本令来执行此操作:用户代理- 允许您定位特定的机器人。用户代理是机器人用来识别自己身份的工具。例如,在他们的帮助下,您可以创建一条适用于 Bing 但不适用于 Google 的规则。
禁止- 允许您阻止机器人访问您网站的某些部分。
还有一个允许命令可以在特殊情况下使用。默认情况下,站点上的所有内容都设置为“允许”,因此在 99% 的情况下不需要此命令。但如果您想拒绝访问某个文件夹及其子文件夹,但允许访问一个特定的子文件夹或文件,则此功能很有用。

您可以按以下顺序将条目添加到 robots.txt:
规则应应用于哪个用户代理,应使用“禁止”和“允许”命令应用哪些规则。还有一些其他命令,例如Crawl-delay和Sitemap,但它要么被大多数主要搜索引擎忽略,要么解释得非常不同(在抓取延迟的情况下);
或者由于 Google Search Console(用于站点地图、Sitemap)等工具而变得不必要。
让我们看看具体的用例以及它们如何组合在一起。robots.txt 文件中使用 Disallow 来阻止对整个网站的访问]

您想要阻止所有搜索机器人访问您的网站

在实时网站上不太可能发生,但对于正在开发的网站可能很有用。为此,您需要以下禁止代码添加到 robots.txt 文件中
User-agent 旁边的星号*表示“所有用户代理”。星号是通配符,这意味着该规则适用于每个用户代理。
Disallow 旁边的斜杠/表示您要拒绝访问包含“yourdomain.com/”的所有页面,即您网站上的每个页面。
如何使用 robots.txt 文件阻止机器人访问您的网站
让我们改变现状吧。在此示例中,我们将假装您不喜欢 Bing 抓取您的页面。您是 Google 团队的粉丝,甚至不希望 Bing 查看您的

名称的良好列表 对于此示例

假设您只想阻止对特定文件或文件夹(以及该文件夹的所有子文件夹)的访问。要将其应用于 WordPress,止请指定区分大小写的规则。例如,规则:用户代理:*禁止适用于,但不适用于robots.txt 文* 或者:: 此片段阻止文件夹的访问,文使用 robots.txt 防止机器人抓取 WordPress 中的搜索结果
您可以进行的 WordPress 特定设置之一是防止搜索引擎机器人抓取您的搜索结果页面。默认情况下,WordPress 使用“?s=”查询参数。

 

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部