Semalt:如何阻止Darodar Robots.txt

Robots.txt文件是一个典型的文本文件,其中包含有关Web搜寻器或漫游器应如何搜寻网站的说明。它们的应用在众多优化网站中常见的搜索引擎机器人中显而易见。作为漫游器排除协议(REP)的一部分,robots.txt文件构成了索引网站内容以及使服务器能够相应地验证用户请求的重要方面。

塞马尔特高级客户成功经理Julia Vashneva解释说,链接是搜索引擎优化(SEO)的一个方面,它涉及从利基市场中的其他域获取流量。对于“跟随”链接以传输链接汁,必须在您的网站托管空间中包含robots.txt文件,以充当服务器如何与您的网站进行交互的指导者。通过允许或禁止某些特定用户代理的行为,可以从该档案中获得说明。

robots.txt文件的基本格式

robots.txt文件包含两行基本内容:

用户代理:[用户代理名称]

禁止:[不抓取网址字符串]

完整的robots.txt文件应包含这两行。但是,其中一些可以包含多行用户代理和指令。这些命令可能包含诸如允许,禁止或爬网延迟之类的方面。通常会有一个换行符来分隔每组指令。每个允许或禁止指令都由该换行符分隔,尤其是对于多行的robots.txt。

例子

例如,robots.txt文件可能包含以下代码:

用户代理:darodar

禁止:/ plugin

禁止:/ API

禁止:/ _ comments

在这种情况下,这是一个阻止robots.txt的文件,限制Darodar Web搜寻器访问您的网站。在以上语法中,代码阻止了网站的各个方面,例如插件,API和注释部分。根据这些知识,有效执行机器人的文本文件可能会获得许多好处。 Robots.txt文件可以执行许多功能。例如,他们可以准备:

1.允许所有Web爬网程序内容进入网站页面。例如;

用户代理: *

不允许:

在这种情况下,所有被请求访问网站的Web搜寻器都可以访问所有用户内容。

2.阻止特定文件夹中的特定Web内容。例如;

用户代理:Googlebot

不允许:/ example-subfolder /

这种包含用户代理名称Googlebot的语法属于Google。它限制了漫游器访问字符串www.ourexample.com/example-subfolder/中的任何网页。

3.阻止来自特定网页的特定Web搜寻器。例如;

用户代理:Bingbot

禁止:/example-subfolder/blocked-page.html

用户代理Bing bot属于Bing网络搜寻器。这种类型的robots.txt文件限制Bing Web爬网程序访问带有字符串www.ourexample.com/example-subfolder/blocked-page的特定页面。

重要信息

  • 并非每个用户都使用您的robts.txt文件。一些用户可能决定忽略它。大多数此类网络爬虫包括木马和恶意软件。
  • 为了使Robots.txt文件可见,它应该在顶级网站目录中可用。
  • 字符“ robots.txt”区分大小写。因此,您不应以任何方式更改它们,包括某些方面的大写。
  • “ /robots.txt”是公共域。将信息添加到任何URL的内容中,任何人都可以找到该信息。您不应对重要细节或要保留其隐私的页面编制索引。

send email