SEO中robots和html元标记的用法
2022-12-28 加入收藏
在做SEO时,很多时候想对页面进行精确控制,robots.txt并不能完全满足我们的需求,这时候我们可以利用html的元标记来了。
指令整合:
index/noindex 是搜允许抓取本页面
follow/nofollow 是否允许从本页抓取索引别的链接
archive/noarchive 是否允许建立快照
禁止搜索引擎建立快照
快照不被百度缓存(禁止百度快照):
<meta name="Baiduspider"content="noarchive">
所有搜索引擎,抓取这个页面、爬行链接、禁止快照:
<meta name="robots"content="index,follow,noarchive">
所有搜索引擎,禁止快照
<meta name="robots"content="noarchive">
以上的一段代码限制了所有的搜索引擎建立你的网页快照,需要注意的是,这样的标记仅仅是禁止搜索引擎为你的网站建立快照,如果你要禁止搜索引擎索引你的这个页面的话,请参照后面的办法。
禁止搜索引擎抓取本页面
为了让搜索引擎禁止抓取本页面,我们一般的做法是在页面的元标记中加入如下的代码:
<meta name="robots" content="noindex,follow">
在这里,meta name=”robots”是泛指所有的搜索引擎的,在这里我们也可以特指某个搜索引擎。
例如meta name=”Googlebot”、meta name=”Baiduspide”等。
content部分有四个命令:index、noindex、follow、nofollow,命令间以英文的 “,”分隔。
index命令:告诉搜索引擎抓取这个页面
follow命令:告诉搜索引擎可以从这个页面上找到链接,然后继续访问抓取下去。
noindex命令:告诉搜索引擎不允许抓取这个页面
nofollow命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。
根据以上的命令,我们就有了一下的四种组合
<meta name="robots" content="index,follow">:可以抓取本页,而且可以顺着本页继续索引别的链接 <meta name="robots" content="index,follow">:不许抓取本页,但是可以顺着本页抓取索引别的链接 <meta name="robots" content="noindex,nofollow">:可以抓取本页,但是不许顺着本页抓取索引别的链接 <meta name="robots" content="noindex,nofollow">:不许抓取本页,也不许顺着本页抓取索引别的链接
这里需要注意的是,不可把两个对立的反义词写到一起,例如
<meta name="robots" content="index,noindex">
或者直接同时写上两句
<meta name="robots" content="index,follow"><meta name="robots" content="noindex,follow">
这里有一个简便的写法,如果是
<meta name="robots" content="index,follow">
的形式的话,可以写成:
<meta name="robots" content="ALL">
如果是
<meta name="robots" content="noindex,nofollow">
的形式的话,可以写成:
<meta name="robots" content="none">
当然,我们也可以把禁止建立快照和对于搜索引擎的命令写到一个命令元标记中。从上面的文章中我们得知,禁止建立网页快照的命令是noarchive,那么我们就可以写成如下的形式:
<meta name="robots" content="index,follow,noarchive">
如果是对于单独的某个搜索引擎不允许建立快照,例如百度,我们就可以写成:
<meta name="robots" content="index,follow,noarchive">
如果在元标记中不写关于蜘蛛的命令,那么默认的命令即为如下
<meta name="robots" content="index,follow, archive">
如果我们对于这一部分把握不准的话,可以直接写上上面的这一行命令,或者是直接留空。
因此,在SEO中,了解robots和html的元标记的用法,对于控制搜索引擎蜘蛛的抓取非常重要的。