层架厂家
免费服务热线

Free service

hotline

010-00000000
层架厂家
热门搜索:
行业资讯
当前位置:首页 > 行业资讯

SEO葵花宝典控制Google爬虫抓取

发布时间:2020-03-09 16:04:11 阅读: 来源:层架厂家

对于有些站长来说,Google的抓取过于频繁(消耗了大量带宽)。而另一些站长又觉得访问得太少。有些站长抱怨Googlebot没有访问他们站点的全部内容,而另一些则气恼Googlebot抓取了那些他们根本不希望被访问的内容,还放到了Google的索引当中。

从某种程度来说,吸引爬虫是做不到的。如果站点内容质量高、更新速度快而且外部引用多的话,Google自然会访问它。光靠叫唤可不能让站点扬名!然而,你却可以阻止爬虫。你可以控制G00glebot爬取哪些页面、降低抓取频率(如果你愿意的话)或者控制每次抓取的深度。

阻止Google抓取某些特定页面的最佳方法是使用t文件。它就是一个简单的ASCIl文本文件,放在站点的根目录下面。例如,如果你的域名的话,那么该文件应该被放置在 。你可以通过t来阻止Google索引图片、运行PERL脚本(例如,需要客户填写的表恪)或者访问带有版权的页面。t文件的每块的第一行是蜘蛛的名称,接下来是不允许防问的目录或文件的列表,块与块之间用空行分隔。文件名的格式还支持通配符,例如用“#”和“?”来代表任意数字或字母。

下面的t文件将会阻止所有的爬虫访问图片目录和PERL脚本目录,并且f又阻止Googlebot访问带有版权的内容和版权声明页面(假使图片放置在“image’’目录下,并且带有版权的内容放置在“copyright”目录下):

User-agent:*

Disallow:/images/

Disallow:/cgi—bin/

User—agent:Googlebot

Disallow:/copyright/

如果要控制Googlebot的抓取速率的话,就需要注册Google站长工具了(我会在7.2节的跟踪与调整中详细叙述相关内容)。你可以选择三个等级:快速、中速和慢速(尽管某些时候快速并不可用)。中速是默认的(也是被推荐使用的)抓取速率。慢速将会降低Googlebot在本站服务器上消耗的流量,但是同时Google的抓取也会变得不那么频繁了。

需要注意的是,并不是所有的抓取调整方法都是100%可靠的(尤其是那些工作原理与Googlebot不同的网络蜘蛛)。比如说很多蜘蛛程序不支持写在网页meta标签中的元数据爬虫指令。但是为了兼顾完整性,我会在此说明一下。阻止蜘蛛程序索引该页面的meta标签这样编写:

<metaname=”robots”content=”NOINDEX”>

而不让蜘蛛程序抓取该页面上的链接,则meta标签可以这样写:

<metaname=”robots”content=”NOFOllOW”>

Google对NOINDEX和NOFOIlLOW都是支持的,但是其他搜索引擎通常都不支持。所以SEO葵花宝典建议还是使用t更好一些。

朝天鼻整形医院价格表

昆明整容医院排名

专业鼻整形医院价格表

相关阅读