<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>零号相册 &#187; robot</title>
	<atom:link href="http://photozero.net/tag/robot/feed/" rel="self" type="application/rss+xml" />
	<link>http://photozero.net</link>
	<description>没事瞎写</description>
	<lastBuildDate>Thu, 04 Feb 2010 12:55:15 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.1</generator>
		<item>
		<title>网站必备的N个文件</title>
		<link>http://photozero.net/required-page-for-website/</link>
		<comments>http://photozero.net/required-page-for-website/#comments</comments>
		<pubDate>Fri, 31 Oct 2008 04:59:38 +0000</pubDate>
		<dc:creator>neekey</dc:creator>
				<category><![CDATA[Free Talk]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[robot]]></category>

		<guid isPermaLink="false">http://photozero.net/?p=380</guid>
		<description><![CDATA[搭建一个网站仅仅是购买域名、空间、把文件传上去就够了吗？其实不够，还有一些文件也是一个网站必不可少的，请容我一一叙述。 robots.txt robots.txt是一个网站关于搜索引擎权限的说明，这... ]]></description>
			<content:encoded><![CDATA[<p>搭建一个网站仅仅是购买域名、空间、把文件传上去就够了吗？其实不够，还有一些文件也是一个网站必不可少的，请容我一一叙述。</p>
<h3><strong>robots.txt</strong></h3>
<p>robots.txt是一个网站关于搜索引擎权限的说明，这个文件规定了哪些搜索引擎能够访问您的网站，而哪些不能，哪些能被收录（如html文件），哪些不希望被收录（如gif,js,png等图片）。我曾经写过一篇关于robots.txt的<a href="http://photozero.net/how-to-ban-robot/">文章</a>，简单介绍了robots.txt的几种规则。robots.txt虽然不是必须的，但为了更好的符合搜索引擎的收录规则，不妨放置一个robots.txt文件。</p>
<h3><strong>sitemap.xml</strong></h3>
<p>sitemap.xml文件是网站的地图，该地图能够协助搜索引擎对网站的页面进行收录，避免搜索引擎收录一些无关页面，减少服务器流量开支。目前国外的Google,MSN等搜索引擎普遍支持sitemap.xml规则。在Wordpress下推荐使用<a title="访问插件主页" href="http://www.arnebrachhold.de/redir/sitemap-home/">Google XML Sitemaps</a>来生成sitemap.xml文件。如果您创建自己的网站，不妨使用进行<a href="http://www.xml-sitemaps.com/">Sitemap Generator</a>创建您的sitemap。</p>
<h3>rss.xml</h3>
<p>rss.xml文件用来向访客提供最新的订阅信息。当然，这个文件不一定得取名 rss.xml，在Wordpress下一般以 <a href="http://photozero.net/feed">http://photozero.net/feed</a> 方式访问，但必须在首页HEAD中加入LINK标签以便让阅读器、浏览器识别。</p>
<h3>favicon.ico</h3>
<p>favicon.ico文件是一个网站的小型LOGO，在Firefox等浏览器下，一般显示在标签栏标题的左侧。一个favicon.ico文件应该是一个网站必不可少的点缀。从服务器带宽的角度来说，一旦访问一个网站，支持favicon.ico文件的浏览器（如Firefox），都会自动向服务器请求下载favicon.ico文件，如果favicon.ico文件不存在，返回一个404页面，可能会浪费很多的流量。favicon.ico可以有很多种生成方法，有在线的生成器，只要在本地做一个16*16或32*32的JPG/GIF文件上传后可生成ICO文件，同样也可以使用IconCoolEditor等ICON编辑器进行生成。</p>
<p>以上文件都应该放在网站根目录，能够以 <a href="http://photozero.net/robots.txt">http://photozero.net/robots.txt</a> 方式访问。</p>
]]></content:encoded>
			<wfw:commentRss>http://photozero.net/required-page-for-website/feed/</wfw:commentRss>
		<slash:comments>22</slash:comments>
		</item>
		<item>
		<title>如何禁止搜索引擎收录？</title>
		<link>http://photozero.net/how-to-ban-robot/</link>
		<comments>http://photozero.net/how-to-ban-robot/#comments</comments>
		<pubDate>Fri, 19 Sep 2008 04:42:29 +0000</pubDate>
		<dc:creator>neekey</dc:creator>
				<category><![CDATA[Free Talk]]></category>
		<category><![CDATA[baidu]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[PHP]]></category>
		<category><![CDATA[robot]]></category>
		<category><![CDATA[wordpress]]></category>

		<guid isPermaLink="false">http://photozero.net/?p=350</guid>
		<description><![CDATA[很多站长都认为有搜索引擎收录是一件好事，首先是自己的网站得到了承认，通过搜索引擎也能带来一定的流量。其实并不完全准确，某些比较不知名的搜索引擎，即便收录了许多网页，并且... ]]></description>
			<content:encoded><![CDATA[<p>很多站长都认为有搜索引擎收录是一件好事，首先是自己的网站得到了承认，通过搜索引擎也能带来一定的流量。其实并不完全准确，某些比较不知名的搜索引擎，即便收录了许多网页，并且天天更新，却不能带来实在的利益，反而浪费了服务器带宽（国内的主机一般宣称不限流量，但国外的Dreamhost这样的主机都是限制流量的），这样的搜索引擎，收不收录也是无所谓的。本文说说如何禁止某些搜索引擎的抓取及收录。</p>
<p>首先谈谈哪些搜索引擎是一定有用的，Google，百度，我认为这两个搜索引擎是必须的。国内网站的90%以上的搜索引擎流量来自于Google和百度，其中百度七成，Google三成左右。Google是搜索引擎的权威（强龙），而百度就是中文搜索的领袖（地头蛇）。除此之外，我认为其他的搜索引擎都可以屏蔽。雅虎中国、Live中文、以及国内的搜狗、搜搜、有道之辈均是无足轻重的搜索引擎。</p>
<p>禁止搜索引擎收录的方法大概有3种。</p>
<p><strong>方法一：服务器禁止访问。</strong></p>
<p>这需要服务器配备有cPanel这样的后台管理软件，设定某个搜索引擎所在的IP段禁止访问。如要封锁Google的蜘蛛，先通过域名对应IP查询得www.google.com的IP地址，如74.125.19.99，再通过IP WHOIS查询查到IP段 74.125.0.0 &#8211; 74.125.255.255 的所有人均是Google公司，把这个IP段填入IP黑名单中。（具体的方法根据不同的管理软件有所不同，可能是74.125.0.0-74.125.255.255或74.125.*.*）</p>
<p>这个方法比较好的地方在于直接禁止搜索引擎的访问，除了HTTP请求头，几乎不耗费流量，一般情况下这点流量也不会计算在你的消耗的流量当中。这是禁止搜索引擎收录的最好方法。但麻烦在于你不可能得到Google的所有IP段，这个就得靠收集了。</p>
<p><strong>方法二：robots.txt禁止</strong></p>
<p>robots.txt（小写）是放置在网站根目录下的搜索引擎权限控制文件。搜索引擎一般遵守robots.txt协议。通过编辑robots.txt协议，可以禁止某些搜索引擎的访问、禁止某个文件、文件夹被搜索引擎收录，适合用于保护私有文件。搜索引擎通过读取robots.txt，判断自己是否在被禁止搜索引擎之列，如果被禁止，一般不会对该网站进行抓取，除了<a href="http://photozero.net/baidu-with-robots-txt/">百度这变态</a>。</p>
<p>robots.txt的简单用法：</p>
<p>1.禁止百度收录（想和淘宝一样抵制百度就这么做 <img src='http://photozero.net/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  ）</p>
<div class="hl-surround"><ol class="hl-main ln-show" title="Double click to hide line number." ondblclick = "linenumber(this)"><li class="hl-firstline">User-agent: *</li>
<li>Disallow:</li>
<li>&nbsp;</li>
<li>User-agent: baiduspider</li>
<li>Disallow: /</li></ol></div>
<p>首先是User-agent，每个搜索引擎都有自己的User-agent，比如Google的为 Googlebot，百度的为 baiduspider ，可能区分大小写，其他相对应的应该到搜索引擎的帮助页面去查询一下。 * 是一个通配符，通配所有的搜索引擎，Disallow: 项目表示禁止访问的位置，第一个Disallow:后面为空，表示没有禁止访问的项目，也就是允许所有的搜索引擎收录。但如果要添加例外，还可以添加一行User-agent: baiduspider，表示下面的规则仅适合百度蜘蛛，百度蜘蛛的规则是Disallow: / ，也就意味着禁止收录该域名下所有的网页。</p>
<p>在特殊情况下，我们可能希望部分不被所有的搜索引擎收录，比如Wordpress的wp-admin/目录是后台管理的目录，wp-content/是存放主题、插件的目录，这个不需要被搜索引擎收录，可以编辑robots.txt为</p>
<div class="hl-surround"><ol class="hl-main ln-show" title="Double click to hide line number." ondblclick = "linenumber(this)"><li class="hl-firstline">User-agent: *</li>
<li>Disallow: /wp-admin/</li>
<li>Disallow: /wp-content/</li></ol></div>
<p>2.仅允许百度以及Google收录（推荐）</p>
<div class="hl-surround"><ol class="hl-main ln-show" title="Double click to hide line number." ondblclick = "linenumber(this)"><li class="hl-firstline">User-agent: Googlebot</li>
<li>Disallow:</li>
<li>&nbsp;</li>
<li>User-agent: baiduspider</li>
<li>Disallow:</li>
<li>&nbsp;</li>
<li>User-agent: *</li>
<li>Disallow:/</li></ol></div>
<p>使用robots.txt需要注意的是，并非所有的搜索引擎都遵守该协议，而且就算遵守该协议不代表蜘蛛不对网站进行抓取，可能是抓取后不发布出来而已，流量是要样要耗费的。</p>
<p><strong>方法三：<a href="http://photozero.net/recognize_search_engine_robot_spider/">脚本判断，禁止</a></strong></p>
<p>这里写一下PHP的方法，其他ASP等方法也是类似的。<br />
检测来访的访客的User-agent(UA)，如果是搜索引擎的蜘蛛则立即禁止访问，提示出错信息。</p>
<div class="hl-surround"><ol class="hl-main ln-show" title="Double click to hide line number." ondblclick = "linenumber(this)"><li class="hl-firstline"><span style="color: Green;">if</span><span style="color: Olive;">(</span><span style="color: Blue;">preg_match</span><span style="color: Olive;">(</span><span style="color: #8b0000;">&quot;</span><span style="color: Red;">/(google|baidu)/i</span><span style="color: #8b0000;">&quot;</span><span style="color: Gray;">, </span><span style="color: #00008b;">$_SERVER</span><span style="color: Olive;">[</span><span style="color: #8b0000;">'</span><span style="color: Red;">HTTP_USER_AGENT</span><span style="color: #8b0000;">'</span><span style="color: Olive;">])){</span></li>
<li><span style="color: Gray;">&nbsp; &nbsp; </span><span style="color: Blue;">header</span><span style="color: Olive;">(</span><span style="color: #8b0000;">'</span><span style="color: Red;">HTTP/1.1 403 Forbidden</span><span style="color: #8b0000;">'</span><span style="color: Olive;">)</span><span style="color: Gray;">;</span></li>
<li><span style="color: Gray;">&nbsp; &nbsp; </span><span style="color: Green;">exit</span><span style="color: Gray;">;</span></li>
<li><span style="color: Olive;">}</span></li>
</ol></div>
<p>该代码当来访的访客的UA中包含google或baidu字样即返回403禁止信息并退出脚本。</p>
<div class="hl-surround"><ol class="hl-main ln-show" title="Double click to hide line number." ondblclick = "linenumber(this)"><li class="hl-firstline"><span style="color: #ffa500;">//禁止UA中含有bot/crawl/spider字样的用户</span></li>
<li><span style="color: #ffa500;">//但允许百度和Google</span></li>
<li><span style="color: Green;">if</span><span style="color: Olive;">(</span><span style="color: Blue;">preg_match</span><span style="color: Olive;">(</span><span style="color: #8b0000;">&quot;</span><span style="color: Red;">/(bot|crawl|spider)/i</span><span style="color: #8b0000;">&quot;</span><span style="color: Gray;">, </span><span style="color: #00008b;">$_SERVER</span><span style="color: Olive;">[</span><span style="color: #8b0000;">'</span><span style="color: Red;">HTTP_USER_AGENT</span><span style="color: #8b0000;">'</span><span style="color: Olive;">])</span><span style="color: Gray;"> &amp;&amp; !</span><span style="color: Blue;">preg_match</span><span style="color: Olive;">(</span><span style="color: #8b0000;">&quot;</span><span style="color: Red;">/(google|baidu)/i</span><span style="color: #8b0000;">&quot;</span><span style="color: Gray;">, </span><span style="color: #00008b;">$_SERVER</span><span style="color: Olive;">[</span><span style="color: #8b0000;">'</span><span style="color: Red;">HTTP_USER_AGENT</span><span style="color: #8b0000;">'</span><span style="color: Olive;">])){</span></li>
<li><span style="color: Gray;">&nbsp; &nbsp; </span><span style="color: Blue;">header</span><span style="color: Olive;">(</span><span style="color: #8b0000;">'</span><span style="color: Red;">HTTP/1.1 403 Forbidden</span><span style="color: #8b0000;">'</span><span style="color: Olive;">)</span><span style="color: Gray;">;</span></li>
<li><span style="color: Gray;">&nbsp; &nbsp; </span><span style="color: Green;">exit</span><span style="color: Gray;">;</span></li>
<li><span style="color: Olive;">}</span></li>
</ol></div>
<p>用脚本的方法禁止搜索引擎的访问比较方便快捷，特别是WordPress这样的程序，只要加一个插件即可（过些天做一个发布出来）。用这个方法对服务器流量的消耗也不大，可以接受。</p>
]]></content:encoded>
			<wfw:commentRss>http://photozero.net/how-to-ban-robot/feed/</wfw:commentRss>
		<slash:comments>10</slash:comments>
		</item>
	</channel>
</rss>
