<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>NICK的SEO博客</title>
	<atom:link href="http://www.cnnick.com/index.php/feed" rel="self" type="application/rss+xml" />
	<link>http://www.cnnick.com</link>
	<description></description>
	<lastBuildDate>Thu, 16 Feb 2012 14:53:07 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>robots.txt文件的写法格式</title>
		<link>http://www.cnnick.com/seobiji/177.html</link>
		<comments>http://www.cnnick.com/seobiji/177.html#comments</comments>
		<pubDate>Thu, 16 Feb 2012 14:43:33 +0000</pubDate>
		<dc:creator>NICK</dc:creator>
				<category><![CDATA[SEO笔记]]></category>

		<guid isPermaLink="false">http://www.cnnick.com/?p=177</guid>
		<description><![CDATA[什么是robots.txt文件? 搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件，这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt，在文件中声明 该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。NICK博客的robots.txt文件是http://www.cnnick.com/robots.txt 禁止搜索引擎跟踪网页的链接，而只对网页建索引 如果您不想搜索引擎追踪此网页上的链接，且不传递链接的权重，请将此元标记置入网页的 &#60;HEAD&#62; 部分： &#60;meta name=”robots” content=”nofollow”&#62; 如果您不想百度追踪某一条特定链接，百度还支持更精确的控制，请将此标记直接写在某条链接上： &#60;a href=”signin.php” rel=”nofollow”&#62;sign in&#60;/a&#62; 要允许其他搜索引擎跟踪，但仅防止百度跟踪您网页的链接，请将此元标记置入网页的 &#60;HEAD&#62; 部分： &#60;meta name=”Baiduspider” content=”nofollow”&#62; robots.txt文件的格式 “robots.txt”文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示： “:”。 在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow和Allow行,详细情况如下： User-agent: 该项的值用于描述搜索引擎robot的名字。在”robots.txt”文件中，如果有多条User-agent记录说明有多个robot会受 到”robots.txt”的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则对任何robot均有效， 在”robots.txt”文件中，”User-agent:*”这样的记录只能有一条。如果在”robots.txt”文件中，加入”User- agent:SomeBot”和若干Disallow、Allow行，那么名为”SomeBot”只受到”User-agent:SomeBot”后面的 Disallow和Allow行的限制。 Disallow: 该项的值用于描述不希望被访问的一组URL，这个值可以是一条完整的路径，也可以是路径的非空前缀，以Disallow项的值开头的URL不会被 robot访问。 例如”Disallow:/help”禁止robot访问/help.html、/helpabc.html、/help/index.html， 而”Disallow:/help/”则允许robot访问/help.html、/helpabc.html，不能访问 /help/index.html。“Disallow:”说明允许robot访问该网站的所有url，在”/robots.txt”文件中，至少要有一 条Disallow记录。如果”/robots.txt”不存在或者为空文件，则对于所有的搜索引擎robot，该网站都是开放的。 Allow: 该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL 是允许robot访问的。 例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页 同时禁止访问其它所有URL的功能。 需要特别注意的是Disallow与Allow行的顺序是有意义的，robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。 使用”*”和”$”： Baiduspider支持使用通配符”*”和”$”来模糊匹配url。 “$” 匹配行结束符。 “*” 匹配0或多个任意字符。 User-agent: [...]]]></description>
			<content:encoded><![CDATA[<p><strong>什么是robots.txt文件?</strong></p>
<p>搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件，这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt，在文件中声明 该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。<a href="http://www.cnnick.com/" target="_blank">NICK博客</a>的robots.txt文件是<a href="http://www.cnnick.com/robots.txt">http://www.cnnick.com/robots.txt</a></p>
<p><strong>禁止搜索引擎跟踪网页的链接，而只对网页建索引</strong><br />
如果您不想搜索引擎追踪此网页上的链接，且不传递链接的权重，请将此元标记置入网页的 &lt;HEAD&gt; 部分：<br />
&lt;meta name=”robots” content=”nofollow”&gt;<br />
如果您不想百度追踪某一条特定链接，百度还支持更精确的控制，请将此标记直接写在某条链接上：<br />
&lt;a href=”signin.php” rel=”nofollow”&gt;sign in&lt;/a&gt;<br />
要允许其他搜索引擎跟踪，但仅防止百度跟踪您网页的链接，请将此元标记置入网页的 &lt;HEAD&gt; 部分：<br />
&lt;meta name=”Baiduspider” content=”nofollow”&gt;</p>
<p><strong>robots.txt文件的格式</strong></p>
<p><strong></strong><br />
“robots.txt”文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：<br />
“:”。</p>
<p>在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow和Allow行,详细情况如下：</p>
<p><strong>User-agent:</strong><br />
该项的值用于描述搜索引擎robot的名字。在”robots.txt”文件中，如果有多条User-agent记录说明有多个robot会受 到”robots.txt”的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则对任何robot均有效， 在”robots.txt”文件中，”User-agent:*”这样的记录只能有一条。如果在”robots.txt”文件中，加入”User- agent:SomeBot”和若干Disallow、Allow行，那么名为”SomeBot”只受到”User-agent:SomeBot”后面的 Disallow和Allow行的限制。</p>
<p><strong>Disallow:</strong><br />
该项的值用于描述不希望被访问的一组URL，这个值可以是一条完整的路径，也可以是路径的非空前缀，以Disallow项的值开头的URL不会被 robot访问。</p>
<p><span style="color: #ff0000;">例如”Disallow:/help”禁止robot访问/help.html、/helpabc.html、/help/index.html，</span></p>
<p><span style="color: #ff0000;">而”Disallow:/help/”则允许robot访问/help.html、/helpabc.html，不能访问 /help/index.html。</span>“Disallow:”说明允许robot访问该网站的所有url，在”/robots.txt”文件中，至少要有一 条Disallow记录。如果”/robots.txt”不存在或者为空文件，则对于所有的搜索引擎robot，该网站都是开放的。</p>
<p><strong>Allow:</strong><br />
该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL 是允许robot访问的。</p>
<p>例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页 同时禁止访问其它所有URL的功能。</p>
<p>需要特别注意的是Disallow与Allow行的顺序是有意义的，robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。</p>
<p>使用”*”和”$”：<br />
Baiduspider支持使用通配符”*”和”$”来模糊匹配url。</p>
<p>“$” 匹配行结束符。<br />
“*” 匹配0或多个任意字符。<br />
User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符<br />
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录<br />
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录<br />
Disallow: /abc/ 这里定义是禁止爬寻ABC目录下面的目录<br />
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。<br />
Disallow: /*?* 禁止访问网站中所有的动态页面<br />
Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片<br />
Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。<br />
Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录<br />
Allow: /tmp 这里定义是允许爬寻tmp的整个目录<br />
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。<br />
Allow: .gif$ 允许抓取网页和gif格式图片</p>
<p>&nbsp;</p>
<p><strong>扩展阅读：robots.txt中设置了禁止百度收录我网站的内容，为何还出现在百度搜索结果中？</strong><br />
如果其他网站链接了您robots.txt文件中设置的禁止收录的网页，那么这些网页仍然可能会出现在百度的搜索结果中，但您的网页上的内容不会被抓取、建入索引和显示，百度搜索结果中展示的仅是其他网站对您相关网页的描述。</p>
<p>&nbsp;</p>
<p><strong>我们常用的搜索引擎类型有： (User-agent区分大小写)</strong><br />
google蜘蛛：Googlebot<br />
百度蜘蛛：Baiduspider<br />
yahoo蜘蛛：Yahoo!slurp<br />
alexa蜘蛛：ia_archiver<br />
bing蜘蛛：MSNbot<br />
altavista蜘蛛：scooter<br />
lycos蜘蛛：lycos_spider_(t-rex)<br />
alltheweb蜘蛛：fast-webcrawler<br />
inktomi蜘蛛： slurp<br />
Soso蜘蛛:Sosospider<br />
Google Adsense蜘蛛:Mediapartners-Google<br />
有道蜘蛛:YoudaoBot</p>
]]></content:encoded>
			<wfw:commentRss>http://www.cnnick.com/seobiji/177.html/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>百度人工干预“SEO”搜索结果？</title>
		<link>http://www.cnnick.com/wangshixinwen/174.html</link>
		<comments>http://www.cnnick.com/wangshixinwen/174.html#comments</comments>
		<pubDate>Wed, 15 Feb 2012 15:07:54 +0000</pubDate>
		<dc:creator>NICK</dc:creator>
				<category><![CDATA[网事新闻]]></category>

		<guid isPermaLink="false">http://www.cnnick.com/?p=174</guid>
		<description><![CDATA[2012年2月15日15点左右，百度开始“人工干预”关键词“SEO”的结果，并在搜索关键词“SEO”时出现百度官方的提示指南。详见下图： 百度提示您：不要轻信seo公司的说辞和案例，不正当的seo可能会给您的站点造成风险。建议广大站长对站点进行seo之前，参考阅读百度的官方指南。 &#160; 仔细的阅读了百度优化指南V2.0，有价值的内容寥寥无几，而且长达32页的文档也没有多少人去阅读。百度将这个页面提至自然排名的第一位，主要想呈现给用户就是“百度提示您：不要轻信seo公司的说辞和案例，不正当的seo可能会给您的站点造成风险。建议广大站长对站点进行seo之前，参考阅读百度的官方指南。 ”这句话而已。百度为什么要这样做？百度一句话，伤了多少SEOer。百度一句话，得要SEOer多说100句，才能让客户相信SEO公司的“说辞”。 &#160; 同时还有一个亮点就是图中清晰看见的推广链接，百度一方面大喊：“别相信那些做seo的人的鬼话，都过来做我的百度竞价吧！”另一面继续赚着SEO公司的推广费用。百度真是一箭双雕啊！ &#160; 下面我们再来围观下百度优化指南V2.0，是不是感觉百度的做法令人作呕！百度什么时候能有自己的信条“不作恶”？期待ing 2012年2月15日17点左右，百度的优化指南页面被去除了。希望只是百度的算法出错了，多数的SEO从业者还是想好好做站，踏踏实实的做站。希望天朝的搜索引擎市场越来越大！ 最后：不适合做SEO的朋友，请您自动离开，别在侮辱了SEO职业的同时濡染了其他人，想做SEO的企业或者朋友，请您尊重实际，别把SEO当农民工，SEO是个实实在在的行业，没质量、服务概念的产品请不要SEO]]></description>
			<content:encoded><![CDATA[<p>2012年2月15日15点左右，百度开始“人工干预”关键词“<a href="http://www.cnnick.com/" target="_blank">SEO</a>”的结果，并在搜索关键词“SEO”时出现百度官方的提示指南。详见下图：</p>
<p><img class="alignnone" title="百度人工干预“SEO”搜索结果？" src="http://ww4.sinaimg.cn/bmiddle/86f52fb9jw1dq31z1ktjhj.jpg" alt="百度人工干预“SEO”搜索结果？" width="440" height="243" /></p>
<blockquote><p>百度提示您：不要轻信seo公司的说辞和案例，不正当的seo可能会给您的站点造成风险。建议广大站长对站点进行seo之前，参考阅读百度的官方指南。</p></blockquote>
<p>&nbsp;</p>
<p>仔细的阅读了百度优化指南V2.0，有价值的内容寥寥无几，而且长达32页的文档也没有多少人去阅读。百度将这个页面提至自然排名的第一位，主要想呈现给用户就是“百度提示您：不要轻信seo公司的说辞和案例，不正当的seo可能会给您的站点造成风险。建议广大站长对站点进行seo之前，参考阅读百度的官方指南。 <!--EndFragment-->”这句话而已。百度为什么要这样做？百度一句话，伤了多少SEOer。百度一句话，得要SEOer多说100句，才能让客户相信SEO公司的“说辞”。</p>
<p>&nbsp;</p>
<p>同时还有一个亮点就是图中清晰看见的推广链接，百度一方面大喊：“别相信那些做seo的人的鬼话，都过来做我的百度竞价吧！”另一面继续赚着SEO公司的推广费用。百度真是一箭双雕啊！</p>
<p>&nbsp;</p>
<p>下面我们再来围观下百度优化指南V2.0，是不是感觉百度的做法令人作呕！百度什么时候能有自己的信条“不作恶”？期待ing</p>
<p><a href="http://www.cnnick.com/wp-content/uploads/2012/02/232405.jpg"><img class="alignnone size-medium wp-image-176" title="百度人工干预“SEO”搜索结果？" src="http://www.cnnick.com/wp-content/uploads/2012/02/232405-300x128.jpg" alt="百度人工干预“SEO”搜索结果？" width="300" height="128" /></a></p>
<p>2012年2月15日17点左右，百度的优化指南页面被去除了。希望只是百度的算法出错了，多数的<a href="http://www.cnnick.com/" target="_blank">SEO从业者</a>还是想好好做站，踏踏实实的做站。希望天朝的搜索引擎市场越来越大！</p>
<p>最后：不适合做SEO的朋友，请您自动离开，别在侮辱了SEO职业的同时濡染了其他人，想做SEO的企业或者朋友，请您尊重实际，别把SEO当农民工，SEO是个实实在在的行业，没质量、服务概念的产品请不要<a href="http://www.cnnick.com/" target="_blank">SEO</a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.cnnick.com/wangshixinwen/174.html/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>常见网页内容优化技巧</title>
		<link>http://www.cnnick.com/seobiji/169.html</link>
		<comments>http://www.cnnick.com/seobiji/169.html#comments</comments>
		<pubDate>Tue, 14 Feb 2012 14:04:08 +0000</pubDate>
		<dc:creator>NICK</dc:creator>
				<category><![CDATA[SEO笔记]]></category>

		<guid isPermaLink="false">http://www.cnnick.com/?p=169</guid>
		<description><![CDATA[1、关键词重复 对于目标关键词，大量重复设置在页面内容中。因为词频是搜索引擎相似度计算中必然会考虑的因子，关键词重复本质上是通过提高目标关键词的词频来影响搜索引擎内容相似性排名的。 &#160; 2、无关查询词 为了能够尽可能多地吸引搜索流量，SEOer在页面内容中增加很多和页面主题无关的关键词，这本质上也是一种词频作弊，即将原先为0的单词词频增加到非0词频，以此吸引更多搜索引擎流量。 比如有的SEOer在网页的末端以不可见人的方式加入一堆单词词表，也有在正文内容插入某些热门查询词，甚至有些页面内容是靠机器完全随机生成或者利用其他网页的内容片断随机拼凑而成的。比如很多页面的tag页面，或者采集的页面。这种简单的作弊手段现搜索引擎已经能识破。 &#160; 3、图片ALT标签文本 ALT标签原本是作为图片描述信息来使用的，所以有些SEOer将ALT标签的内容以作弊词汇来填充，达到吸引更多搜索流量的目的。 &#160; 4、网页标题 网页标题作为描述网页内容的综述性信息，对于判别一个网页所讲述的主题是非常重要的，所以搜索引擎在计算相似性得分时，往往会增加标题词汇的得分权重。利用这一点，将与网页主题无关的目标词重复放置在标题位置来获得更好的排名。 &#160; 5、网页重点标签 HTML标签代表了强调内容重要性的含义，比如加粗标记&#60;b&#62;[内容] &#60;/b&#62;，段落标题&#60;h&#62;[内容] &#60;/h&#62;，字体大小标记等。搜索引擎一般会利用这些信息进行排序。因为这些标记因素能够更好地体现网页的内容所表现的主题信息。通过在这些重要位置插入目标关键词也能影响搜索引擎排名结果。 &#160; 6、网页元信息 网页元信息，比如网页内容描述区（Meta description）和网页内容关键词区（Meta keywords）是供制作网页的人对网页主题信息进行简短描述的，SEOer往往也会通过在其中插入目标关键词来影响网页排名。]]></description>
			<content:encoded><![CDATA[<p><strong>1、关键词重复</strong></p>
<p>对于目标关键词，大量重复设置在页面内容中。因为词频是搜索引擎相似度计算中必然会考虑的因子，关键词重复本质上是通过提高目标关键词的词频来影响搜索引擎内容相似性排名的。</p>
<p>&nbsp;</p>
<p><strong>2、无关查询词</strong></p>
<p>为了能够尽可能多地吸引搜索流量，<a href="http://www.cnnick.com/" target="_blank">SEO</a>er在页面内容中增加很多和页面主题无关的关键词，这本质上也是一种词频作弊，即将原先为0的单词词频增加到非0词频，以此吸引更多搜索引擎流量。</p>
<p>比如有的SEOer在网页的末端以不可见人的方式加入一堆单词词表，也有在正文内容插入某些热门查询词，甚至有些页面内容是靠机器完全随机生成或者利用其他网页的内容片断随机拼凑而成的。比如很多页面的tag页面，或者采集的页面。这种简单的作弊手段现搜索引擎已经能识破。</p>
<p>&nbsp;</p>
<p><strong>3、图片ALT标签文本</strong></p>
<p>ALT标签原本是作为图片描述信息来使用的，所以有些SEOer将ALT标签的内容以作弊词汇来填充，达到吸引更多搜索流量的目的。</p>
<p>&nbsp;</p>
<p><strong>4、网页标题</strong></p>
<p>网页标题作为描述网页内容的综述性信息，对于判别一个网页所讲述的主题是非常重要的，所以搜索引擎在计算相似性得分时，往往会增加标题词汇的得分权重。利用这一点，将与网页主题无关的目标词重复放置在标题位置来获得更好的排名。</p>
<p>&nbsp;</p>
<p><strong>5、网页重点标签</strong></p>
<p>HTML标签代表了强调内容重要性的含义，比如加粗标记&lt;b&gt;[内容] &lt;/b&gt;，段落标题&lt;h&gt;[内容] &lt;/h&gt;，字体大小标记等。搜索引擎一般会利用这些信息进行排序。因为这些标记因素能够更好地体现网页的内容所表现的主题信息。通过在这些重要位置插入目标关键词也能影响搜索引擎排名结果。</p>
<p>&nbsp;</p>
<p><strong>6、网页元信息</strong></p>
<p>网页元信息，比如网页内容描述区（Meta description）和网页内容关键词区（Meta keywords）是供制作网页的人对网页主题信息进行简短描述的，<a href="http://www.cnnick.com/" target="_blank">SEOer</a>往往也会通过在其中插入目标关键词来影响网页排名。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.cnnick.com/seobiji/169.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>HITS算法与PageRank算法比较</title>
		<link>http://www.cnnick.com/seobiji/167.html</link>
		<comments>http://www.cnnick.com/seobiji/167.html#comments</comments>
		<pubDate>Mon, 13 Feb 2012 14:39:56 +0000</pubDate>
		<dc:creator>NICK</dc:creator>
				<category><![CDATA[SEO笔记]]></category>

		<guid isPermaLink="false">http://www.cnnick.com/?p=167</guid>
		<description><![CDATA[HITS算法和PageRank算法可以说是搜索引擎链接分析的两个最基础且最重要的算法。 下面对两者之间的差异进行逐一说明。 HITS算法是与用户输入的查询请求密切相关的，而PageRank与查询请求无关。所以，HITS算法可以单独作为相似性计算评价标准，而PageRank必须结合内容相似性计算才可以用来对网页相关性进行评价。 HITS算法因为与用户查询密切相关，所以必须在接收到用户查询后进行实时计算，计算效率很低；而PageRank则可以在爬虫抓取完成后离线计算，在线直接使用计算结果，计算效率较高。 HITS算法的计算对象数量较少，只需计算扩展集合内网页之间的链接关系；而PageRank是全局性算法，对所有互联网网页节点进行处理。 从两者的计算效率和处理对象集合大小来比较，PageRank更适合部署在服务器端，而HITS算法更适合部署在客户端。 HITS算法存在主题泛化问题，所以更适合处理具体的用户查询；而PageRank算法再处理宽泛的用户查询时更有优势。 HIST算法在计算时，对于每个页面需要计算两个分值，而PageRank算法只需计算一个分值即可；在搜索引擎领域，更重视HITS算法计算出的Authority权值，但是在很多应用HITS算法的其他领域，Hub分值也有很重要的作用。 从链接反作弊的角度来说，PageRank从机制上优于HITS算法，而HITS算法更易遭受链接作弊的影响。 HITS算法结构不稳定，当对于扩展网页集合内链接关系做出很小改变，则对最终排名有很大影响；而PageRank算法相对HITS而言表现稳定，其根本原因在于PageRank计算时的远程跳转。]]></description>
			<content:encoded><![CDATA[<p>HITS算法和PageRank算法可以说是搜索引擎链接分析的两个最基础且最重要的算法。</p>
<p>下面对两者之间的差异进行逐一说明。</p>
<p>HITS算法是与用户输入的查询请求密切相关的，而PageRank与查询请求无关。所以，HITS算法可以单独作为相似性计算评价标准，而PageRank必须结合内容相似性计算才可以用来对网页相关性进行评价。</p>
<p>HITS算法因为与用户查询密切相关，所以必须在接收到用户查询后进行实时计算，计算效率很低；而PageRank则可以在爬虫抓取完成后离线计算，在线直接使用计算结果，计算效率较高。</p>
<p>HITS算法的计算对象数量较少，只需计算扩展集合内网页之间的链接关系；而PageRank是全局性算法，对所有互联网网页节点进行处理。</p>
<p>从两者的计算效率和处理对象集合大小来比较，PageRank更适合部署在服务器端，而HITS算法更适合部署在客户端。</p>
<p><span style="direction: ltr;">HITS算法存在主题泛化问题，所以更适合处理具体的用户查询；而PageRank算法再处理宽泛的用户查询时更有优势。</span></p>
<p>HIST算法在计算时，对于每个页面需要计算两个分值，而PageRank算法只需计算一个分值即可；在搜索引擎领域，更重视HITS算法计算出的Authority权值，但是在很多应用HITS算法的其他领域，Hub分值也有很重要的作用。</p>
<p>从链接反作弊的角度来说，PageRank从机制上优于HITS算法，而HITS算法更易遭受链接作弊的影响。</p>
<p>HITS算法结构不稳定，当对于扩展网页集合内链接关系做出很小改变，则对最终排名有很大影响；而PageRank算法相对HITS而言表现稳定，其根本原因在于PageRank计算时的远程跳转。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.cnnick.com/seobiji/167.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>HITS算法存在的问题</title>
		<link>http://www.cnnick.com/seobiji/164.html</link>
		<comments>http://www.cnnick.com/seobiji/164.html#comments</comments>
		<pubDate>Sun, 12 Feb 2012 14:07:43 +0000</pubDate>
		<dc:creator>NICK</dc:creator>
				<category><![CDATA[SEO笔记]]></category>

		<guid isPermaLink="false">http://www.cnnick.com/?p=164</guid>
		<description><![CDATA[HITS算法整体而言是个效果很好的算法，目前不仅在搜索引擎领域应用，而且被自然语言处理及社交分析等很多其他计算机领域借鉴使用，并取得了很好的应用效果。尽管如此，最初版本的HITS算法仍然存在一些问题，而后续很多基于HITS算法的链接分析方法，也是立足于改进HITS算法存在的这些问题而提出来的。 &#160; HITS算法主要存在以下问题： &#160; 计算效率很低 因为HITS算法是与查询相关的算法，所以必须在接收到用户查询后实时进行计算，而HITS算法本身需要进行很多轮迭代计算才能获得最终结果。这导致其计算效率很低，这是实际应用时必须慎重考虑的问题。 &#160; 主题漂移问题 如果在扩展网页集合里包含部分与查询主题无关的页面，而且这些页面之间有较多的相互链接指向，那么使用HITS算法很有可能会给予这些无关页面很高的排名，导致搜索结果如果发生主题漂移，这种现象被称为紧密链接社区现象。 &#160; 易被作弊者操作结果 HITS算法从机制上很容易被作弊者操纵，比如作弊者可以建立一个页面，页面增加很多指向高质量网页或者著名网站的网址，这就是一个很好的Hub页面，之后作弊者再将这个页面指向作弊网页，于是可以提升作弊网页的Authority得分。 &#160; 结构不稳定 所谓结构不稳定，就是说在原有的扩展网页集合内，如果添加删除个别网页或者改变少数链接关系，则HITS算法的排名结果就会有很大的改变。]]></description>
			<content:encoded><![CDATA[<p>HITS算法整体而言是个效果很好的算法，目前不仅在搜索引擎领域应用，而且被自然语言处理及社交分析等很多其他计算机领域借鉴使用，并取得了很好的应用效果。尽管如此，最初版本的HITS算法仍然存在一些问题，而后续很多基于HITS算法的链接分析方法，也是立足于改进HITS算法存在的这些问题而提出来的。</p>
<p>&nbsp;</p>
<p><strong>HITS算法主要存在以下问题：</strong></p>
<p>&nbsp;</p>
<p><strong>计算效率很低</strong></p>
<p>因为HITS算法是与查询相关的算法，所以必须在接收到用户查询后实时进行计算，而HITS算法本身需要进行很多轮迭代计算才能获得最终结果。这导致其计算效率很低，这是实际应用时必须慎重考虑的问题。</p>
<p>&nbsp;</p>
<p><strong>主题漂移问题</strong></p>
<p>如果在扩展网页集合里包含部分与查询主题无关的页面，而且这些页面之间有较多的相互链接指向，那么使用HITS算法很有可能会给予这些无关页面很高的排名，导致搜索结果如果发生主题漂移，这种现象被称为紧密链接社区现象。</p>
<p>&nbsp;</p>
<p><strong>易被作弊者操作结果</strong></p>
<p>HITS算法从机制上很容易被作弊者操纵，比如作弊者可以建立一个页面，页面增加很多指向高质量网页或者著名网站的网址，这就是一个很好的Hub页面，之后作弊者再将这个页面指向作弊网页，于是可以提升作弊网页的Authority得分。</p>
<div class="mceTemp">
<dl id="attachment_166" class="wp-caption alignnone" style="width: 310px;">
<dt class="wp-caption-dt"><a href="http://www.cnnick.com/wp-content/uploads/2012/02/021201.jpg"><img class="size-medium wp-image-166" title="hits算法存在的问题" src="http://www.cnnick.com/wp-content/uploads/2012/02/021201-300x204.jpg" alt="hits算法存在的问题" width="300" height="204" /></a></dt>
<dd class="wp-caption-dd"></dd>
</dl>
</div>
<p>&nbsp;</p>
<p><strong>结构不稳定</strong></p>
<p>所谓结构不稳定，就是说在原有的扩展网页集合内，如果添加删除个别网页或者改变少数链接关系，则HITS算法的排名结果就会有很大的改变。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.cnnick.com/seobiji/164.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>win7下安装phpnow出现[ Apache_pn ] 错误的解决方法</title>
		<link>http://www.cnnick.com/wangzhanjianshe/158.html</link>
		<comments>http://www.cnnick.com/wangzhanjianshe/158.html#comments</comments>
		<pubDate>Sat, 11 Feb 2012 01:07:39 +0000</pubDate>
		<dc:creator>NICK</dc:creator>
				<category><![CDATA[网站建设]]></category>

		<guid isPermaLink="false">http://www.cnnick.com/?p=158</guid>
		<description><![CDATA[安装PHPnow时如果遇到下列问题： 安装服务[apache_pn]失败.可能原因如下: 1. 服务名已存在，请卸载或使用不同的服务名. 2. 非管理员权限，不能操作 Windows NT 服务. 现在不要慌，也不要删除已经解压好的PHPnow。 请首先确认操作系统的版本。如果您正在使用Windows Vista或Windows 7，那么首先要考虑是不是权限问题。您可以在“开始”—“搜索”中输入“cmd”，在搜索结果中找到“cmd.exe”，点右键，选择“以管理员身份运行”。 然后使用DOS命令进入PHPnow所在的盘符。NICK将PHPnow放在了D盘中。使用的DOS操作符是： “D:” 然后回车。 进入D盘以后，下面就是要打开在D盘中的PHPnow文件夹，使用的DOS操作符是：“cd phpnow” 然后回车。 注：如果说你D盘中的PHPnow文件夹的名称是“PHPnow-1.5.6”，使用的DOS操作符是：“cd phpnow-1.5.6” 下面就是关键的一步了，使用的DOS操作符是：“init” 然后回车。 接下来就是大片里看到的一幕。 ______________________________________________________________ &#124; &#124; &#124; 开始文件处理 &#8230; &#124; 已复制 1 个文件。 已复制 1 个文件。 已复制 1 个文件。 已复制 1 个文件。 已复制 1 个文件。 已复制 1 个文件。 已复制 1 个文件。 已复制 1 个文件。 [...]]]></description>
			<content:encoded><![CDATA[<p>安装PHPnow时如果遇到下列问题：</p>
<p>安装服务[apache_pn]失败.可能原因如下:</p>
<p>1. 服务名已存在，请卸载或使用不同的服务名.<br />
2. 非管理员权限，不能操作 Windows NT 服务.</p>
<p>现在不要慌，也不要删除已经解压好的PHPnow。</p>
<p>请首先确认操作系统的版本。如果您正在使用Windows Vista或Windows 7，那么首先要考虑是不是权限问题。您可以在“开始”—“搜索”中输入“cmd”，在搜索结果中找到“cmd.exe”，点右键，选择“以管理员身份运行”。</p>
<p>然后使用DOS命令进入PHPnow所在的盘符。NICK将PHPnow放在了D盘中。使用的DOS操作符是： <!--EndFragment-->“D:” 然后回车。</p>
<p><a href="http://www.cnnick.com/wp-content/uploads/2012/02/021101.jpg"><img class="alignnone size-medium wp-image-159" title="解决win7环境下PHPnow安装服务[apache_pn]失败的问题" src="http://www.cnnick.com/wp-content/uploads/2012/02/021101-300x101.jpg" alt="解决win7环境下PHPnow安装服务[apache_pn]失败的问题" width="300" height="101" /></a></p>
<p>进入D盘以后，下面就是要打开在D盘中的PHPnow文件夹，使用的DOS操作符是：“cd phpnow” 然后回车。</p>
<p>注：如果说你D盘中的PHPnow文件夹的名称是“PHPnow-1.5.6”，使用的DOS操作符是：“cd phpnow-1.5.6”</p>
<p><a href="http://www.cnnick.com/wp-content/uploads/2012/02/021102.jpg"><img class="alignnone size-medium wp-image-160" title="win7下安装phpnow出现[ Apache_pn ] 错误的解决方法" src="http://www.cnnick.com/wp-content/uploads/2012/02/021102-300x127.jpg" alt="win7下安装phpnow出现[ Apache_pn ] 错误的解决方法" width="300" height="127" /></a></p>
<p>下面就是关键的一步了，使用的DOS操作符是：“init” 然后回车。</p>
<p><a href="http://www.cnnick.com/wp-content/uploads/2012/02/021103.jpg"><img class="alignnone size-medium wp-image-161" title="win7下安装phpnow出现[ Apache_pn ] 错误的解决方法" src="http://www.cnnick.com/wp-content/uploads/2012/02/021103-300x124.jpg" alt="win7下安装phpnow出现[ Apache_pn ] 错误的解决方法" width="300" height="124" /></a></p>
<p>接下来就是大片里看到的一幕。</p>
<p>______________________________________________________________<br />
| |<br />
| 开始文件处理 &#8230; |</p>
<p>已复制 1 个文件。<br />
已复制 1 个文件。<br />
已复制 1 个文件。<br />
已复制 1 个文件。<br />
已复制 1 个文件。<br />
已复制 1 个文件。<br />
已复制 1 个文件。<br />
已复制 1 个文件。<br />
已复制 1 个文件。<br />
已复制 1 个文件。<br />
已复制 1 个文件。<br />
已复制 1 个文件。</p>
<p>| 文件处理完成; |<br />
|______________________________________________________________|</p>
<p>______________________________________________________________<br />
| |<br />
| 正在安装 Apache &#8230; |</p>
<p>Installing the Apache_pn service<br />
The Apache_pn service is successfully installed.<br />
Testing httpd.conf&#8230;.<br />
Errors reported here must be corrected before the service can be started.</p>
<p>| 正在启动 Apache &#8230; |</p>
<p>| 启动 Apache 完成; |<br />
|______________________________________________________________|</p>
<p>______________________________________________________________<br />
| |<br />
| 正在启动 MySQL 5.1 &#8230; |</p>
<p>Service successfully installed.<br />
MySQL5_pn 服务正在启动 .<br />
MySQL5_pn 服务已经启动成功。</p>
<p>| 启动 MySQL 5.1 完成; |<br />
|______________________________________________________________|</p>
<p>______________________________________________________________<br />
| |<br />
| 现在为 MySQL 的 root 用户设置密码. 重要! 请切记! |<br />
|______________________________________________________________|<br />
-&gt; 设置 root 用户密码: ******</p>
<p>______________________________________________________________<br />
| |<br />
MySQL root 用户的新密码为 “******” , 请切记!<br />
|______________________________________________________________|</p>
<p>______________________________________________________________<br />
| |<br />
| 全部完成!! 你将可以看到 PHPnow 的默认页面! |<br />
|______________________________________________________________|</p>
<p>- 按任意键继续&#8230;</p>
<p>注：MySQL root的密码一定要记住哦！</p>
<p>如果提示80端口已被占用，那就启用别的端口就OK了，比如说启用81端口。那么我们在地址栏输入的时候就要输入127.0.1.1：81</p>
<p>NICK的80端口没有没占用，所以安装的比较顺利。</p>
<p>&nbsp;</p>
<p>在地址栏输入127.0.1.1</p>
<p><!--EndFragment-->上一张图庆贺在win7环境下完成phpnow傻瓜式的安装工作。</p>
<p><a href="http://www.cnnick.com/wp-content/uploads/2012/02/021104.jpg"><img class="alignnone size-medium wp-image-162" title="win7下安装phpnow出现[ Apache_pn ] 错误的解决方法" src="http://www.cnnick.com/wp-content/uploads/2012/02/021104-300x181.jpg" alt="win7下安装phpnow出现[ Apache_pn ] 错误的解决方法" width="300" height="181" /></a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.cnnick.com/wangzhanjianshe/158.html/feed</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>PageRank算法详解</title>
		<link>http://www.cnnick.com/seobiji/156.html</link>
		<comments>http://www.cnnick.com/seobiji/156.html#comments</comments>
		<pubDate>Thu, 09 Feb 2012 14:40:47 +0000</pubDate>
		<dc:creator>NICK</dc:creator>
				<category><![CDATA[SEO笔记]]></category>

		<guid isPermaLink="false">http://www.cnnick.com/?p=156</guid>
		<description><![CDATA[PageRank是GOOGLE创始人于1997年构建早起的搜索系统原型是提出的链接分析算法。 PageRank(网页级别)，也就是我们大家常说的PR, 2001年9月被授予美国专利，专利人是Google创始人之一拉里·佩奇  PageRank专利人——拉里·佩奇（Larry Page）。因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。它是Google排名运算法则（排名公式）的一部分，是Google用于用来标识网页的等级（重要性）的一种方法，是Google用来衡量一个网站的好坏的重要标准之一。 &#160; 在一轮更新页面PageRank得分计算中，每个页面将其当前的PageRank平均分配到当前页面包含的出链上，这样每个链接获得了相应的权重值，而每个页面将所有指向本页面的入链所传入的权重值求和，即可得到新的PageRank得分。 &#160; 影响google PageRank的因素 1 与pr高的网站做链接: 2 内容质量高的网站链接 3 加入搜索引擎分类目录 4 加入免费开源目录 5 你的链接出现在流量大、知名度高、频繁更新的重要网站上 6 google对PDF格式的文件比较看重。 7 安装Google工具条 8 域名和tilte标题出现关键词与meta标签等 9 反向连接数量和反向连接的等级 10 Google抓取您网站的页面数量 11 导出链接数量 &#160; google PageRank相关算法 PageRank 基本思想：如果网页T存在一个指向网页A的连接，则表明T的所有者认为A比较重要，从而把T的一部分重要性得分赋予A。这个重要性得分值为：PR（T）/C(T) 其中PR（T）为T的PageRank值，C(T)为T的出链数，则A的PageRank值为一系列类似于T的页面重要性得分值的累加。 优点：是一个与查询无关的静态算法，所有网页的PageRank值通过离线计算获得；有效减少在线查询时的计算量，极大降低了查询响应时间。 不足：人们的查询具有主题特征，PageRank忽略了主题相关性，导致结果的相关性和主题性降低；另外，PageRank有很严重的对新网页的歧视。]]></description>
			<content:encoded><![CDATA[<p>PageRank是GOOGLE创始人于1997年构建早起的搜索系统原型是提出的链接分析算法。</p>
<p>PageRank(网页级别)，也就是我们大家常说的PR, 2001年9月被授予美国专利，专利人是Google创始人之一拉里·佩奇  PageRank专利人——拉里·佩奇（Larry Page）。因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。它是Google排名运算法则（排名公式）的一部分，是Google用于用来标识网页的等级（重要性）的一种方法，是Google用来衡量一个网站的好坏的重要标准之一。</p>
<p>&nbsp;</p>
<p>在一轮更新页面PageRank得分计算中，每个页面将其当前的PageRank平均分配到当前页面包含的出链上，这样每个链接获得了相应的权重值，而每个页面将所有指向本页面的入链所传入的权重值求和，即可得到新的PageRank得分。</p>
<p>&nbsp;</p>
<p><strong>影响google PageRank的因素</strong></p>
<p>1 与pr高的网站做链接:<br />
2 内容质量高的网站链接<br />
3 加入搜索引擎分类目录<br />
4 加入免费开源目录<br />
5 你的链接出现在流量大、知名度高、频繁更新的重要网站上<br />
6 google对PDF格式的文件比较看重。<br />
7 安装Google工具条<br />
8 域名和tilte标题出现关键词与meta标签等<br />
9 反向连接数量和反向连接的等级<br />
10 Google抓取您网站的页面数量<br />
11 导出链接数量</p>
<p>&nbsp;</p>
<p><strong><strong>google </strong>PageRank相关算法</strong></p>
<p>PageRank</p>
<p>基本思想：如果网页T存在一个指向网页A的连接，则表明T的所有者认为A比较重要，从而把T的一部分重要性得分赋予A。这个重要性得分值为：PR（T）/C(T)</p>
<p>其中PR（T）为T的PageRank值，C(T)为T的出链数，则A的PageRank值为一系列类似于T的页面重要性得分值的累加。</p>
<p>优点：是一个与查询无关的静态算法，所有网页的PageRank值通过离线计算获得；有效减少在线查询时的计算量，极大降低了查询响应时间。</p>
<p>不足：人们的查询具有主题特征，PageRank忽略了主题相关性，导致结果的相关性和主题性降低；另外，PageRank有很严重的对新网页的歧视。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.cnnick.com/seobiji/156.html/feed</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>搜索引擎分词技术详解</title>
		<link>http://www.cnnick.com/seobiji/154.html</link>
		<comments>http://www.cnnick.com/seobiji/154.html#comments</comments>
		<pubDate>Wed, 08 Feb 2012 14:38:30 +0000</pubDate>
		<dc:creator>NICK</dc:creator>
				<category><![CDATA[SEO笔记]]></category>

		<guid isPermaLink="false">http://www.cnnick.com/?p=154</guid>
		<description><![CDATA[分词技术是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。英文等语言单词与单词之间有空格分隔，搜索引擎索引（“预处理”也被称为“索引”，因为索引是预处理最主要的步骤）程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符，一个句子中的所有字和词都是连在一起的。搜索引擎必须分辨哪几个字组成一个词，哪些字本身就是一个词。比如“SEO分析师”将被分词为“SEO”和“分析师”两个词。 &#160; 中文分词方法基本上有两种，一种是基于词典匹配，另一种是基于统计。 基于词典匹配的方法是指：将待分析的一段汉字与一个事先造好的词典中的词条进行匹配，在待分析汉字串中扫描到词典中已有的词条则匹配成功，或者说切分出一个单词。 按照扫描方向，基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同，又可以分为最大匹配和最小匹配。将扫描方向和长度优先混合，又可以产生正向最大匹配、逆向最大匹配等不同方法。 词典匹配方法计算简单，其准确度很大程度上取决于词典的完整性和更新情况。 &#160; 基于统计的分词方法指的是分析大量文字样本，计算出字与字相邻出现的统计概率，几个字相邻出现越多，就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快速，也有利于消除歧义。 &#160; 基于词典匹配和基于统计的分词各有优势，实际使用中的分词系统都是混合使用两种方法的，快速高效，又能识别生词、新词，消除歧义。 搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏，而不是取决于页面本身如何，所以SEO人员对分词所能做的很少。唯一能做的就是在页面上用某种形式提示搜索引擎，某几个字应该当做一个词处理，尤其是可能产生歧义的时候，比如在页面的标题、H1标签及黑体重出现关键词。这样搜索引擎对页面进行分析时就知道标为黑体的应该是一个词。 &#160; PS:写完博客后，去月光博客看到类似的文章。月光提到了另一种分词方法，基于理解的分词方法。 这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。 在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。]]></description>
			<content:encoded><![CDATA[<p>分词技术是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。英文等语言单词与单词之间有空格分隔，搜索引擎索引（“预处理”也被称为“索引”，因为索引是预处理最主要的步骤）程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符，一个句子中的所有字和词都是连在一起的。搜索引擎必须分辨哪几个字组成一个词，哪些字本身就是一个词。比如“<a href="http://www.cnnick.com/" target="_blank">SEO分析师</a>”将被分词为“<a href="http://www.cnnick.com/" target="_blank">SEO</a>”和“分析师”两个词。</p>
<p>&nbsp;</p>
<p>中文分词方法基本上有两种，一种是基于词典匹配，另一种是基于统计。</p>
<p>基于词典匹配的方法是指：将待分析的一段汉字与一个事先造好的词典中的词条进行匹配，在待分析汉字串中扫描到词典中已有的词条则匹配成功，或者说切分出一个单词。</p>
<p>按照扫描方向，基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同，又可以分为最大匹配和最小匹配。将扫描方向和长度优先混合，又可以产生正向最大匹配、逆向最大匹配等不同方法。</p>
<p>词典匹配方法计算简单，其准确度很大程度上取决于词典的完整性和更新情况。</p>
<p>&nbsp;</p>
<p>基于统计的分词方法指的是分析大量文字样本，计算出字与字相邻出现的统计概率，几个字相邻出现越多，就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快速，也有利于消除歧义。</p>
<p>&nbsp;</p>
<p>基于词典匹配和基于统计的分词各有优势，实际使用中的分词系统都是混合使用两种方法的，快速高效，又能识别生词、新词，消除歧义。</p>
<p>搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏，而不是取决于页面本身如何，所以<a href="http://www.cnnick.com/" target="_blank">SEO</a>人员对分词所能做的很少。唯一能做的就是在页面上用某种形式提示搜索引擎，某几个字应该当做一个词处理，尤其是可能产生歧义的时候，比如在页面的标题、H1标签及黑体重出现关键词。这样搜索引擎对页面进行分析时就知道标为黑体的应该是一个词。</p>
<p>&nbsp;</p>
<p>PS:写完博客后，去月光博客看到类似的文章。月光提到了另一种分词方法，基于理解的分词方法。<!--EndFragment--></p>
<p><span style="direction: ltr;">这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。</span></p>
<p><span style="direction: ltr;">在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。</span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.cnnick.com/seobiji/154.html/feed</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>NICK博客建站88天总结</title>
		<link>http://www.cnnick.com/shenghuoganwu/149.html</link>
		<comments>http://www.cnnick.com/shenghuoganwu/149.html#comments</comments>
		<pubDate>Tue, 07 Feb 2012 14:22:11 +0000</pubDate>
		<dc:creator>NICK</dc:creator>
				<category><![CDATA[生活感悟]]></category>
		<category><![CDATA[SEO博客]]></category>

		<guid isPermaLink="false">http://www.cnnick.com/?p=149</guid>
		<description><![CDATA[NICK博客建站日期是2011年11月11日，是个不错的光棍节，可以说是NICK故意选的日子吧。 今天NICK博客PR更新到2，也算谷歌对NICK努力的认可了，而今天又恰巧又是NICK博客运营的第88天。哈哈！ &#160; 从上图的网站统计可以看出：在88天的时间内NICK共发布博客日志总数48篇，专题页面1个（专题页面指的是SEOWHY搞的活动，不过至今百度还没有收录），共有朋友们的评论690条，标签数25个和友情链接10条（感谢在我刚建站和我交换友情链接的朋友们）。 网站被放出日期为2011年12月2日，百度快照2011年11月25日。 在之后的半个月时间内，NICK博客的内容几乎是秒收状态。NICK天真的以为博客已经走出了百度的考察期，但是在之后的博客的百度快照停止在2012年初，而博客的百度收录量一直是20. NICK博客再次更新是2012年1月26日，博客的收录也降低到15.在此次更新之后，NICK也学的勤快点了，几乎每天都坚持更新，有些时候比较忙，就偷偷懒。 NICK博客的2012年2月7日的状况是：百度快照日期2012-1-26，百度收录15，百度相关域116.谷歌收录1010，PR2. SEO博客几乎是每个SEO工作者展示自我的平台，如何运用个人博客来树立个人品牌是整个营销策略中的重中之重。当然了每个博主都有自己的营销策略，如何运营好这个平台每个SEOer都能说出N多的经验。在此各位来访的朋友可以多多发表各自的意见。]]></description>
			<content:encoded><![CDATA[<p><strong><a href="http://www.cnnick.com/" target="_blank">NICK博客</a></strong>建站日期是2011年11月11日，是个不错的光棍节，可以说是<a href="http://www.cnnick.com/" target="_blank">NICK</a>故意选的日子吧。</p>
<p>今天NICK博客PR更新到2，也算谷歌对NICK努力的认可了，而今天又恰巧又是NICK博客运营的第88天。哈哈！</p>
<p><a href="http://www.cnnick.com/wp-content/uploads/2012/02/222707.jpg"><img class="alignnone size-full wp-image-152" title="NICK博客建站88天" src="http://www.cnnick.com/wp-content/uploads/2012/02/222707.jpg" alt="NICK博客建站88天" width="245" height="119" /></a></p>
<p>&nbsp;</p>
<p>从上图的网站统计可以看出：在88天的时间内NICK共发布博客日志总数48篇，专题页面1个（专题页面指的是SEOWHY搞的活动，不过至今百度还没有收录），共有朋友们的评论690条，标签数25个和友情链接10条（感谢在我刚建站和我交换友情链接的朋友们）。</p>
<p>网站被放出日期为2011年12月2日，百度快照2011年11月25日。</p>
<p>在之后的半个月时间内，NICK博客的内容几乎是秒收状态。NICK天真的以为博客已经走出了百度的考察期，但是在之后的博客的百度快照停止在2012年初，而博客的百度收录量一直是20.</p>
<p>NICK博客再次更新是2012年1月26日，博客的收录也降低到15.在此次更新之后，NICK也学的勤快点了，几乎每天都坚持更新，有些时候比较忙，就偷偷懒。</p>
<p>NICK博客的2012年2月7日的状况是：百度快照日期2012-1-26，百度收录15，百度相关域116.谷歌收录1010，PR2.</p>
<p><a href="http://www.cnnick.com/" target="_blank">SEO博客</a>几乎是每个SEO工作者展示自我的平台，如何运用个人博客来树立个人品牌是整个营销策略中的重中之重。当然了每个博主都有自己的营销策略，如何运营好这个平台每个SEOer都能说出N多的经验。在此各位来访的朋友可以多多发表各自的意见。<!--En--></p>
]]></content:encoded>
			<wfw:commentRss>http://www.cnnick.com/shenghuoganwu/149.html/feed</wfw:commentRss>
		<slash:comments>9</slash:comments>
		</item>
		<item>
		<title>暗网抓取（Deep Web Crawling）技术</title>
		<link>http://www.cnnick.com/seobiji/144.html</link>
		<comments>http://www.cnnick.com/seobiji/144.html#comments</comments>
		<pubDate>Mon, 06 Feb 2012 14:52:43 +0000</pubDate>
		<dc:creator>NICK</dc:creator>
				<category><![CDATA[SEO笔记]]></category>
		<category><![CDATA[搜索引擎]]></category>

		<guid isPermaLink="false">http://www.cnnick.com/?p=144</guid>
		<description><![CDATA[所谓暗网，是指目前搜索引擎爬虫按照常规方式很难抓取到的互联网页面。众所周知，搜索引擎爬虫依赖页面中的链接关系发现新的页面，但是很多网站的内容是以数据库方式存储的。典型的例子是一些垂直领域网站，比如携程旅游网的机票数据，很难有显示链接指向数据库内的记录，往往是服务网站提供组合查询界面，只有用户按照需求输入查询之后，才可能获得相关数据。所以，常规的爬虫无法索引这些数据内容，这是暗网的命名由来。 &#160; 为了能够对暗网数据进行索引，需要研发与常规爬虫机制不同的系统，这类爬虫被称为暗网爬虫。 暗网爬虫的目的是将暗网数据从数据库中挖掘出来，并将其加入搜索引擎的索引，这样用户在搜索时便可以利用这些数据，增加信息覆盖程度。 对于暗网爬虫来说，一个简单粗暴的方式是：将各个输入框肯呢过的输入值组合起来形成查询，比如机票查询来说，将所有出发城市、所有目的城市和时间范围的选项一一组合，形成大量的查询，提交给垂直搜索引擎，从其搜索结果里提炼数据库记录。 &#160; GOOGLE对此提出了解决方案，称之为富含信息查询模块技术。 如上图，为了描述一个职位，完整的查询由3个不同的属性构成：出发城市、到达城市和出发日期。如果在搜索引擎提交查询的时候，部分属性被赋予了值，而其他属性不赋值，则这几个赋值属性一起构成了一个查询模块。 如果模块包含一个属性，则称之为一维模块。图中模块1是一维模块，模块2和模块3是二维模块，模块4是三维模块。 模块1={出发城市 } 模块2={出发城市，到达城市 } 模块3={到达城市，出发日期 } 模块4={出发城市，到达城市和出发日期 } 对于某个固定的查询模块来说，如果给模块内每个属性都赋值，形成不同的查询组合，提交给垂直搜索引擎，观察所有返回页面的内容，如果相互之间内容差异较大，则这个查询模块就是富含信息查询模块。但是这将是一个庞大的查询组合基数，为了进一步减少提交的查询数目。GOOGLE的方案使用了ISIT算法。 &#160; ISIT算法的基本思路是：首先从一维模块开始，对一维查询模块逐个查询，看其是否富含信息查询模块，如果是的话，则将这个一模模块扩展到二维，再次依次查询对应的二维模块，如此类推，逐步增加维数，直到再无法找到富含信息查询模块为止。通过这种方式，就可以找到绝大多数富含信息查询模块，同时也尽可能减少了查询总数，有效达到了目的。]]></description>
			<content:encoded><![CDATA[<p>所谓暗网，是指目前搜索引擎爬虫按照常规方式很难抓取到的互联网页面。众所周知，搜索引擎爬虫依赖页面中的链接关系发现新的页面，但是很多网站的内容是以数据库方式存储的。典型的例子是一些垂直领域网站，比如携程旅游网的机票数据，很难有显示链接指向数据库内的记录，往往是服务网站提供组合查询界面，只有用户按照需求输入查询之后，才可能获得相关数据。所以，常规的爬虫无法索引这些数据内容，这是暗网的命名由来。</p>
<p><a href="http://www.cnnick.com/wp-content/uploads/2012/02/225844.jpg"><img class="alignnone size-medium wp-image-147" title="暗网抓取技术" src="http://www.cnnick.com/wp-content/uploads/2012/02/225844-227x300.jpg" alt="暗网抓取技术" width="227" height="300" /></a></p>
<p>&nbsp;</p>
<p>为了能够对暗网数据进行索引，需要研发与常规爬虫机制不同的系统，这类爬虫被称为暗网爬虫。</p>
<p>暗网爬虫的目的是将暗网数据从数据库中挖掘出来，并将其加入搜索引擎的索引，这样用户在搜索时便可以利用这些数据，增加信息覆盖程度。</p>
<p>对于暗网爬虫来说，一个简单粗暴的方式是：将各个输入框肯呢过的输入值组合起来形成查询，比如机票查询来说，将所有出发城市、所有目的城市和时间范围的选项一一组合，形成大量的查询，提交给垂直搜索引擎，从其搜索结果里提炼数据库记录。</p>
<p>&nbsp;</p>
<p>GOOGLE对此提出了解决方案，称之为富含信息查询模块技术。</p>
<p>如上图，为了描述一个职位，完整的查询由3个不同的属性构成：出发城市、到达城市和出发日期。如果在搜索引擎提交查询的时候，部分属性被赋予了值，而其他属性不赋值，则这几个赋值属性一起构成了一个查询模块。</p>
<p>如果模块包含一个属性，则称之为一维模块。图中模块1是一维模块，模块2和模块3是二维模块，模块4是三维模块。</p>
<p>模块1={出发城市 <!--EndF-->}</p>
<p>模块2={出发城市，到达城市 <!--EndFragment-->}</p>
<p>模块3={到达城市，出发日期 <!--EndFragment-->}</p>
<p>模块4={出发城市，到达城市和出发日期 <!--EndFragment-->}</p>
<p>对于某个固定的查询模块来说，如果给模块内每个属性都赋值，形成不同的查询组合，提交给垂直搜索引擎，观察所有返回页面的内容，如果相互之间内容差异较大，则这个查询模块就是富含信息查询模块。但是这将是一个庞大的查询组合基数，为了进一步减少提交的查询数目。GOOGLE的方案使用了ISIT算法。</p>
<p>&nbsp;</p>
<p>ISIT算法的基本思路是：首先从一维模块开始，对一维查询模块逐个查询，看其是否富含信息查询模块，如果是的话，则将这个一模模块扩展到二维，再次依次查询对应的二维模块，如此类推，逐步增加维数，直到再无法找到富含信息查询模块为止。通过这种方式，就可以找到绝大多数富含信息查询模块，同时也尽可能减少了查询总数，有效达到了目的。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.cnnick.com/seobiji/144.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>

