:<![CDATA[郝聪SEO博客:网站SEO顾问 - JƱƽ̨J©JԨJ׬淨J̳J //www.2w0f.cn/index.php 为商业网站制定整体SEO战略,创造庞大搜索流量,为企业网站提升关键词排名,带动产品销售。为发展助力,成就你我!]]> zh-cn //www.2w0f.cn/https-website-index-http-301/ <![CDATA[ https站点如何建设才能对百度友好]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Wed, 10 Jun 2015 02:15:13 +0000 //www.2w0f.cn/https-website-index-http-301/ 2015??5日,百度站长平台发布公告,宣布全面放开对https站点的收录,https站点不再需要做任何额外工作即可被百度抓收。采用了本文之前建议的https站点可以关闭http版,或者将http页面跳转到对应的https页面?/p>

百度搜索引擎目前不主动抓取https网页,导致大部分https网页无法收录。但是如果网站一定要使用https加密协议的话该如何做到对百度搜索引擎友好呢。方法如下:

        
  1. 为需要被百度搜索引擎收录的https页面制作http可访问版?/span>
  2.     
  3. 通过user-agent判断来访者,?/span>Baiduspider定向?/span>http页面,普通用户通过百度搜索引擎访问该页面时,通过301重定向至相应?/span>https页面。如图所示,上图为百度收录的http版本,下图为用户点击后会自动跳入https版本?/span>
        
        
  4.     
  5. http版本不是只为首页制作,其它重要页面也需要制作http版本,且互相链接,切不要出现这种情况:首页http页面上的链接依然链向https页面,导致Baiduspider无法继续抓取——我们曾经遇到这种情况,导致整个网点我们只能收录一个首页?/span>
        如下面这个做法就是错误的://www.abc.com/ 链向https://www.adc.com/bbs/
  6.     
  7. 可以将部分不需要加密的内容,如资讯等使用二级域名承载。比如支付宝站点,核心加密内容放在https上,可以让Baiduspider直接抓取的内容都放置在二级域名上?br />    

Tags - , ]]>
//www.2w0f.cn/baidu-cancel-referer-through-https/ <![CDATA[百度将逐步取消referer 令站点数据更安全]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Fri, 15 May 2015 08:05:52 +0000 //www.2w0f.cn/baidu-cancel-referer-through-https/ 百度已全站https化,在BAT中率先实现全站https加密,以推动网络环境安全。同时,百度将逐步取消referer中关于关键词的显示,保护站点 流量关键词数据信息,第三方将不再可以轻易地窃取到流量关键词,令站点数据更加私密化。站长需要获得网站流量关键词时,可以使用百度站长平台提供的搜索关键词工具或者百度统计相关功能进行查询?/p>
Tags - , , , ,
, , , , ]]> //www.2w0f.cn/baidu-webmaster-salon-beijing-20131122/ <![CDATA[百度站长平台高端站长沙龙(北京站)精华内容分?]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Thu, 28 Nov 2013 02:40:10 +0000 //www.2w0f.cn/baidu-webmaster-salon-beijing-20131122/ 11 ?2日晚,百度站长平台主办的高端站长沙龙-北京站在知春路丽亭华苑酒店咖啡厅召开,这是今年继10?6日上海站之后百度站长平台高端站长沙龙的第?站。来自新浪、搜狐、凤凰网、搜房、艺龙、易车等60余家北京当地知名网站的互联网精英齐聚一堂,就百度网页搜索、百度站长工具、百度移动搜索、百度云?等重要产品的合作展开了深入的交流?/p>

11?2日北京站.JPG

沙龙精华内容分享?br />一、Lee 分享主题:基于深度数据挖掘及用户行为分析的搜索引?br />Lee对百度最近推出的知心搜索和SNS用户行为在搜索中的应用进行了详细介绍,描绘了百度新搜索的发展蓝图?br />分享内容下载?基于深度数据挖掘及用户行为分析的搜索引擎_百度Lee.pdf

二、百度站长平?曹丽丽:
分享主题:玩转流?mdash;百度的SEO+SMO工具
从站长平台与站长的故事、站长怎样跟搜索引擎互动及怎样合理利用站长工具帮助网站运营三部分介绍了百度站长平台?br />分享内容下载?玩转流量-百度的SEO+SMO工具_曹丽?pdf

三、百度移动搜索罗旭剑?br />分享主题:百度移动搜索介?br />全面介绍了百度移动搜索,并为站长解答移动搜索优化和变现的相关问题?br />分享内容下载?nbsp;  站长沙龙移动搜索介绍.pdf

四、百度云?马杰?br />分享主题:百度云图介?br />百度云图通过挖掘图片背后的故事、建设图片相关内容网络,让用户能够通过一张图片了解更多更全面的信息,让用户能够更好的了解真相,感知世界?br />分享内容下载?nbsp;  百度云图产品介绍.pdf


Tags - , ]]>
//www.2w0f.cn/soso-seo-standard/ <![CDATA[搜搜SoSo搜索引擎优化SEO规范]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Tue, 29 Jan 2013 10:01:44 +0000 //www.2w0f.cn/soso-seo-standard/ 前言

搜索引擎优化,即SEO(Search Engine Optimization),指为了提升网?网页在搜索引擎搜索结果中的收录数量和排序位置,为了从搜索引擎中获取更多免费流量、高质量用户,针对搜索引擎的检索特点、排序规律,合理调整优化网站设计和建设方法,使其符合搜索引擎的检索规则的网站建设、网站运营行为。除此之外,SEO工作还有利于搜索引擎快速收录新页面,提高收录覆盖率的效果?/p>

SEO?a href="//www.2w0f.cn/category/online-marketing/" target="_blank" title="//www.2w0f.cn/category/online-marketing/" class="mykeyword">网络营销的重要手段,通过了解搜索引擎工作原理和用户需求,在尊重搜索引擎用户价值的前提下,对网站进行合理优化,可以获取更多的用户、流量和品牌。SEO具有成本低、易操作、有益于用户体验等特点,是网站自我营销时必须重视的一个环节?/p>

搜索引擎简介和SEO基础

搜索引擎及其用户价?/strong>

搜索引擎,是对互联网的数据信息进行收集、整理,并提供检索查询服务的系统。搜索引擎擅长理解用户搜索需求、对海量数据抓取、信息甄别和打分、快速查询等工作?/p>

搜索引擎根据用户的检索查询要求,对数据信息进行打分排序,并按照顺序输出呈现,帮助用户方便、快速、准确、全面地找到所需信息,这是搜索引擎最重要的用户价值?/p>

[提示]一切SEO工作,都应以遵循搜索引擎工作原理和用户价值为前提?/p>

白帽SEO和黑帽SEO

白帽SEO,指通过合理优化网站,提升用户体验,与搜索引擎良好交互,真实反映网站质量和权威性的搜索引擎优化方法?/p>

黑帽SEO,以搜索引擎禁止的方法影响搜索引擎排?作弊),与用户价值和搜索体验相背离,以短期利益为主要目标的搜索引擎优化方法。搜索引擎会维护互联网网站的公正排序,给用户提供正确合理的搜索结果,而黑帽SEO的做法与此相违背?/p>

搜索引擎在不断通过技术革新、策略优化来识别作弊行为。任何利用搜索引擎的策略缺陷漏洞,利用恶意手段获取与网页质量不符的排名,引起用搜索结果质量和用户搜索体验下降的行为都可能被搜索引擎识别为作弊行为。对待作弊行为,轻则被搜索引擎剥夺作弊权重,重则可能整个网站被搜索引擎拒绝收录?/p>

搜索引擎工作流程?/strong>

 搜索引擎工作流程? src=

[提示]对外,面向用户和整个互联网内容;对内,分为抓取、索引、检索几个重要模块?/p>

搜索引擎爬虫

搜索引擎的爬虫程序(也叫Spider、蜘蛛、爬虫机器人),是搜索引擎收集信息、数据的工具。爬虫程序不断发现和下载互联网网页,这个过程是互联网网页进入搜索引擎内部必须经历的一关?/p>

爬虫程序擅长:分配下载资源,海量并发下载,读取文字(特别是网页文本),分析站点地图并依此指引抓取页面。相反爬虫程序不擅长:读取图片、flash、JS、Ajax、frame,深层次、持续性抓取,读取有权限控制的页面,发现孤岛页面?/p>

针对爬虫程序的SEO工作应该根据其特点针对性进行?/p>

搜索引擎爬行轨迹示意? src=

[提示]搜索引擎爬行轨迹示意?/p>

搜索结果排序

搜索引擎通过理解用户搜索词、对数据进行检索,可以得到诸多可能的搜索结果。对这些结果的排序要靠成百上千的相关性策略实现?/p>

相关性排序的目的是将结果按照对用户价值的高低排列,整个排序过程会参考网站、页面的相关度、质量、时新性、权威性等诸多因素综合考察?/p>

SEO工作很大一部分跟搜索引擎相关性策略有关,简单来讲即通过SEO来告诉搜索引擎:哪些页面更有价值,哪些页面更搜索词更相关,而应该被排序到更靠前的位置?/p>

网站建立

域名注册

域名是网站的重要品牌印象。域名注册时应选择简单、易记、方便输入、贴近网站名称、能反映网站内容的域名。如fanli.qq.com、www.paipai.com?/p>

域名一旦选定,不应随意变更;同一网站拥有多个域名应确定主要域名,并设置其他域名向主要域名跳转?/p>

服务部署和网站上?/strong>

网站需要部署上线才能被用户访问?/p>

租用/购买安全可靠、高速稳定的服务器部署网站,是用户访问体验的有效保障,同时会影响搜索引擎爬虫的爬取?/p>

网站部署上线并进行域名解析后,即面向用户开发访问,同时也意味着向搜索引擎爬虫开放?/p>

让搜索引擎发现网?/strong>

新建立的网站是互联网中的孤岛,搜索引擎也很难发现和收录它。在网站建立之初,可以将网站推荐给搜索引擎或者引导爬取收录?/p>

        
  • 向搜索引擎提交网站域名或入口。如向SOSO的提交新网站,//www.soso.com/help/usb/urlsubmit.shtml?/li>    
  • 建立外链,如创建友情链接、向导航网站申请收录等;
  •     
  • 网站建立之初可重点经营内容列表页,在不影响用户体验的前提下,方便搜索引擎爬虫一次发现更多链接?/li>

内容建设

树型扁平网状结构

层级分明的树型扁平网状结构是较理想的网站部署结构,每个页面与其父子页面有链接关联,可以帮助用户快速定位到感兴趣的频道、正文,也有利于搜索引擎理解网站结构层次和更好的爬取内容?/p>

 属性扁平网状结? src=

        
  • 明确区分出,网站首页、列表页/索引?频道页、内容页,根据各个页面所在层级用链接相连,无孤岛页面?/li>    
  • 层级、各层级分支内容不要过多,便于搜索引擎爬虫爬取;
  •     
  • 内容和质量相似的页面组织在同一层级/目录中,便于搜索引擎进行聚合挖掘?/li>    
  • 越重要的内容,越应放置于高层级位置,或在高层级页面中有链接直接可达;

 

[提示]腾讯网新闻频道,头条新闻放置于醒目位?/p>

        
  • 在页面中建立导航链接、面包屑,便于用户和爬虫理解网站结构和在不同层级内容间跳转;
  •     
  • 站点中新的内容应该尽量在深度较浅的列表页或首页发布入口,便于被搜索引擎爬虫快速发现?/li>

页面标题

页面标题是页面内容的重要标识,准确简洁的标题有助于用户快速识别页面内容。页面标题会被搜索引擎展现在搜索结果列表中,是用户通过搜索进入网站页面的重要入口?/p>

        
  • 标题内容在页面代码中?lt;title>标签包围,会被展现在搜索结果页、浏览器标题、页面标签、任务栏等位置,是用户识?区分页面的重要依据;

 

        
  • 标题内容是页面的最佳概括,应当主题明确,突出重点,内容不宜过长?/li>    
  • 每个页面都应该拥有标题内容,避免不写标题,或无意义标题(?ldquo;无标题文?rdquo;?ldquo;网站建设?rdquo;);
  •     
  • 避免不同页面使用相同标题(甚至全站公用相同标题)?/li>    
  • 不在标题内容中堆砌关键词,避免影响可读性和被判作弊?/li>    
  • “标题?rdquo;?ldquo;文不对题”对用户搜索体验和搜索引擎收录排序均有副作用,应坚决杜绝?/li>

Meta信息

Meta信息中,keywords和description分别以关键词和概括摘要两种方式描述页面内容,会被搜索引擎特别关注?/p>

keywords部分应填入最能表现页面内容的几个关键词,词与词之间以半角逗号间隔开?/p>

description部分应填入一段介绍页面内容的文字,这段文字有可能被搜索引擎选取作为结果摘要。网站首页、索引页、频道入口等无大篇幅页面正文的页面,应该尽可能提供description信息?/p>

keywords和description信息缺失不会对排序权重产生直接影响;在keywords和description信息中堆砌关键词作弊可能受到搜索引擎惩罚?/p>

 

腾讯网的description信息?/p>

 

腾讯网在网页搜索结果中的摘要展现?/p>

 

链接

制定规范统一、简洁、可读的url,有利于搜索引擎的收录和排序,也会方便用户识别页面内容,记录和输入链接?/p>

每个页面都应拥有其独一无二的正常态url?/p>

        
  • 网站内统一使用正常url,不出现异常url?/li>    
  • 指向同一页面异常url,应跳统一跳转到正常url上;
  •     
  • 必须带有参数的url需要精简参数个数和内容,对页面功?展现无作用(如统计参数)的应尽量去除?/li>

链接结构设计建议?/strong>

        
  • url结构的设计应同时考虑用户和搜索引擎的需求,方便用户识别、记忆,并利于搜索引擎爬取和展现?/li>    
  • url应尽量短。较短的url会在搜索结果页完全展现,方便用户通过读取其以了解页面内容,也易于记忆和传播。搜索引擎本身不会对url进行限制,排序跟url长度无关?/li>    
  • url目录层级越少越好。层级过多的url设计可能对搜索引擎的爬取形成障碍,使得收录变少或不收录;
  •     
  • url中目录名、文件名应具有描述性,不使用无意义的名称;
  •     
  • url中尽量只使用小写字母或数字,特别注意不要使用特殊字符,如“.”“,”“;”等;
  •     
  • 去除url中不必要参数和静态化。无论动态或静态url ,搜索引擎均可正常爬取和检索,但建议尽量精简去除url中不必要的参数,特别是与页面功能/展现无关的参数?/li>

锚文本设计建?/strong>

        
  • 链接应选择文字作为链接描述,即锚文本,尽量少使用图片作为链接内容,必须使用图片时,应同时使用alt标记补充文字描述,不要用flash、js替代文本链接(特别是重要入口);
  •     
  • 锚文本应简洁精炼,明确描述页面内容;不要在锚文本里编写与页面内容无关的文字,更不要堆砌关键词或?ldquo;标题?rdquo;?/li>    
  • 非必要的情况下,不要使用url本身作为锚文本?/li>

链接设计GoodCase

        
  • //finance.qq.com/stock,//t.qq.com/liuxiang,子域名、目录描述了页面主题或内容;
  •     
  • //finance.qq.com/a/20110317/005789.htm,新闻页面目录标识了发布日期?/li>

链接设计BadCase

        
  • 链接url为js生成,搜索引擎无法爬取到链接指向页面?/li>

 

 

        
  • //7.sixjoy.com/webplat/info/news_version3/87/97/98/99/m51/201103/2763.shtml,链接陷?黑洞,这类url目录构造对用户和搜索引擎均无意义,搜索引擎可能不会爬取或者不索引这类url?/li>    
  • 锚文本内容无意义。类?ldquo;更多”“返回”的文本对页面内容的描述没有贡献,不建议使用?/li>

        
  • 首页链接全部在flash内部,无法获取更多站内链接,同时结果页摘要显相关较差?/li>

        
  • 全站页面标题全部相同,无法体现页面内容,在搜索结果和浏览器中均不易让用户识别,同时搜索引擎无法通过标题了解页面内容?/li>

 

页面内容和服?/strong>

提供高质量的网站内容和服务是网站的立足之本,同时也是影响搜索引擎对网站内容评价的重要因素和指标?/p>

提供围绕网站主题或页面主题的内容或数据,自然、美观的书写页面内容,满足用户的阅读需求,这是对用户最有价值的服务?/p>

        
  • 给用户提供便于阅读的页面。页面布局合理,突出展现重点内容,内容间有主次、段落,避免一大堆文字的粗暴罗列;
  •     
  • 在页面中放置面包屑导航。面包屑对用户辨识页面作为位置、层级有帮助,还能快速在不同频道间切换。SOSO音乐/SOSO问问/腾讯网新闻频道的面包屑导航:
  •     
  • 提供与众不同的原创内容或服务,避免抄袭内容或重复发布相似、相同内容;
  •     
  • 与主题不相关或弱关性的内容,如广告、站内推广链接等,应放置于页面次要内容,并且不占用过多篇幅;
  •     
  • 不要有拼写错误或错别字?/li>

 

同时,页面内容建设也照顾搜索引擎读取页面?ldquo;感受”?/p>

        
  • 页面正文用文本书写,不要用图片、flash代替,或用ajax生成?/li>    
  • 站内导航和面包屑易于搜索引擎爬取页面、获取锚文本和分析链接权重;
  •     
  • 使用图片作为内容时,为图片添加alt信息,图片文件使用简洁直白的命名(类似给页面的命名)?/li>    
  • 不要使用iframe构造页面?/li>

robots.txt和Sitemap

robots.txt和sitemap是站长和搜索引擎交流的工具,为搜索引擎的爬取、收录、排序行为提供参考。robots.txt和sitemap均不涉及对用户体验的直接影响?/p>

robots.txt?/strong>

        
  • robots.txt文件,需要准确命名为”robots.txt”(文件名小写,扩展名为txt?,放置于网站域名的根目录下,能被正常访问?/li>    
  • 可以使用robots.txt限制搜索引擎爬虫访问某些页面、目录或者整合网站。如供网站管理员使用的在线管理系统,或用户隐私信息页面,均可以此方法控制?/li>    
  • 可以在robots.txt指定sitemap地址?/li>

User-agent: *

Disallow: /admin/

Disallow: /ads/

Sitemap: //www.soso.com/sitemap.xml

[提示]以上是一段robots.txt文件的示例。标识了拒绝搜索引擎访问的路径和sitemap地址

Sitemap?/strong>

        
  • Sitemap中可以指定url的更新时间、更新频率、相对权重等信息?/li>    
  • 重要的url应该出现在Sitemap中,给予较高权重?/li>    
  • 搜索引擎会参考Sitemap中的信息进行爬取、索引和排序,但不会完全遵守?/li>

其他

        
  • 搜索引擎在响应网站内容变化需要时间,特别是针对网站内容建设的SEO是逐渐生效的,改变网站几个页网页内容就能迅速提高网站排名的观点是错误的?/li>    
  • 搜索引擎对于不符合规范的网站建设方式或者过度SEO有一定容忍能力,并不会因为网站建设不当而直接拒绝爬取、收录、索引某个网站;
  •     
  • 面向SEO的网站建设策略和用户体验应兼顾,甚至更多考虑用户体验,避免为了SEO而SEO?/li>

网站运营和推?/h2>

面向用户的网站运营和推广工作,可以起到引入和沉淀用户、建设网站口碑、增强用户黏性的作用。而然,网站运营和推广同样可以在SEO工作中发挥作用,下面从这个维度来简单介绍?/p>

内容运营

        
  • 原创内容建设

网站建设以内容为王,在内容质量、原创、全面、权威等方面有优势的网站,更容易赢得用户好感,同时也会赢得搜索引擎收录和排序的倾向?/p>

搜索引擎非常喜欢原创内容(特别是对于新站来说)在网站上主动发布或引导用户来发布原创内容,增加原创内容比例,会让搜索引擎更快收录,同时在内容排重、排序上占得优势?/p>

        
  • 规律的内容维?/li>

规律的内容更新时间和更新规模,有助于搜索引擎合理调度爬虫进行抓取。更新较快较多的网站,也容易赢得搜索引擎爬虫的高频率光顾?/p>

        
  • 广告内容运营

广告能为网站带来收入,是网站运营不能回避的运营工作。从SEO角度看来,也有些应注意的优化点?/p>

网站内容和广告内容应区分出主次,突出页面核心内容,利于搜索引擎理解页面内容,而不应满屏广告;

广告内容应配合页面内容,与页面内容、主题相关(搜索引擎爬虫可能采集广告内容作为页面正文);

不要将广告内容伪装成页面正文或链接,诱导点击?/p>

增加外链和积累有效锚文本

站外链接和锚文本是网站的重要SEO资源,承担着入口、页面内容识别、权重引入等诸多参与搜索引擎爬取、排重、排序工作的信息。对外链和锚文本的建设,是SEO工作中极重要的一环?/p>

以下是一些外链、锚文本建设的建议:

        
  • 互换友情链接、申请导航站收录?/li>    
  • 建设外链资源时,应合理设置锚文本,尽量不要以url做锚文本?/li>    
  • 不止网站首页需要外链,二级列表页、专题页、频道首页、特色页面等,同样需要外链建设;
  •     
  • 可以发布网站功能特色介绍的文章,期间包含网站外链?/li>    
  • 博客博文、微博、论坛帖子中出现的网站链接,对外链和锚文本建设有益,可将网站介绍文章转发于此,但不要泛滥建设?/li>    
  • 博客评论区、留言板、bbs签名?等非主要区域的外链价值极低,可能被搜索引擎忽略;
  •     
  • 外链、锚文本应避免泛滥建设,否则可能被判为作弊?nbsp;

用户推荐和评?/strong>

用户有鉴别内容质量的能力,通过用户对网站内容的推荐和评价,可以帮助网站筛选好的内容,甚至制造外链?/p>

        
  • 建立用户对内容投票机制,获取用户评价?/li>    
  • 提供方便的分享工具,可将内容推荐到其他产品平台,形成有价值外链;

[提示]一个常见的分享功能设计

培养用户黏性,并适当鼓励用户对朋友推荐网站内容(包括在IM、博客、论坛等平台上推荐)?/p>
Tags - , , , , ]]> //www.2w0f.cn/baiduspider-ip-authority/ <![CDATA[【SEO必备】百度蜘蛛IP段大全与权重说明]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Fri, 18 Jan 2013 08:24:30 +0000 //www.2w0f.cn/baiduspider-ip-authority/ 网站页面索引量是衡量一个网站SEO竞争力的重要指标,可以说索引量越大,网站搜索排序权重越高,获得百度搜索流量的机会越大,因此,通过百度站长平台(Google管理员拿工具)提交sitemap索引文件便成为一项重要的SEO工作,这可以帮助百度快速索引网站页面。当然,并不是每个网站都能成功申请Sitemap提交权限,百度的同学特别注明过:不会给缺乏有价值内容的企业网站开通Sitemap提交权限?a target="_blank" >号外:百?013新年贺礼,百度站长平?000个sitemap权限限时送出

百度2013新年贺礼:百度站长平?000个sitemap权限限时送出

提交sitemap的方法在此不做赘述,重点分享一下近期提交百度sitemap索引文件时遇到的一个问题:

百度的同学向我确认:sitemap索引文件的抓取确定是使用baiduspider这个user-agent,而非某个特定用途的user-agent,而网站robots并没有屏蔽baiduspider,甚至对baiduspider完全开放,那么为什么会出现无法抓取索引文件的情况呢?/p>

原因?个:

1、sitemap索引数据文件中的URL被robots文件屏蔽了。(如果robots文件屏蔽了某个目录,而某个URL中包含被屏蔽的目录,则会造成该问题)

2、百度spider IP被屏蔽了。(通过确认,运维人员发现某个IP在短时间内到网站抓取了大量数据占用了很大的带宽,因此把该IP给屏蔽掉了,结果可想而知,这个IP恰恰就是baiduspider众多IP地址中的一个。)

百度目前并没有公布baiduspider的所有IP地址列表,这也是产生上述问题的原因之一,我们也不能要求网站运维人员完全以搜索引擎友好型原则为出发点时刻为baiduspdier敞开大门,而且baiduspider的的确确经常占用大量服务器带宽资源,这都是现实情况。不过可喜的是:百度站长平台接下来会为网站管理员提供“检测IP是否是baiduspider”的功能,那个时候问题就变得简单了,网站运维人员只需到站长平台核实一下就清楚知道他应该如何处理某?ldquo;问题IP”了?/p>

而在“检测IP是否是baiduspider”的功能上线之前,为避免类似因为屏蔽IP地址而给搜索引擎抓取与排序造成重大影响问题的出现,我们只能参考有心人公开的数据来综合考虑了。有经验的站长向我推荐了123cha.com的IP查询,它会标示出所查询的IP是否是baiduspider,而且数据相对准确和完整。除此之外,我还找到了目前网上分享出来的常见百度蜘蛛IP地址以及对该IP权重的说明,在此只传播与分享,不对准确性进行核实?/p>

        
  1. 123.125.68.*这个蜘蛛经常?别的来的?表示网站可能要进入沙盒了,或被者降权?/li>    
  2. 220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K站?/li>    
  3. 220.181.7.*?23.125.66.* 代表百度蜘蛛IP造访,准备抓取你东西?/li>    
  4. 121.14.89.*这个ip段作为度过新站考察期?/li>    
  5. 203.208.60.*这个ip段出现在新站及站点有不正常现象后?/li>    
  6. 210.72.225.*这个ip段不间断巡逻各站?/li>    
  7. 125.90.88.* 广东茂名市电信也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的?/li>    
  8. 220.181.108.95这个是百度抓取首页的专用IP,如?20.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的,我保证?/li>    
  9. 220.181.108.92 同上98%抓取首页,可能还会抓取其?(不是指内?220.181段属于权重IP段此段爬过的文章或首页基?4小时放出来?/li>    
  10. 123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章?/li>    
  11. 220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来?/li>    
  12. 220.181.108.75重点抓取更新文章的内页达?0%?%抓取首页?%其他。权重IP 段,爬过的文章或首页基本24小时放出来?/li>    
  13. 220.181.108.86专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新?/li>    
  14. 123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章?/li>    
  15. 123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章?/li>    
  16. 220.181.108.89专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新?/li>    
  17. 220.181.108.94专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新?/li>    
  18. 220.181.108.97专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新?/li>    
  19. 220.181.108.80专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新?/li>    
  20. 220.181.108.77 专用抓首页IP 权重段,一般返回代码是304 0 0 代表未更新?/li>    
  21. 123.125.71.117 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章?/li>    
  22. 220.181.108.83专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新?/li>    
  23. 注:以上IP尾数还有很多,但段位一样的123.125.71.*段IP 代表抓取内页收录的权重比较低.可能由于你采集文章或拼文章暂时被收录但不放出?(意思也就是说待??/li>    
  24. 220.181.108.*段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的,这点我可以保证!
  25.     
  26. 一般成功抓取返回代码都?200 0 0返回304 0 0代表网站没更新,蜘蛛来过,如果是 200 0 64别担心这不是K站,可能是网站是动态的,所以返回就是这个代码?/li>

Tags - , , , , ,

百度外链工具

百度外链工具功能升级

对比外链工具升级前后的数据截图,我们不难发现?/p>

1、功能升级之后,可以查询任何网站的外链数据?/p>

这个功能本身对网站SEO优化意义极大,一般情况下,通过SEO项目经验即可大体获知竞争对手的网站内部优化方面的SEO策略(比如:landing page、tilte、content block、links relation等),而目前市面上并没有很好的SEO外链分析工具(Google管理员工具也仅能获取自身网站的外链数据),试想一下,如果获取到竞争对手网站的外链来源构成、来源数量、锚文本构成,那么在SEO外链建设上就可以有的放矢,甚至可以做到量化指标与指定站点,直至在外链数据上超越竞争网站?strong>我们得承认,SEO会变得越来越透明的,这也许是一件好事情?/p>

我不得不给读者浇上一盆冷水,实际上这个工具目前在SEO上的可用性还不够强,因为最重要?ldquo;链接锚文本数?rdquo;没有汇总自然也无法排序。目前我们可以通过排序获知哪些域为网站奉献的外链最多,?strong>百度并没有针对外链锚文本进行数据维度的汇总(类似Google管理员工具里的Anchor Text?/strong>,当然也可能是百度并不想汇总,关于这点我会向百度的同学反馈?/p>

2、功能升级之后显示的外链数据更加准确,而且数据量更大?/p>

从图片中?ldquo;外链总数”可以发现升级前后的外链数据是有差异的:升级之前的外链总数?933,默认每页显示的链接域名数是20条,最多提?页数据,即最大数据量?0;升级之后的外链总数?572,默认每页显示的链接域名数仍然是20(但在表格右下可以调节每页展示条目数,最多可以每页显?00条数据),翻页最高到?3页,即最大数据量?52,这真的是一个让人充满想象力的数字啊?img alt="" src="//www.2w0f.cn/editor/fckeditor/editor/images/smiley/msn/whatchutalkingabout_smile.gif" />

百度外链工具功能升级

百度外链工具功能升级

接下来,通过上图我们来看看百度在数据细节方面做了哪些改进,以blogbus.com这个外链源站点为例:

        
  • 改进之处一:链接URL中的包含汉字能够正确识别了,而升级之前是乱码
  •     
  • 改进之处二:链接URL本身设计为可直接点击,而升级之前是纯文本,这就是传说中?a href="//www.2w0f.cn/category/ue/" target="_blank" title="//www.2w0f.cn/category/ue/" class="mykeyword">用户体验改进,避免用户到浏览器的网址框Ctrl+C/Ctrl+V,提升用户的操作感受?/li>    
  • 改进之处三:链接URL数据虽然变少了,但是更加精准了,而升级之前有很多链接URL已失效了(亲测哦);可惜无法确定数据的更新周期,到底是因为功能升级才更新的数据,还是功能本身就已设定为默认按照一个周期进行更新呢?我争取向百度的同学求证?/li>

 

二、百度搜索关键词查询功能升级评测

百度搜索关键词查询功? /></a></p><p><a href=百度搜索关键词查询功能升? /></a></p><p>“热门关键?rdquo;?0条数据增加到500条(图片中示例站点属于数据规模较小的企业网站),大家可以看到功能升级之后显示了翻页。不过,对于索引量超过千万级别的大型互联网站而言?00条的搜索关键词数据偏少,特别是拥有海量信息且以长尾关键词作为搜索流量主要来源的站点,<strong class=通过搜索关键词数据我们可以找出网站哪方面的内容在百度排名上具有高权重,哪些网页更适合百度的搜索规?/strong>。期待下次版本可以再次提高数据展示量?/p>

功能升级之前,系统展示的10?ldquo;热门关键?rdquo;与百度统计真实的搜索来源关键词差异很大,很有可能是早期某个时间段内的数据并且一直没有更新,而功能升级之后,经过与百度统计数据参照比对,我发现新?strong>提供的热门关键词数据的参考价值明显提升,个人初步判定该项数据取自于百度统计,一部分是近期数据,一部分是历史数?/strong>。数据默认按?ldquo;展现?rdquo;排序。参考值有“展现?rdquo;?ldquo;点击?rdquo;?ldquo;点击?rdquo;?ldquo;网页链接举例”,这些排序条件涵盖了关键词热度、SERP真实点击量、SERP点击比率、关键词着陆页landing page?/p>

本次功能升级?ldquo;定制关键?rdquo;是一个亮点,“热门关键?rdquo;是系统按照一定的规则提供了,?ldquo;定制关键?rdquo;就是让用户自己设置关键词来获得关键词的相关数据,目前可设置的关键词数量上限是50个。通过“定制关键?rdquo;功能,就可以针对挖掘特定关键词的“展现?rdquo;?ldquo;点击?rdquo;?ldquo;点击?rdquo;?ldquo;网页链接举例”数据,而且,还可以下载CSV保存数据?/p>

关于上述的数据指标,经过取样数据分析,初步得出以下结?/span>?/p>

1?ldquo;热门关键?rdquo;是目标网站排名第一页的关键词,即只有关键词排名位于百度第一页,才能出现?ldquo;热门关键?rdquo;中;

2?ldquo;展现?rdquo;来源于百度指数(时间宽度为全部,但要排除用户搜索未到达第一页的情况,所以该数据比百度指数平均值要小,甚至对于某些词来说要小很多)

3?ldquo;点击?rdquo;开始分析判定为来源于百度统?ldquo;最??rdquo;搜索词带来的UV数,但经过多个取样数据发现,这个结论并不准确,我相信这个数据跟百度统计中通过百度搜索带来的老访客数有关系,鉴于时间有限不再做深入分析?/p>

三、Google网站管理员工?/strong>

Google网站管理员工? src=

Google网站管理员工具搜索关键词查询功能

四、Bing网站管理员工?/strong>

Bing网站管理员工具链接资源管理器

Bing?ldquo;链接资源管理?rdquo;不仅可以支持查询任何网站的外链资源,而且还可以按照链接锚文本、内?外链、域?网页URL进行筛选,甚至可以深入分析某个域下哪个URL为网站风险了外部链接,功能非常强大?/p>

Bing搜索关键字查询功? /></a></p><p>Bing的搜索关键词查询功能,可惜由于Bing在国内的市场占有率较低,因此,各方面数据都很小?/p><p><a href=Bing网站管理员工具关键字研究

类似于百度指数查询功能,而且提供相关搜索词,不过很多都是英文词,实际应用价值不是很大?/p>

作者:郝聪
原载?a href="//www.2w0f.cn">郝聪SEO博客
原文地址?a target="_blank" href="//www.2w0f.cn/baidu-webmaster-tools-update-20121122/">//www.2w0f.cn/baidu-webmaster-tools-update-20121122/
版权所有,转载请还注明出处?/p>


Tags - , , , ]]> //www.2w0f.cn/baidu-disease-keywordrank-beian/ <![CDATA[百度针对医疗病种关键词排名引入网站备案信息]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Fri, 09 Nov 2012 04:10:06 +0000 //www.2w0f.cn/baidu-disease-keywordrank-beian/ 目前只观察到4种备案类型:企业网站、个人网站、事业单位网站、暂无备案信息。(如果百度不是局限于医疗行业而是全行业铺开的话,这得让多少海外主机泪流满面?/p>

涉及范围:病种名称词和涉及到具体疾病治疗的相关词(疾病的治疗才会产生商业价值),疾病知识类关键词没有出现网站备案信息?/p>

目测标注?ldquo;暂无备案信息”的网站没有在?0位出现过,由于取样数据不多,此结论未必准确?/p>


Tags - , ]]>
//www.2w0f.cn/201210-hyperlink-spam-algorithm-update/ <![CDATA[关于超链作弊的算法升级]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Fri, 26 Oct 2012 10:00:22 +0000 //www.2w0f.cn/201210-hyperlink-spam-algorithm-update/ 尊敬的各位用户、站长朋友们,大家好!

近期,我们综合数据分析出的问题、用户及广大优质站长反馈的意见,即将对百度反作弊算法进行再一次的更新升级。本次百度系统算法升级,打击的主要对象为意图通过超链作弊的方式操纵网站在百度搜索结果中排名的行为。其中,包括对任一指向贵网站的链接或从贵网站导出的链接进行蓄意操纵的行为。操纵这些链接可能会影响到百度搜?结果的质量从而伤?a href="//www.2w0f.cn/category/ue/" target="_blank" title="//www.2w0f.cn/category/ue/" class="mykeyword">用户体验,同时亦伤害了大量勤恳建设网站内容的站长利益,恶性循环,导致互联网生态不健康发展,出现各种各样的利益群体剥削站长利益?我们希望通过本次算法升级可以达到两个切实目的:第一,进一步降低此种行为对用户体验的伤害;第二,维护勤恳建站的站长利益,从而将主要精力放在网站内容 建设上来。具体打击的蓄意操纵行为包括但不限于如下举例?/p>

        
  • 花钱购买或出售可以提升所谓网站权重的链接?/li>    
  • 通过创建大量的无价值网页或站点建立的交叉轮链;
  •     
  • 使用程序机在web2.0等网站大量的群发指向您网站的链接?/li>    
  • 通过扫描网站漏洞在高质量站点中加入隐藏链接;
  •     
  • 不具推荐意义的交换链接等?/li>

根据我们自己的评估及用户调研,本次算法更新将?%~4%的关键词搜索体验有所提升,算法准确率亦达到了相当高的程度,但仍不排除出现个别误伤的情况,如果您确信自己的网站被错误处理, 请通过百度站长投诉中心进行反馈。虽然我们无法一一进行回复,但对于每一个线上反馈,都会认真仔细的分析,并将分析结果体现到下一次升级中?/p>

同时,近期我们还将针对超链作弊的行为有更进一步的策略,请广大站长将更多的精力放在为互联网增加优质内容上。我 们会继续针对任何意图操纵搜索引擎排名的作弊行为进行打击,维护用户体验及绝大部分优质站长利益。倾听搜索用户声音的同时,加大与站长的交流,例如近期大 量站长反馈的买卖链接、黑链等行为,我们会在未来一到两个月内进行更进一步的识别处理。我们相信,只要坚持不懈的为用户提供高质量内容,在做任何决定 ?前,只要想清楚这样做是否对访问者有益而非单纯针对搜索引擎,肯定会得到用户的青睐。最后,感谢向我们反馈意见的用户及站长朋友?/p>
Tags - , , , , ]]> //www.2w0f.cn/baidu-algorithm-upgrade-rank-spam/ <![CDATA[百度算法升级,将影响作弊站点收录及低质站点的排序]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Wed, 22 Aug 2012 06:06:40 +0000 //www.2w0f.cn/baidu-algorithm-upgrade-rank-spam/ 尊敬的各位用户,亲爱的站长们,大家好?/p>

从上??底我们更新了反作弊算法以来,取得了不错的效果,搜索结果中的部分低质内容被清除,总体来看优质站点获得了更多的流量。但我们的算法升级并没有结束,最?我们在之前基础上增加了更多特征,将进一步降低低质结果在搜索中的展现。目的依然是使优质结果、原创网站得到更多的展现,从而提高用户的搜索体验,维护互 联网生态的公平健康发展。本次百度系统算法升级,打击的主要为胡乱采集?strong>超链作弊等影?a href="//www.2w0f.cn/category/ue/" target="_blank" title="//www.2w0f.cn/category/ue/" class="mykeyword">用户体验的网站,举例如下?/p>

1、乱采集内容,语句不通,读者无法从中获得需要的信息

   01.png  

  2、内容虽然可读,但是绝大部分文章是采集、复制自其他网站,本身没有原创内容?/strong>

   02.png  


 

3、网页中穿插堆积关键词或文章与主题不相关,企图欺骗搜索引擎,对搜索相关关键词的用户没有实质的帮助

   03.png  

  

04.png


4、冒充官网欺骗用户,在title和meta标签中声明不真实

   05.png  

  

06.png

 

5、网站有大量违法或欺诈内容,可能造成用户财产安全损失

   07.png       08.png  

   根据我们的评估,本次算法更新将使4%~5%的关键词的搜索体验有所改善,算法准确率达到了相当高的程度,但仍不排除出现个别误伤的情况,如果您确信自己的站点被错误处理?请通过//tousu.baidu.com/webmaster/suggest 渠道进行反馈。虽然我们无法对反馈一一进行回复,但对于每一个线上反馈,都会认真仔细的分析,并将分析结果体现到下一次升级中?/p>

另外,我们会继续针对作弊行为的算法升级,例如对超链作弊进行更进一步的识别处理等。同时,坚持不懈的为用户提供优质原创内容的网站,也将进一步得到新算法的青睐?/p>

                                                                                                     百度网页搜索反作弊团?font face="Calibri"> 2012?font face="Calibri">8?font face="Calibri">22日星期三


Tags - , , ]]> //www.2w0f.cn/baidu-zhanzhang-web20-anti-spam/ <![CDATA[百度站长平台发布的Web2.0反垃圾详细攻略]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Wed, 15 Aug 2012 05:58:42 +0000 //www.2w0f.cn/baidu-zhanzhang-web20-anti-spam/ 一、web2.0站点与垃圾内?/p>

由于大多数web2.0建站系统存在漏洞,攻克技术成本较低,且群发软件价格低廉,容易被作弊者利用,近期我们发现大量web2.0站点被群发的垃圾信息困扰。这些垃圾群发内容无孔不入,除论坛、博客等传统的web2.0站点受到困扰外,现已蔓延到微博、SNS、B2B商情页、公司黄页、分类信息、视频站、网盘等更多领域内,甚至连新兴的分享社区也受到了影响。从以前的论坛帖子、博客日志,扩展到供求信息页、视频页、用户资料页,这些任何由用户填写和生成内容的地方,都会被作弊者发掘利用,形成大量的web2.0性质的垃圾页面?/p>

搜索引擎在发现web2.0性质的垃圾页面后必将做出相应应对,但对真正操作群发的作弊者很难有效的打击,所以作弊者容易利用web2.0站点极低成本且自身安全这些特点,做出更多危害网站、危害用户、危害搜索引擎的行为。若网站自身管理不严控制不力,很容易成为垃圾内容的温床;有些网站为了短期流量而对垃圾内容置之不理,这无异于饮鸩止渴。网站不应仅仅是平台的提供者,更应该是内容的管理者,积极维护网站自身质量非常重要。若网站任由垃圾内容滋长,不仅会影响网站?a href="//www.2w0f.cn/category/ue/" target="_blank" title="//www.2w0f.cn/category/ue/" class="mykeyword">用户体验,同时也会破坏网站口碑和自身品牌建设,造成正常用户流失,严重时,还会使搜索引擎降低对网站的评价?/p>

对于作弊者来说,在web2.0站点上发布垃圾内容的目的就是被搜索引擎收录,如果不能让垃圾页面在网站和搜索引擎上消失,他们依然会持续不断地产生更多垃圾内容。百度站长平台希望和站长一起打击垃圾页面,帮助网站良性发展,共同维护互联网生态环境?/p>

二、哪些内容会被百度判别为垃圾内容

一切对用户无意义,且会伤害用户的内容,就是垃圾内容。我们总结了以下几种比较典型的案例,以示说明:

1,与网站或论坛版块主题不符的内容

群发者通常都是大面积群发内容,多数情况下不会注意站点及版块主题,有时我们会在视频网站中见到“XXX医院治疗白癫风效果好”的内容,会在化妆品论坛发现航空公司的虚假电话,会在音乐网站中找到商品推销信息(当然不是卖CD的)等等。对于这些主题明确的站点或论坛,清理垃圾内容的意义不仅在于保证网站体验,也是从自身发展考虑维护用户忠诚度,提高核心竞争力的事情。举例:

//cang.baidu.com/cases99/snap/79ff52406a9358986d115dc8.html  网站主题为化妆品,出?ldquo;找小?rdquo;等不良内容广?br />//cang.baidu.com/cases99/snap/f84bec4e99508525a9e67fce.html 网站主题为视频,出现明显商业广告性质的医疗信?/p>

2,欺骗搜索引擎用户的内容

1)垃圾信息为了在众多搜索结果中脱颖而出、吸引用户注意,通常会使用诱人的标题,或在内容中添加大量关键词,有别于真实用户发帖时使用自然语言表达的情况。举例:

//cang.baidu.com/cases99/snap/c2c0b07346650b4d292e0368.html “优酷土豆%守望的天?9?rdquo;--有悖于普通用户发布信息的习惯?/p>

2)有些帖子内容是一段没有任何意义的文字,或者随意采集来一篇文章,而中间穿插了一些热门关键词。举例:

//cang.baidu.com/cases99/snap/c17615311d6d4531bb4b33cc.html
//cang.baidu.com/cases99/snap/1baad31c3d640eeceb11823d.html

3)有些文章看标题以为在说A事,而主要内容却在讲B,且与A毫无关系。举例:

//cang.baidu.com/cases99/snap/ce87d21d625937ebd9eee4c2.html
//cang.baidu.com/cases99/snap/c17615311d6d4531bb4b33cc.html

4)对于视频音频网站来说,无论内容上传者是否为恶意,只要视频或音频文件不能满足用户需求或者与标题所述不符都应该清除掉。举例:

//cang.baidu.com/cases99/snap/c8ea73b9a98c51205104b3c1.html 乍一看以为是电视剧专辑,实际视频平均不足1分钟
//cang.baidu.com/cases99/snap/1e7b322fb94512c064e0fec0.html 视频内嵌入了联系方式,名为介绍武艺,实际是在推广另一艺人,视频站点成为其免费的推广平台?/p>

3,欺骗网站诈取分帐式广告收益的内?/p>

部分web2.0站点为了鼓励用户上传内容,会设计一套现金鼓励机制,比如视频网站,根据视频前面的广告展现量来计算用户收益,少数分成用户会采取一些不正当的手段从搜索引擎骗取流量,从站方诈取分成收益。如大量上传短小视频,并在视频网页上堆积诱人的关键词?/p>

4,恶意利用web2.0网站为自己做推广、谋福利的内容。举例:

//cang.baidu.com/cases99/snap/16107c3e4e885c024d29ed38.html
//cang.baidu.com/cases99/snap/1e7b322fb94512c064e0fec0.html

视频内嵌入了联系方式,名为介绍武艺,实际是在推广另一艺人,视频站点成为其免费的推广平台?/p>

5,有违法律法规的不良信息,如诈骗中奖联系方式、虚假联系电话、不良信息。举例:

//cang.baidu.com/cases99/snap/79ff52406a9358986d115dc8.html
//cang.baidu.com/cases99/snap/30c36a2b013ae249aacfbc3e.html
//cang.baidu.com/cases99/snap/af71c5ec8b83e2eed1cb783d.html
//cang.baidu.com/cases99/snap/f4633d781c76393f9b11343d.html

三、网站管理员面对垃圾内容,如何应?/p>

出于对网站自身发展的考虑,为了使搜索引擎能够提供更加公平的结果,为了维护互联网生态环境,以及给网民提供更好的上网体验,我们认为web2.0站点或论坛版块里存在上述内容是非常不合适的,网站管理员应对垃圾内容进行重点清理,可以采取以下措施:

1,删除垃圾内容,并将这些页面设置?04页面后,及时通过百度站长平台//zhanzhang.baidu.com/ 的死链工具提交死链列表。不仅令百度对站点的自我清理行为及时响应,更方便站点主动控制网站内容在搜索引擎的呈现情况?/p>

2,提高注册用户门槛,限制机器注册

1)群发软件通常使用自动的程序探测论坛默认的注册文件名、发帖文件名。管理员可以不定期的修改注册用户文件名、发帖文件名;注册、发帖按钮使用图片;与程序默认的不同,可以防止被自动程序搜索到?/p>

2)发帖机通常是机器注册,行为模式单一。管理员可添加一些需要人工操作的步骤,有助于限制机器注册?如:使用验证码;限制同一邮箱注册ID的数量,同时启用邮箱验证;使用更为复杂的验证机制;经常更换注册问答?/p>

3)除了在注册处设置门槛外,还可以控制新用户权限。如要求完成上传头像、完善用户信息等人工操作步骤后才开放发帖功能;在一定时间内限制新用户发帖;限制新用户发布带链接的帖子,待达到一定级别后再放开?/p>

3,严控机器发帖行为,如使用验证码、限制短时间内连续发帖等?/p>

4,建立黑名单机制,将群发常用词、广告电话和网址等加入黑名单,对含有黑名单内容的帖子进行限制或清除。黑名单应该不断维护,以堵截原有垃圾词汇发生变形和新生垃圾词汇?/p>

5,对站内的异常进行监控。发现注册量、帖子数,甚至站点流量爆增后,及时发现和查找原因?/p>

6,对站点内用户的行为进行监控

1)部分异常用户的ID结构有别于普通用户,如使用无意义的字母数字、或几个单个汉字的无序组合,如:gtu4gn6dy1、蝶淑琴;使用商业词作为ID,如:轴承天?、hangkongfuwu123?/p>

2)发布内容间隔过?/p>

3)发布的内容绝大部分非常类似

4)发布的大部分内容里含有类似的特征,如某个网址、电话、QQ号码等联系方?/p>

7,不允许发布带有可执行代码的内容,避免弹窗、跳转等严重影响用户体验的情况发生?/p>

8,对部分web2.0位置提及的链接,使用“nofollow”进行标记,如:bbs签名内的链接、BLOG回复ID自置的链?a target="_blank" rel="nofollow">//cang.baidu.com/spamcase/snap/a3103920926c494f0e3030ad.html

9,论坛中的广告、灌水版块,建议加上权限限制,或者禁止搜索引擎收录?/p>

10,关注建站程序的安全更新,及时安装补丁程序。保障用户账号安全,避免发生盗用正常用户账号或历史沉寂用户账号发布垃圾内容的情况发生?/p>
Tags - , ]]> //www.2w0f.cn/baidu-webmaster-club-lee-answer-34-seo/ <![CDATA[百度站长俱乐部Lee回答站长?4个SEO问题]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Thu, 18 Aug 2011 07:37:50 +0000 //www.2w0f.cn/baidu-webmaster-club-lee-answer-34-seo/ 1、百度是否能抓取CSS样式表并识别分析?/p>

百度是能够抓取并分析CSS的?/p>

2、百?.20大更新,你有什么看法?

简而言之:我们的系统在更新数据的过程中出了点状况,问题被及时发现后,已经于5?0日中午修复,目前还有部分内容由于缓存等原因正在更新中,很快就会恢复正常。今后我们会加强相应的保障机制,避免再次出现同类问题。同时也很抱歉让大家造成一些误解?/p>

3、百度蜘蛛爬行不存在的路径?

Baiduspider只抓取能从互联网上找到的url,如果Baiduspider大量抓取你网站上不存在的url,可能有两个原因?)你网站 内有部分网页指向其他网页的url格式不正确?)互联网上有其他网站指向了你网站内不存在的网页。另外,Baiduspider抓取到不存在的网页,?务器应该返回404错误?/p>

4、我在robots.txt中设置了禁止百度收录我网站的内容,为何还出现在百度搜索结果中?/p>

如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述?/p>

5、新域名在百度下的权重比旧域名高的情况下,将旧域?01重定向到了新域名会有什么影响?或者说百度下的301是将权重替换还是叠加的呢?/p>

将旧域名301重定向到新域名,旧域名的权值会叠加到新域名上?/p>

6、网站的gzip压缩对网站的收录和权重有没有影响?/p>

gzip对收录和权重没有影响。对搜索引擎唯一的影响,是抓取速度会快一些?/p>

7、域名A曾经301至域名B ,如果现在又将域名B301回A是否还能保持原来权重?/p>

会,但会有一段时间的考查和权值转移期?/p>

8、百度的真正外链是什么命令,是否无法查询?/p>

百度目前没有查询外链的查询命令,但我们已经计划在站长平台中支持外链查询?/p>

9、标题长短对于网站权重的影响有多大?

正如同一个页面上的导出链接越多,每个链接获得的权重越小一样,title上的关键词越多,单个关键词获得的权重也会越低。这是很直观的逻辑。但 是,如果为追求某个关键词的权重,极力压缩标题长度,那么真正合乎该页面的搜索需求,又很难被命中。所以,一般性的建议就是,实事求是的将页面主旨反映在 标题中即可。如果要做长青树,不要在乎一时一刻的seo效果(那个很累、很烦),把网站的忠实用户人气做起来就成了?/p>

10、修改页面标题(如增加前缀或后缀)是否会影响网站排名?/p>

title是极重要的内容,大幅修改,只会带来大幅波动,所以请慎重对待网页标题?/p>

11、修改首页的description标签,会不会受到惩罚?/p>

这个肯定是多虑了,我们鼓励大家通过description来撰写网站的简介,只是过于频繁的修改,可能不会及时反馈在摘要中?/p>

12、更换服务器是否对排名有影响?/p>

原则上是不会的。除非新换的服务器太糟糕,三天两头访问失败,或者服务器从国内换到国外,这就很可能被和谐?/p>

13、百度对重复内容是如何处理的?/p>

搜索引擎的排序出发点,是用户的搜索体验。虽说,很多时候尊重原创和用户体验是一致的,但是,毕竟也有一些案例,转载的体验会比原创更好,这时原创的排序未必会高于转载者,但是,原创的应该以另外一种方式被肯定,而不是简单的被聚合掉?/p>

14、我买了一个老域名,重新建站,权重会继承吗?

正常的域名转手,域名会被当做一个全新的域名看待,前帐一笔勾销?/p>

15、百度对如何看待nofollow?/p>

如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记放入网页的 HEAD 部分:meta name=”robots”  content=”nofollow”;如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上?a  href=”signin.php” rel=”nofollow”>登录 /a

16、修改robots之后多久生效?

不同的站点略有不同,但通常会在几天内生效。根据笔者的经验,只要保持外链的增长和原创内容的更新,大概是4天对于老站,而新站大概一个星期左右?/p>

17、一个页面有多个重复的链接,并且链接文字相同,搜索引擎在传递权重时,只传递一次权重,还是每个链接都要传递权重?另外,这几个重复的链接获得的权重一样么?/p>

重复的链接不会增加链接权?/p>

18、百度是否能识别和处理纯文本形式的链接(非标签)?/p>

可以,搜索引擎的spider需要及时发现和抓取互联网上的链接,至于链接是什么形式,并不重要,也许有一天,我们还可以识别图片里、语音里、视频里或是其它形式的链接?/p>

19、option标签里面的链接可以被蜘蛛抓到么?

可以提取,效果等同于A标签?/p>

20、标题过长是否会对百度搜索不利?

这个自然是没有限制的。很多人喜欢往标题里塞很多关键词,以为那样就全面开花,但很可能适得其反,这个原理跟在一个页面上有多个超链接一样。分一杯羹的人越多,每个人所得的羹越少?/p>

21、百度什么时候更新?

没有“更新?rdquo;?ldquo;更新?rdquo;,百度无时无刻不在更新?/p>

22、假如竞争对手恶意群发我网站链接到非法站点,对我网站有影响吗?/p>

我们有很完善的识别算法,这些行为并不会导致你的网站受到影响?/p>

23、很多人?info?hk等域名被降权了,是不是真的?

使用何种后缀的域名,对搜索引擎没有直接的影响。但.com?cn?net等常见的域名后缀更容易记忆,增加用户的判断成本?/p>

24、百度建议URL静态化吗?还是像Google一样,不建议URL静态化?对伪静态怎样看待?和真的静态文件一样吗?br />对URL的动静态,没有歧视政策?/p>

之所以以前有过提倡静态的说法,是因为很多动态URL,带了很多参数,而实质上内容是一样的。这个给spider以及站长都带来不必要的麻烦。我?在这上边花了不少精力。所以,总的原则就是,URL的动静态无所谓,只是尽可能的避免重复即可。但是动态url也不要动态得太变态,搞几十个参数,那会吓 着蜘蛛。酝酿中的sem指南,会有对url优化方面的详细说明?/p>

25、搜索结果中显示标题与实际标题不一致?

原因比较复杂,需要针对性分析。主要原因可能是tag  title提取失败,系统只好从其他地方取了一些文本作为标题。这种提取失败的原因,有网页设计层面的(比如全是flash或者ajax),也有 robots封禁层面的(某些重要网页虽然不抓取,但会保留url本身)。还有一些系统异常也会造成类似的现象。如果不符合一般性的预期,这类问题都可以 直接提交至webmaster@baidu.com。会有工程师跟进的?/p>

26、在百度快照里页面没有显现完整,首页底部(友情链接及版权信息那块)代码和页面都没在快照中出现,那么友情链接对其他网站还有用吗?/p>

这种情况不会影响友情链接。另外,我们建议尽量将页面大小控制在合适范围内?/p>

27、以前百度显示网页体积的时候最大是125K,超过这个范围快照显示就不正常,是不是意味着网页体积大于125K就对搜索引擎的抓取或收录有影响了?/p>

页面大小和搜索引擎的抓取之间没有直接关系。但我们建议网页(包括代码在内)不要过大,过大的网页会有抓取截断;而内容部分,也不要过大,过大会被索引截断。当然,抓取截断的上限,会远大于索引截断的上限?/p>

28、Google倾向于说每个网页的导出链接不要超?00为宜,百度有没有什么建议?

这个暂时没什么建议。一般情况下,链接数量,会影响到这些链接从该页面上所获得的权重;少就多分一些,多就少分一些?/p>

29、js代码弹窗是否会影响自然排名?

任何对用户体验有增益或者减益的做法,其实会影响到用户的”投票”行为。而这些投票行为,又会影响搜索引擎对这个网站的评价算法。所以,弹不弹窗并不重要呀,关键是这种弹窗会对用户造成什么样的影响?/p>

30、百度针对连接上存在不存在有效期的问?意思上是说,一个链接的权重会不会过一段时间后就会没有?或者逐渐降低?/p>

如果各位站长要揣摩百度的策略细节,我觉得不如站在用户的角度,用一种合乎常理的逻辑去做推断。比方链接时效性问题,实际是有利有弊。利在于,过?的投票,只反映被投票者在过去的价值,不见得能反映现时情况;弊在于,正常投票不大会重复投,过去投过了,现在就可能不投了,但不代表现在对被投票者的?认可。那么究竟应该怎么做呢?呵呵。我也不清楚?/p>

31、原创内容不能被识别怎么办?

这个,只能说百度的策略还不是很完善,我们也一直在改进。另外,从用户体验角度,有些转载未必比原创差。比方一篇科技原创博文,被知名门户网站的科 技频道转载。如果这种转载保留原创者姓名和出处链接,实际上对原创者是有利的,因为起到了更好的传播效果。只是国内的转载,很多是掐头去尾,使原创者比?受伤?/p>

32、百度是否跟踪JavaScript链接?/p>

javascript的解析,是很多搜索引擎正在做的事情;同理,对flash的解析。毕竟有那么多应用javascript或者flash的网 站,其实并没有意识到,他们的做法给搜索引擎的收录和索引带来的麻烦。所以,如果期望不被搜索引擎收录的话,最直接的手段,还是写robots文件?/p>

33、链接点击率是否计入排名算法,百度是否有会估算某网页的某个反向链接被点击次数(例如:从工具条、流量统计等工具得到的部分数据)?比如是否把链接的点击率计入算法之中?是否会利用这点来判断哪些是隐藏链接?或者判断外链的相关性等因素?/p>

我只能说,一切有利于排序改进的因素,都有可能被搜索引擎尝试应用?/p>

34、为什么蜘蛛每天爬n次,而收录网页只有一两篇?/p>

网页抓取和建立索引是不等同的。这些网页会经过一些必要的chk过程之后才会被建入索引?/p>
Tags - , ]]> //www.2w0f.cn/baidu-spider-http-code-process-logic/ <![CDATA[百度spider对常用的http返回码的处理逻辑]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Tue, 16 Aug 2011 18:49:54 +0000 //www.2w0f.cn/baidu-spider-http-code-process-logic/ 百度爬虫在进行抓取和处理时,是根据http协议规范来设置相应的逻辑的,因此,如果网?页面发生一些特别状况或者网站某类页面集存在特殊性的时候,我们必须知道如何处理才能更符合百度爬虫,以避免错误的举措给网站SEO带来不必要的风险?a >百度站长俱乐?/a>管理?a >Lee的在http状态码使用方面做了说明,主要涉及到常见?01?04?03?03状态码的处理建议,非常实用,结合这些知识以及以往遇到的实际情况我会做一点补充应用说明?/p>

百度spider对常用的http返回码的处理逻辑?/p>

1?04
    404返回码的含义?ldquo;NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内spider再次发现这条url也不会抓取?br />
2?03
     503返回码的含义?ldquo;Service  Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返?03,百度spider不会把这 条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返?03,短期内还会反复访问几次。但是如果网页长期返?03,那么这 个url仍会被百度认为是失效链接,从搜索结果中删除?br />
3?03
     403返回码的含义?ldquo;Forbidden”,百度会认为网页当前禁止访问。对于这种情况,如果是新发现的url,百度spider暂不会抓取,短期内会 再次检查;如果是百度已收录url,当前也不会直接删除,短期内同样会再访问。届时如果网页允许访问,则正常抓取;如果仍不允许访问,短期内还会反复访问 几次。但是如果网页长期返?03,百度也会认为是失效链接,从搜索结果中删除?nbsp; 

4?01
     301返回码的含义?ldquo;Moved  Permanently”,百度会认为网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来?流量损失。虽然百度spider现在?01跳转的响应周期较长,但我们还是推荐大家这么做?br />
百度对于某些常见情况的使用建?/strong>?/p>

1、如果站点临时关闭,当网页不能打开时,不要立即返回404,建议使?03状态?03可以告知百度spider该页面临时不可访问,请过段时间再重试?br />
2、如果百度spider对您的站点抓取压力过大,请尽量不要使?04,同样建议返?03。这样百度spider会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了?br />
3、有一些网站希望百度只收录部分内容,例如审核后的内容,累积一段时间的新用户页等等。在这种情况,建议新发内容暂时返?03,等审核或做好处理之后,再返回正常状态的返回码?br />
4、站点迁移,或域名更换时,请使用301返回码?/p>

案例?/p>

我曾经为一家电子商务网站提供SEO顾问服务,网站每日新增商品由商家发布,商品发布后便成为一个有效的商品,并会出现到网站平台的商品检索结果以及商品列表中?同时,平台运营方需要对商品进行审核,对于没有审核通过的商品则进行删除操作;于是,会出现一些情况:新增商品页面被百度爬虫抓取,但随之该页面被删除?/p>

由于网站在百度的权重比较高,几乎每日新增商品页都会很快收录,因此,在这批新收录的商品页面中有一定比例的页面很快不存在了,即:一批刚被收录的页面又向百度Spider返回?04状态码,简单以蔽之?ldquo;让百度收了再让百度删”,我觉得百度可能?ldquo;很生气,后果很严?rdquo;?/p>

为解决这个问题,我之前采取了如下方法?/p>

既然将商家发布的商品包含两种状态:已审核和未审核,那么就为商品页面设计2种URL规则,如果商品未审核,则使用?套URL规则,同时,利用robots协议限制百度Spider爬虫抓取这些页面;如果商品已审核,那么就与已有商品一样,使用?套URL规则。这样就可以确保百度Spider抓取到的商品页面都是有效页面,不会由于商品审核不通过而单日内出现大量404页面?/p>

是否可以利用403状态码来解决该问题?思路如下?/p>

判断商品是否通过平台运营方审核,是的话,页面就返?00,否的话,就返回403;对于正常的商品页面,可以确保百度Spider正常抓取;对于新增商品,百度新发现的URL是返?03的,当再次回访这些页面时,由于商品已经审核通过,返回的状态码?03变成?00,则百度仍可抓取到;方法仍然有待实验,毕竟之间存在一个时间差以及百度对于返回403的页面是否存在收录效果不佳的风险?/p>

对于301状态码,在以往的SEO交流中,大家一致认为百度对301并不感冒,而且反应速度超级慢,Lee在帖子中也证实了这一点,但无论怎样?01仍然是其推崇的一种规范的处理方式,宗旨,?a href="//www.2w0f.cn" target="_blank" title="//www.2w0f.cn" class="mykeyword">网站优化,良好的规范是必要的?/p>
Tags - , , , , ]]> //www.2w0f.cn/baidu-analytics-seo-suggestion/ <![CDATA[实测百度统计SEO建议]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Wed, 20 Jul 2011 13:57:31 +0000 //www.2w0f.cn/baidu-analytics-seo-suggestion/ 前阵子百度统计推出新功能?ldquo;SEO建议”,目前需要邀请码才能使用这个为站长们提供的SEO优化工具

该功能位于百度统计的左边栏,在之前推出的“收录数量查询”工具上面。点开这个功能界面,它已经自动把统计中登记的网站作为检查对象,你只要点?ldquo;检查按?rdquo;就能使它自动进入扫描检查状态,通过按照一系列的标准进行自动扫描,在大约一分钟后给出综合评分,叫做“测试得分”。这个得分是?00分为满分,对你的网站在针对百度进行的优化方面存在的问题进行扣分,最终得出的一个结果。而具体的检查标准,我们在下面会详细谈到?/p>

百度SEO建议所依照的标准给我们的启?/span>

A.URL长度

URL长度中,百度建议URL的最长长度不超过255byte,就?55字节,事实上,真正能够超过这个长度的网站可谓相当少,但它所带给我们的启示就是要让网站的URL做到尽可能地简洁简短,否则过长的URL只会徒增网站的冗余度,这意味着让百度的spider(蜘蛛)会有更多的抓取负担,因此利用更加简短的URL可以提升网站的友好度?/p>

B.静态页参数

和URL长度同样被归类到“URL”这一项目之中,属于下属的一个分项目,这二者的共同点就在于是否对百度的spider具有足够的友好度。在静态页参数方面,它重点考察网站是否在静态页面上使用了动态参数,这就会导致spider的多次和重复抓取,这一点无疑又是给百度增加了额外的负担。所以,网站的简洁化和静态化对于百度优化来说非常重要?/p>

C. Meta信息完善程度

网站的Meta信息主要体现在description和keywords之间,在这两部分之中需要根据网站的定位和主题,编写自己的关键词信息,从而让百度更好地了解网站的主要定位,并把网站进行适当的归类,进入到它的检索区。如果没有做到这点,按百度的建议来说,是?ldquo;对网页的展现和排序产生一定影?rdquo;,因此要重视这些细节的优化工作?/p>

D.图片Alt信息

针对百度的SEO优化,不容忽视的还有一点就体现在对于图片的优化方面,如果仅仅只注意到了文字内容方面的优化,对于图片没有根据内容进行Alt信息说明,那么就会导致百度在抓取图片时无法了解图片的主题,这就使这些图片无法被归类整理后提供给搜索用户,无疑既减少了收录,也给网站减少了潜在的更多的流量?/p>

E. Frame信息

对于百度spider而言,真正友好的内容必然是以文字信息为主,对于那些使用Frame/frameset/iframe标签的网站,百度 spider是无法抓取到它们的,这只会导致无效的抓取,这些内容就难以进入到百度的检索库之中,使网站的收录数量必然受到影响,另外长期如此就会导致网站的友好度下降,对于提升网站权重有负面打击?/p>

F. Flash文字信息

从这方面提供的建议来看,百度spider 已经做到了可以抓取Flash内容,但是对站长提出的要求是要给这些flash文件添加描述,只有这样才能让spider更好地了解到Flash的内容,从而做到抓取并收录,继而提供给用户。由此可见,站长如果想要做好百度优化,对于这些细节性的优化措施务必要做到位,如此方能给网站带来更佳的百度优化效果?/p>

通过对百度新产品“百度SEO建议”?实际使用测试,在测试之中验证了以往对百度算法标准的一些猜测,从官方得到了更加可靠的依据,无疑这将给我们的优化工作带来更多便捷和可靠性,同时结合?提供的收录数量查询工具等,这就大大便利我们针对百度而进行的优化,让网站在百度搜索结果中得到更上乘的表现,获得更多高质量搜索流量?/p>

附我的网站SEO测试截图?/p>

 


Tags - , ]]>
//www.2w0f.cn/google-teleport-2011-april-fool-day/ <![CDATA[谷歌穿越搜索-谷歌官方愚人节玩笑]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Fri, 01 Apr 2011 01:28:18 +0000 //www.2w0f.cn/google-teleport-2011-april-fool-day/ 4?日消息,今日为西?ldquo;愚人?rdquo;,谷歌也不忘“?rdquo;一把。谷歌中国今日推出愚人节玩笑“穿越搜索”,号?ldquo;带你穿越时空,抵达你最想抵达的时间、地点,用身临其境的方式感知你想感知的一切?rdquo;当然,这只是这家充满幽默感的科技巨头的一个愚人节玩笑?/p>

谷歌称,“穿越搜索”原理是,“利用搜索引擎内置的引力场扭曲功能,在关键词超时空渗透技术的基础上,将搜索者的全身电磁表征分解后,降频发送到目标时空重新组合匹配,以实现搜索者思维的跨时空穿越并获取目标时空信息的新一代搜索技术?rdquo;

当然,千万别当真,仅仅是谷歌的愚人节玩笑?/strong>

谷歌“穿越搜索”的网址是://www.google.cn/intl/zh-CN/landing/teleport/

>?quot;穿越"前用户需要完成穿越体?/p>

 

谷歌官方愚人节玩笑:“穿越搜索”

科技巨头的一个愚人节玩笑

谷歌特别指出,用户在进行穿越前,需要保证冠整洁,头发光鲜,并“认真做一遍谷歌穿越体?rdquo;,否则无法穿越?/p>

我试着?ldquo;SEO”穿越,小编的“有木?rdquo;赫然在目?nbsp;  ,我被穿越到?ldquo;罗马帝国”


Tags - , ]]>
//www.2w0f.cn/google-rank-social-search-twitter-quora/ <![CDATA[Google将在搜索结果排名算法中考虑来自Twitter、Quora等社会化网络社区的内容]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Fri, 18 Feb 2011 04:08:39 +0000 //www.2w0f.cn/google-rank-social-search-twitter-quora/ 据悉,Google 将在搜索结果排名算法中考虑来自社会化网络的内容,而不需要得到用户的登录授权?/p>

Google 会根据用户的用户名去检索来?a >Twitter?a >Quora 等帐号,然后会像用户确认是否这些帐号是你的。如果你确认以后,Google 的搜索就会考虑到来自这些帐号的内容。如果搜索结果中出现的内容也在你的社会化网络圈中出现过,那么这个网页排名可能会提前?/p>

 

SEO启示?/p>

社会化网络站点对于新内容的推广作用将会被搜索引擎放大,SEOer应该思考如何利用这些社会化网络站点来为自有站点提供辅助相关页面甚至直接达成关键词排名。可以预想,针对这类站点的信息发布工具将会很快出炉,而且,这些社会化网络站点的账户(Account)将变得越加越抢手,特别是关注度高的并取得官方级别认证的账户(Account)。只要你在社会化网络中奉献了优质的内容以及创意,自有站点的品牌也将在互动传播过程中附带增值,这已经不再是通过Blog建设一个反向链接那样简单的初始目的与实施过程?a href="//www.2w0f.cn/category/online-marketing/" target="_blank" title="//www.2w0f.cn/category/online-marketing/" class="mykeyword">网络营销进入了新的基于社会化网络的营销新时代,在利用SEO推广品牌营销产品的过程中,直接的反向链接当然还是必要的,但是基于品牌基于网址的覆盖是不是显得更有价值呢,然而这一切的前提是我们要为社会化网络营销构思一个Idear,根据用户的认知、参与、互动来达到成功的营销局面。Let us go!


Tags - , , , , , , , ]]>
//www.2w0f.cn/baidu-startup-image-cpc-promotion/ <![CDATA[百度上线图片竞价排名 图片显示推广字样(?]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Wed, 28 Apr 2010 08:22:16 +0000 //www.2w0f.cn/baidu-startup-image-cpc-promotion/ 据百度内部人员称,百度确实已在图片搜索竞价排行上展开行动,但对价位等具体问题未予作答?br /> 

百度上线图片竞价排名 图片显示推广字样(?

图为百度CEO李彦?/span>(腾讯科技配图?/span>

百度上线图片竞价排行 图片显示推广字样(?

排在前三位的长城图片均带?ldquo;推广”标识

4?7日,据网友反应,百度已悄然上线图片搜索竞价排名服务?/p>

网友称,在百度中搜索带有“长城”关键字的图片,在搜索结果中,排在前三位的长城图片均带?ldquo;推广”标识,且暗含旅游公司网站的链接,而此前百度图片搜索中只有文字链形式的广告存在?/p>

据百度内部人员称,百度确实已在图片搜索竞价排行上展开行动,但对价位等具体问题未予作答?/p>

据百度Q4财报显示,百?a href="//www.2w0f.cn/category/online-marketing/" target="_blank" title="//www.2w0f.cn/category/online-marketing/" class="mykeyword">网络营销收入同比增长39.8%,总体利润同比增长48%。曾有媒体指出,百度的大幅增长部分得益于“凤巢”体系切换后,关键字价格的上涨。而百度公关部认为关键字上涨是个别行为以及市场竞争因素所致?/p>

万瑞数据分析师于明认为,百度正尝试多种方式提升关键词的单价,通过更多的广告形式来弥补凤巢系统转化率低的问题?/p>

另据腾讯微博网友透露,其实早在谷歌撤离中国内地后不久,百度就已经推出图片搜索竞价排名服务。不过一直未有媒体报道?/p>


Tags - , , , ]]>
//www.2w0f.cn/doorway-page-destroy-your-website/ <![CDATA[桥页SEO:网站自我毁灭工具]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Mon, 08 Dec 2008 09:15:11 +0000 //www.2w0f.cn/doorway-page-destroy-your-website/ “桥页”,这个名词在SEO圈里已是老生常谈,曾一度成为网站SEO优化的利器。早在中国兴起搜索引擎应用初期,利用大量关键词堆砌而成?ldquo;桥页”技术,被一些网站制作者们时常应用?/p>

桥页,通常是大量关键词及链接的集合,桥页的编写目的,是为针对特定词组进行排名,然后将用户链接至实际推广页面,有的甚至只是为了推广某个网站首页,多加了无数个外部链接?/p>

如今,博客、SNS、Wiki等Web2.0应用时代,也充斥着大量桥页。网站为追求流量、利用关键词生成软件、关键词词典生成大量堆砌网页,手法包括关键词堆砌、隐藏文字、隐藏链接、隐藏嵌套页面、购买大量外部链接等。然而,在搜索引擎对垃圾网站日益封杀喊打时代,桥页显然违反搜索引擎收录的规定?/p>

以百度、Google为代表的搜索引擎,目的是为用户提供最有价值和最相关的搜索结果。桥页的做法,企图操纵搜索引擎并欺骗用户,即将用户定向到与其选择不符且纯粹为利用搜索引擎而提供内容的网站?/p>

那百度、Google自然会对采用桥页的欺骗网站采取措施,包括将这些欺骗网站从百度、Google索引中删除。对网站经营者而言,无论是自己的技术人员,还是外聘技术顾问, 都需要注意自己的网站不能使用伪桥页作弊手法?/p>
Tags - , , , , ]]> //www.2w0f.cn/the-future-of-search-engine/ <![CDATA[谷歌副总裁梅耶尔演讲:搜索的未来]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Wed, 17 Sep 2008 06:26:48 +0000 //www.2w0f.cn/the-future-of-search-engine/ 自从谷歌创立10周年以来,互联网在人们的生活中产生了巨大的冲击和影响。我们开始思考,下一?0年将会发生什么样的改变?这些变化是如何一步步形成 的,我们又该如何去适应这些变化,并且最重要的是它将如何来适应我们?就此问题,谷歌美女副总裁玛丽?middot;梅耶尔(Marissa  Mayer)在谷歌的官方博客上畅谈了搜索的未来?

  以下就是梅耶尔这篇博文的部分精彩内容?/p>

  我是一个喜欢探索的人,我对一切都充满了好?mdash;—我一向喜欢探求根源,而且,我在谷歌从事搜索工作已经有9年零三个月的时间了。尽管我有大量疑问希望通过搜索引擎得到答案,但大致估算起来,我每天只能搜索其中20%的问题?/p>

   “fab”?ldquo;goy”?ldquo;eely”这些字母组合到底是不是英文单词?我家附近的J.C. Penney公司周六几点开门营业?  《热带惊雷》什么时候上映?巨杉和落叶杉谁更古老?《Queen of  Hearts》是谁的歌?这样的问题可以一直开列下去。总而言之,我想表达两点意思:1)搜索引擎还可以做更多的事情?)搜索引擎仍有很大提高的空间, 搜索技术本身还可大幅向前发展,这样才能最大程度地满足用户搜索查询的需求?/p>

  模式

  我的第一个疑问是,为何我想搜索的时候,却无法使用搜索引擎?原因就是目前搜索服务还不具备足够的移动性能,易用性也有待提高。换句话说,今后用户应该可以在手机、汽车及任何手持、可穿戴设备中使用搜索引擎。我们需要一个随时可以使用的搜索引擎。我们在谈及搜索模式时,不仅是说要增强它的移动性,而且还涉及到语音搜索和语义搜?(注:所谓语义搜索,即让搜索引擎理解人类的语言)?/p>

  如果我们把眼光再放远一点,或许今后我们在使用搜索引擎时,已经不需要再键入关键词,而是可以直接输入图片等材料。举例来说,如果我们向搜索引擎提交一张鸟儿的图片,搜索引擎就会告诉我们这种鸟儿的名称。如果我们提交一段音乐,?索引擎就会返回词曲的作者、歌曲的风格、演奏者等相关信息。虽然目前有的搜索引擎已推出类似服务,但易用性和通用性还有待提高?/p>

  今后10年内,我们将看到搜索模式出现重大变革:手持设备可提供更便捷的搜索服务,更多的设备将接入互联网,充分发挥互联网的潜力。人们在进行搜索活动时,既可键入关键词,也可使用语音、手势、图片甚至歌曲来提交搜索问题?/p>

  媒体

  今年5月,谷歌推出了通用搜索服务,即在搜索返回页面中包括图片、视频、新闻、书籍、地图、位置等信息。虽然该功能还有待完善,但毕竟我们已迈出了重要的一步,因为我们的搜索结果已涵盖了富媒体内容?/p>

   过去一年中,谷歌一直致力于充分利用这些新型页面结果,并逐步改变用户界面的设计,从而提高用户的搜索体验。今后数月中,谷歌将继续对用户界面进行完?提高。但这种改变仅仅是个开始,今后10年,搜索引擎的界面将发生革命性变化。或许今后搜索结果页面中将包含更多的视频和图片,或许搜索答案的准确性和?关性将进一步提高,在交互性上也会得到不断的改善。虽然我们无法预知未来,但无论怎样,当前的搜索引擎已无法满足网民查询媒体内容的需求?/p>

  个性化

   今后10年内,全球各大搜索引擎的性能都将大幅提高,而谷歌搜索每天也在进步。我们每天都在致力于提高搜索结果的准确性和相关性,并把最新技术应用到?际服务当中。这种改进不但有利于提高谷歌自身的实力,其他搜索引擎也可从中借鉴有益经验。由此看来,搜索引擎性能肯定会越来越好,但问题是它们究竟会好?什么程度?

这个问题的答案是:搜索引擎将越来越懂得特定用户的查询需求。当然,对于单独用户而言,你肯定能够控制个人信息,搜索引擎在收集你的上网习惯等信息时,事先会征得你的同意。但按照搜索技术的发展趋势,今后搜索引擎将越来越懂得个人用户的特定需求,并能提供更符合个人需 求的搜索答案。或许搜索引擎将来会了解你所在位置,或许了解你此前已进行了哪些搜索活动。甚至,搜索引擎将完全理解你的搜索意图,原因是你已经选择与谷?共享你的上网习惯等信息。我们的搜索团队正加强个性化搜索引擎方面的研发,我们相信个性化的搜索引擎将会变得越来越重要?/p>

  位置

   搜索引擎知道用户的位置,是搜索引擎向用户提供个性化服务的重要基础之一。因为搜索引擎了解到你所处的位置以后,就能够向你提供更为准确的搜索结果。举 例来说,如果你想知道J.C. Penney百货公司周六究竟几点开门营业,搜索引擎知道你所在的位置后,就可以把离你最近的一家J.C.  Penney百货公司的营业时间返回到搜索结果中?/p>

  社交

  在个性化搜索服务中,重要内容之一就是查找社会关系人员。通过社会交往,我们可借鉴他人的成功经验。在遇到困难时,我们可寻求朋友的帮助。无论我们在学习、体育、健康和饮食等方面遇到了问题,我们都可通过 个性化搜索服务来找到答案。举个例子,有一次我用谷歌搜索一个药品,但是拼错了单词,谷歌没有提示我修改拼写错误;后来我给一个医生朋友发了个 email,他马上修正了我的拼写错误。今后搜索引擎将提供“好友增强”模式,这样就能找到更为准确的搜索答案?/p>

  语种

   我们前面谈到了搜索模式、媒体、位置及社交等个性化搜索服务。但我们还得注意一点,这就是不同语种的搜索。在很多情况下,我们都知道互联网存在着我们需 求的答案,只是这种答案以另外一种语言写成,而我们又看不懂。此前谷歌已推出了机器翻译服务,目的就是让所有语种网民都能找到自己想要的答案。换句话说, 如果用户查询某个问题的答案已经以其他语种的形式发布在互联网上,谷歌将把该答案翻译成该用户能看懂的本地语言。我们这方面的工作正处于起步阶段,今后我 们将加强谷歌跨语言搜索服务的实力?/p>

  结论

  搜索引擎到目前为止只完成?0%,今天的搜索引擎技术就?6?7世纪的生物学和物理学。谷歌仅仅是完成了第一?0%,而这是整个搜索技术中最容易的部?剩下的部分才是真正的90%,完成这一部分需要花费数十年甚至更长的时间?/p>

  那么理想境界的搜索引擎应该是个什么样子?简而言之,完美状态的搜索引擎应充分懂得特定用户的查询需求,然后向用户提供最为准确的答案。我对谷歌过?0年中取得的成就引以自豪,但我更看重谷歌今?0年内的发?/p>
Tags - , , , , ]]> //www.2w0f.cn/google_baidu-page_search_query-parameter/ <![CDATA[Google和百度网页搜索的查询参数解释]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Wed, 25 Jun 2008 18:14:46 +0000 //www.2w0f.cn/google_baidu-page_search_query-parameter/ 百度网页搜索的查询参?/strong>

        
  1. wd(Keyword):查询的关键?/li>    
  2. pn(Page Number):显示结果的页数
  3.     
  4. cl(Class):表示搜索类型,cl=3为网页搜索,cl=2为图片搜?/li>    
  5. ie(Input Encoding):查询关键词的编码,缺省设置为简体中文,即ie=gb2312
  6.     
  7. tn:提交搜索请求的来源站点,比如在?23的百度搜索框中搜索关键词,那么tn=sitehao123;缺省设置应该是cnnic
  8.     
  9. rn(Record Number):搜索结果显示条数,缺省设置rn=10,取值范围在10--100条之?/li>    
  10. bs(Before Search):上一次搜索的关键?/li>

Google网页搜索的查询参?/strong>

        
  1. q(Query):查询的关键?/li>    
  2. hl(Interface Language):Google搜索的界面语言
        hl=zh-CN  简体中文语言界面,我们用的Google中文就是这个参数?/li>    hl=zh-TW  繁体中文语言界面,港台地区常使用
        hl=en     英文语言界面    
  3. start:显示搜索结果的起始端,如果start=1,则从第2个搜索结果开始显示;如果你想直接看第搜索结果?1页,让start=200即可,由于Google只显?000条搜索结果记录,start理论取值范围在0--999之间?/li>    
  4. lr(Language Restrict):搜索内容的语言限定限定只搜索某种语言的网页。如果lr参数为空,则为搜索所有网页?br />    常用的有?br />    lr=lang_zh-CN  只搜索简体中文网?br />    lr=lang_zh-TW  只搜索繁体中文网?br />    lr=lang_zh-CN|lang_zh-TW  搜索所有中文网?br />    lr=lang_en  只搜索英文网?/li>    
  5. ie(Input Encoding):查询关键词的编码,缺省设置为utf-8,也就是说请求Google搜索时参数q的值是一段utf-8编码的文?/li>    
  6. oe(Output Encoding):搜索结果页面的网页编码,缺省设置oe=utf-8
  7.     
  8. num(Number):搜索结果显示条数,取值范围在10--100条之间,缺省设置num=10
  9.     
  10. newwindow:是否开启新窗口以显示查询结果,缺省设置newwindow=1,在新窗口打开搜索结果而面
  11.     
  12. aq(Ascending Query):判断搜索用户是否是第一次查询,如果用户第一次进行查询,则aq=f(First);如若进行过多次查询,则aq=-1,这个的主要作用应该是统计和放置作弊
  13.     
  14. as_q(Ascending Search Query):上一次查询关键词

Tags - , , , ]]>
//www.2w0f.cn/google-advanced-search-for-seo-research/ <![CDATA[利用Google高级搜索功能做SEO调研]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Wed, 30 Apr 2008 11:02:36 +0000 //www.2w0f.cn/google-advanced-search-for-seo-research/ Google高级搜索提供了输入项、网页语言、网页区域、文件格式、日期、关键词位置、网域、权限等自定义搜索结果?/p>

本文重点分析的是日期和关键词位置,郝聪认为这两项功能可以用于SEO的深入研究与分析,而且,通过Google产品里覆盖的这些选择项其实已经变相的验证了某些已经公开?a href="//www.2w0f.cn/category/seo-technology/" target="_blank" title="//www.2w0f.cn/category/seo-technology/" class="mykeyword">SEO技?/a>方法?/p>

1、日?/strong>

Google高级搜索中日期的自定义项包含:任意时间、过去一天内、过去一周内、过去一个月内、过?个月、过?个月、过?个月、过去一年内。日期对应的搜索结果URL中的参数是:as_qdr,以?个选项对应的参数值分别是?all、d、w、m、m2、m3、m6、y。当然,你也可以手动在普通搜索结果URL中添加as_qdr参数以显示相应时间内的搜索结果网页,比如:让as_qdr=m5或d3或y8,就会返?个月内?天内?年内的搜索结果?/p>

SEO应用方法

我们可以限定日期为一天内,那查询关键词后返回的结果数可以理解为在一天之内Google更新过的有关查询关键词的网页数量。比如:搜索关键?quot;SEO",返回搜索结果数量为225000,这表示在Google一天之内更新的网页数量?25000,这其中包括新收录的网页和更新的旧网页(PS:一天之内未必表?4小时,这要根据Google理解的每次网页更新时间间隔来理解);除此之外,你还可以使用site命令或者网域项来检索某个时间段内某个域名下哪些新网页被收录以及哪些旧网页被更新。这将有利于评估网页收录速度并为此制定针对性的Ʊƽ̨策略?/p>

以郝聪SEO博客为例?/p>

为什么不同日期内网页排序不同?/p>

搜索引擎是否应该向搜索者提供最新的信息,而不应该完全是旧网页?排序不同是不同时期产生的网页发挥的价值不同造成的,搜索者自定义日期的目的正是如此;可以肯定的说,再所有时间内,网页排序过程中时间是一个权重的影响因素?/p>

 

2、关键词位置

Google高级搜索中字词位置的自定义选项包括:网页内的任何地方、网页的标题、网页的内文、网页内的网址、在网页的连接内,这些选项已在告诉SEO搜索引擎在与网页“交互”的过程中评定网页的影响因素,因为搜索者也需要这样的影响因素来搜寻他们认为对自己有帮助的有价值的网页?nbsp; 在网上大部分SEO教程中都应该提及过网页标题优化、网页正文内容优化、网址优化和文本连接优化,通用的说法是:优化的关键词应该布置再网页标题靠前的位置、网页正文要分段并保持关键词再段落中有一定的出现比例、将关键词转化为英文单词或字母全拼作为网页URL的一部分、将关键词作为网页文本链接的锚文?/span>,正像上面所言,这些说法都是正确的?/p>

我们根据Google不断推出的基于用户考虑的功能也正在逐步验证了正规SEO的确是符合搜索引擎本意的?nbsp; 搜索引擎、网站、SEO三者之间应该是一种生态关系,SEO是在遵循技术原理的基础上来适应生态环境?/p>
Tags - , , , , ]]> //www.2w0f.cn/google-spider-auto-submit-form/ <![CDATA[Google让搜索蜘蛛自动填表提交表单以抓取更多网页]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Mon, 14 Apr 2008 01:16:27 +0000 //www.2w0f.cn/google-spider-auto-submit-form/ 据国外媒体报道:美国搜索巨头谷歌公司最近开始在网页抓取蜘蛛中实施一项新技术:他们可以让蜘蛛自动填写某些网页中的表格,并且自动提交到服务器上,对反馈页面进行抓取,从而获取更多有关这个网站的详细信息?nbsp; 

媒体分析认为,这将对网站的信息安全构成威胁。一般来说,表格(Form)是网站方面用来收集用户信息的一种方式。比如用户申请成为注册会员,需要提交相关的身份资料。表格将会把这些数据提交到服务器上,服务器上的网页将会给出下一步提示?/p>

在过去,谷歌公司的蜘蛛机器人并不会填写表格,因为也无法知道下一步的提示网页内容。最近,谷歌公司对抓取系统进行了升级。机器人将会根据表格中各个项目的名字,自动填写数据提交给服务器,这样,服务器的反馈页面也将被机器人所抓取,谷歌将会获得这个网站的更多信息?/p>

谷歌公司在一个博客中表示,他们会对这个功能采取谨慎态度。比如最开始,一些十分有用的网站才会采用自动填表的手段。另外,网站管理员可以在robots.txt文件中,对于是否允许谷歌提交表格作出规定,谷歌不会违反网站管理员的意愿。有搜索行业专家表示,谷歌公司的这一功能,将会对企业网站的信息安全构成威胁?/p>

短评?/p>

如果Google可以自动填表,那SNS站点天生的封闭性将不再是开展SEO的障碍,我们甚至可以主动为Google的蜘蛛提供一个account来使其可以顺利的抓取到Login之后的页面,进而解决由于站点封闭而致使优质内容无法通过搜索渠道传播的问题;可想而知,Google一旦启动实施该计划,将为SNS站点的SEOer带来福音?/span>


Tags - , , ]]>
//www.2w0f.cn/google-display-baidu-jingjia-advertisement/ <![CDATA[Google要为百度谋福利?]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Sun, 16 Mar 2008 16:08:49 +0000 //www.2w0f.cn/google-display-baidu-jingjia-advertisement/ Google一直在致力于提高搜索结果的准确性、合理性、公正性。举两个例子,比如,早前钓鱼网站盛行时期,Google有效识别了钓鱼站点并成功阻止了模仿站点在搜索结果获得较好的排名,无论是利用人工数据库还是复制网页、网站权威度这样的系数,这样的调整的确降低了搜索用户受到利益危害的可能性;再比如,Google不断惩罚SPAM SEO站点,对无实际价值的站点进行降低权重或直接在数据库中删除,这无疑都是在力报搜索结果质量?/p>

在SEO优化研究中,我需要不断了解搜索结果的变化趋势,这个过程也使我切身感受到Google在提高用户搜索体验的过程中可谓不於余力。这的确需要每个SEO人都认真思考,到底是SEO在改变搜索结果还是搜索结果在改变SEO?/p>

尽管如此,Google的搜索结果有时候也会让人产生困?/p>

点击?个搜索结果,网页会跳转到

//www.ruihuagz.com/dlpp.asp

从URL来看,这肯定百度的某个网页,关键是点击该URL居然还能跳转到企业网站的内页,因此,基本上断定该URL是百度竞价广告?/p>

PS:百度竞价广告URL参数?H6K开头,而该URL并不符合当前百度竞价广告的URL规则,初步认为是旧URL规则  可想而知,刚才的点击引导我们进入了百度竞价广告客户的网站着陆页,尽管我们并不是通过百度这个搜索平台获知这家网站以及其提供产?服务,而是通过Google,至于百度竞价广告客户是否需要为这次“成功的百度推?rdquo;付费,暂且无法得出结论,但是可以肯定的是,百度竞价广告客户从统计系统看到的结论是:这次推介是通过百度竞价广告导入的?/p>

Google要向用户推介竞争对手百度的竞价广告,我想不出有什么好理由来支持,我无法想象Google会主动引导用?ldquo;消?rdquo;百度竞价广告客户的推广预算,实际上,这样的想法也是不成立的,因为Google收录的百度竞价广告页面数量很少,只有1370,而且大部分搜索行为中几乎没有遇到上面的情况,上面描述的情况也只是在搜索公司名称的时候出现,这种影响力非常有限,因此,这种可能性微乎其微?/p>

百度竞价广告客户无需担心Google消耗了你们在百度上投放的广告预算,退一步讲,如果百度竞价广告客户的确在为这样的点击付费,那也是值得的,毕竟Google也是在相关性较高的搜索行为中推荐了你们。我觉得这样的情况才更容易让人担忧:

?a href="//www.2w0f.cn/category/seo-technology/" target="_blank" title="//www.2w0f.cn/category/seo-technology/" class="mykeyword">SEO技?/a>角度分析,从Google搜索结果中的网页描述以及网页Cache来看,Google已真正抓取到该网页的真实内容,而测试百度竞价广告的URL后发现,期间会首先要进行一?02跳转以后才会到达客户网站指定的着落页面,估计是需要传递相关信息到数据中心进行计费操作;而且,如果直接用浏览器访问该URL,是不会返回前网页的,?02是可以返回的,可见,最后是301重定向到客户网站,这正好可以解释Google为什么可以抓取到实际内容。Google把一个临时重定向的URL作为搜索结果URL输出,长时间未更新该网页可能是主要原因?nbsp; Google搜索结果充斥百度竞价广告并不合理,客户可能因此无法完全控制广告投放地?时间、广告宣传语、关键词策略等,这无疑使竞价排名广告失去了其最大的优势,失去这些投资回报率可想而知,可是谁会为客户的损失买单呢?/p>
Tags - , , , ,

, , , ]]> //www.2w0f.cn/2007-USA-search-engine-market/ <![CDATA[2007?月美国搜索引擎市场份额数据]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Thu, 29 Nov 2007 11:15:29 +0000 //www.2w0f.cn/2007-USA-search-engine-market/ iResearch艾瑞咨询根据Hitwise发布的美国搜索引擎搜索量市场份额数据发现?007?月美国搜索引擎搜索量市场份额中Google占据?4.4%;雅虎搜索居其次,占据搜索量市场份额?2.1%;而MSN/Live搜索占市场份额的8.8%;ASK搜索则占搜索量市场份额的3.2%.  

相比Hitwise发布?007?月美国搜索量市场份额数据,各品牌搜索引擎所占的份额未有明显变化,艾瑞咨询据此认为,当前美国搜索引擎市场已经被Google、Yahoo和MSN三大品牌所垄断?/p>


Tags - , , ]]>
//www.2w0f.cn/google-handle-spam-report/ <![CDATA[Google(谷歌)是怎样处理垃圾网站举报?]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Sun, 23 Sep 2007 03:26:56 +0000 //www.2w0f.cn/google-handle-spam-report/ 谷歌网站管理员工?/a>不仅能帮助我们和网站管理员沟通,也提供了举报垃圾网站的在线渠道。感谢我们的用户,我们收到了很多垃圾网站举报。这些举报对我们改进搜索质量,给出更相关、有用的结果有很大帮助。谷歌用户可以很方便地通过两个渠道(认证的和不需认证的)进行垃圾网站举报。我们往往优先处理通过认证的渠?/a>(譬如站长工具)递交的垃圾网站。当然,你也可以提交未经认证报告。由于未经认证报告是匿名举报,我们给他们赋予的优先级会相对较低。这里我们想讲一讲我们是如何处理从站长管理员工具得到的垃圾网站举报的?nbsp; 

我们评估垃圾网站举报

我们非常重视垃圾网站的举报,并有专门人员及时处理。我们主要根据我们的网站管理员指?/a>来处理垃圾网站举报,确定是否赞同或不赞同用户的举报?nbsp; 垃圾站点通常使用作弊手法来误导搜索引擎使之错误地把用户带入某些网站。谷歌网站管理员指南包含大部分(但不是全部)常见形式的欺骗性或操纵行为。我们建议你经常阅读我们网站管理员帮助中?/a>上的网站管理员指南。该指南内容将不但帮助你创建一个对搜索引擎友好的网站,而且避免了谷歌和你的用户把你的网站看作是垃圾网站?nbsp; 在有些情况下,我们并不赞同用户的举报内容,被举报的网站将不会受到任何影响。对确认作弊的垃圾网站我们会将他们转交给我们的软件工程师作出相应的惩罚?/p>

我们对确认的垃圾网站进行惩罚

对确认作弊的网站,我们会人工地或从算法上采取一些行动。当然,我们对作弊网站的惩罚度会视网站违反质量指南的严重程度而定,也就是说,对确认作弊的网站并不总是把他们全部从我们的索引中移去?nbsp; 

改进反垃圾网站算?/strong>

反垃圾网站算法是我们打击垃圾网站最有效的方法。对某一网站的举报可能改进我们对所有类似垃圾网站的处理算法。当然,在我们使用我们的新代码之前,我们会大量地测试新代码。这个过程需要时间。当人们?rdquo;为什么我举报的网站没有受到惩罚?”,如果是我们确认的垃圾网站举报,很可能是我们正在给出,或者将会给出一个算法上的处理?nbsp; 人工处理一个垃圾站?我们也可能人工处理一个确认了的垃圾网站。这个过程显然要快得多,但它并不是一个健全的方法。我们更愿意使用算法改善我们的搜索质量?/p>

我们可能联系网站管理员,让他们改正他们的网站

如果我们发现一个被举报的垃圾站点可能无意中违反了谷歌网站管理员指南,我们会试图联络网站管理员来以纠正他们的错误。我们可能通过电子邮件来联系网站管理员。如果他们已经在网站管理员工具上确认了他们的网站,我们会通过 信息中心来传递我们的信息?nbsp; 我们的宗旨是为用户提供最相关的结果。我们希望我们的用户和网站管理员继续举报垃圾网站。它对我们改进算法和改善搜索质量是有很大帮助的。如果您还不了解什么是垃圾网站,请访问我们的帮助中心或者在我们?a >讨论?/a>上发表你的问题。当然,如果你发现一个垃圾网站, 请告诉我?/a>?/p>
Tags -
, , ,

, ]]>
//www.2w0f.cn/post/317/ <![CDATA[百度分词算法详解]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Mon, 10 Sep 2007 09:48:34 +0000 //www.2w0f.cn/post/317/
理解分词技术对Ʊƽ̨工作具有极大意义,可以从科学的角度来分析关键词,并构想关键词部署策略;如果正向最大匹配算法的结论是正确的,那基本上可以断定,切词后的分词的权重是按照正向排序?br/>
我还想搞明白的是专用词典和普通词典,哪一个权重会更高?br/>
以下为转载的原文?/strong>
查询处理以及分词技?
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作?普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿?
但是,如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎。搜索引擎涉及到许多技术点,比如查询处理,排序算法,页面抓取算法,CACHE机制,ANTI-SPAM等等。这些技术细节,作为商业公司的搜索引擎服务提供商比如百度,GOOGLE等是不会公之于众的。我们可以将现有的搜索引擎看作一个黑盒,通过向黑盒提交输入,判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节?
查询处理与分词是一个中文搜索引擎必不可少的工作,而百度作为一个典型的中文搜索引擎一直强调其“中文处理”方面具有其它搜索引擎所不具有的关键技术和优势。那么我们就来看看百度到底采用了哪些所谓的核心技术?
我们分两个部分来讲述:查询处?中文分词?
一、查询处?
用户向搜索引擎提交查询,搜索引擎一般在接受到用户查询后要做一些处理,然后在索引数据库里面提取相关的信息。那么百度在接受到用户查询后做了些什么工作呢?
1、假设用户提交了不只一个查询串,比如“信息检?理论 工具”。那么搜索引擎首先做的是根据分隔符比如空格,标点符号,将查询串分割成若干子查询串,比如上面的查询就会被解析为:三个子字符串;这个道理简单,我们接着往下看?
2、假设提交的查询有重复的内容,搜索引擎怎么处理呢?比如查询“理?工具理论”,百度是将重复的字符串当作只出现过一次,也就是处理成等价的“理论工具”,而GOOGLE显然是没有进行归并,而是将重复查询子串的权重增大进行处理。那么是如何得出这个结论的呢?我们可以将“理论工具”提交给百度,返?41,000篇文?,大致看看第一页的返回内容?br/>OK。继续,我们提交查询“理?工具理论”,在看看返回结果,仍然是那么多返回文,当然这个不能说明太多问题,那看看第一页返回结果的排序,看出来了吗?顺序完全没有变化,而GOOGLE 则排序有些变动,这说明百度是将重复的查询归并成一个处理的,而且字符串之间的先后出现顺序基本不予考虑(GOOGLE是考虑了这个顺序关系的)?
3、假设提交的中文查询包含英文单词,搜索引擎是怎么处理的?比如查询”电影BT下载”,百度的方法是将中文字符串中的英文当作一个整体保留,并以此为断点将中文切分开,这样上述的查询就切为,不论中间的英文是否一个字典里能查到的单词也好,还是随机的字符也好,都会当作一个整体来对待。至于为什么,你用查询“电影dfdfdf下载”看看结果就知道了。当然如果查询中包含数字,也是如此办理?
到目前为止,一切很简单,也很清楚,百度怎么处理用户查询的呢?归纳如下:首先根据分割符号将查询分开,然后看看是否有重复的字符串,如果有,就抛弃多余的,只保留一个,接着判断是否有英文或者数字,如果有的话,把英文或者数字当作一个整体保留并把前后的中文切开?
接着该干什么呢?该考虑分词的问题了?
二、中文分?
首先,讲讲百度的分词时机或者条件问题,是否是个中文字符串百度就拿来切一下呢?非也,要想被百度的分词程序荣幸的切割一下也是要讲条件的,哪能是个字符串就切割啊?你当百度是卖锯条的么?
那么什么样的字符串才满足被切割的条件呢?简单说来,如果字符串只包含小于等于3个中文字符的话,那就保留不动,当字符串长度大?个中文字符的时候,百度的分词程序才出马大干快上,把这个字符串肢解掉?
怎么证明呢?我们向百度提交“电影下载”,看看返回结果中标为红字的地方,不难看出来,查询已经被切割成两个单词了,说明分词程序已经开工了,如果是?个中文字符更长的字符串,那分词程序就更不客气了,一定大卸八块而后快。我们来看看三个字符的情况,提交查询“当然择”,看起来这个查询不伦不类,那是因为我希望看到这个字符串被切分为,返回结?65篇相关页面,翻到最后一页,发现标红的关键字都是?当然择”连续出现的情况,好像没有切分,但是还不确定,那么再提交人工分好的查询“当然择”看看,返回结果1?90?00篇,基本上可以确定没有进行分词了,当然另外一种解释是:对于三个字符先切分,然后将切分后的结果当作一个短语查询,这样看到的效果和没有切分是相似的?br/>但是我倾向于判断百度对于少?个字符的串没有切分,奥卡姆不是说了么“如无必要,勿增实体”,干吗做无用功呢。那么如果没有切分,会有一个随之而来的问题,怎么从索引库里面提取未切分的字符串呢?这牵扯到索引的问题,我觉得百度应该采取了两套索引机制,一种是按照单词索引,一种是按照N-GRAM索引,至于索引的具体问题,以后在详细论述?
下面我们看看百度是采取的何种分词算法,现在分词算法已经算是比较成熟了,有简单的有复杂的,比如正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解。这里就不展开说了。但是要记住一点的是:判断一个分词系统好不好,关键看两点,一个是消除歧义能力;一个是词典未登录词的识别比如人名,地名,机构名等?
那么百度用的是什么方法?我的判断是用双向最大匹配算法。至于怎么推理得出的,让我们一步步来看。当然,这里首先有个假设,百度不会采取比较复杂的算法,因为考虑到速度问题?
我们提交一个查询“毛泽东北京华烟云”,又一个不知所云的查询,尽管不知所云但是自有它的道理,我想看看百度的分词是如何消歧以及是否有词典未登录词的识别的功能,如果是正向最大匹配算法的话,那么输出应该是:”毛泽东/北京/?烟云”,如果是反向最大匹配算法的话,那么输出应该是:”毛/?东北/京华烟云”,我们看看百度的分词结果:”毛泽东/?京华烟云”,一个很奇怪的输出,跟我们的期望相差较多,但是从中我们可以获得如下信息:百度分词可以识别人名,也可以识别”京华烟云”,这说明有词典未登录词的识别的功能,我们可以假设分词过程分为两个阶段:第一阶段,先查找一个特殊词典,这个词典包含一些人名,部分地名以及一些普通词典没有的新词,这样首先将”毛泽东”解析出来,剩下了字符串”北京华烟云”,而”北/京华烟云”,可以看作是反向最大匹配的分词结果。这样基本说得通。为了证明这一点,我们提交查询”发毛泽东北”,我们期望两种分词结果,一个是正向最大匹配,一个是上述假设的结果,事实上百度输出是第二种情况,这样基本能确定百度分词采取了至少两个词典,一个是普通词典,一个是专用词典(人名等)。而且是专用词典先切分,然后将剩余的片断交由普通词典来切分?
继续测验,提交查询“古巴比伦理”,如果是正向最大匹配,那么结果应该是,如果是反向最大匹配,那么结果应该?,事实上百度的分词结果是,从这个例子看,好像用了正向最大匹配算法;此外还有一些例子表明好像是使用正向最大匹配的;但是且慢,我们看这个查询“北京华烟云”,正向最大匹配期望的结果是,而反向最大匹配期望的结果?,事实上百度输出的是后者,这说明可能采用的反向最大匹配;从这点我们可以猜测百度采用的是双向最大匹配分词算法,如果正向和反向匹配分词结果一致当然好办,直接输出即可;但是如果两者不一致,正向匹配一种结果,反向匹配一种结果,此时该如何是好呢?br/>从上面两个例子看,在这种情况下,百度采取最短路径方法,也就是切分的片断越少越好,比如和相比选择后者,和相比选择后者。还有类似的一些例子,这样基本可以解释这些输出结果?
但是仍然遗留的问题是:如果正向反向分词不一致,而且最短路径也相同,那怎么办?输出正向的还是反向的结果?br/>我们再来看一个例子。提交查询“遥远古古巴比伦”,这个查询被百度切分为,说明词典里面有”巴比伦”,但是是否有”古巴比伦”这个词汇不确定,此时看不出是正向切分还是反向切分得出的结果,换查询为“遥远古巴比伦”,此时被切分为“遥?古巴比伦”,这说明词典里面有”古巴比伦”这个词汇,这说明了“遥远古古巴比伦”是正向最大匹配的结果。那为什么“遥远古古巴比伦”不会被反向切分为”遥/远古/古巴比伦”呢,百度的可能选择是这种情况下选择单字少的那组切分结果?
当然还可以继续追问:如果切分后单字也一样多,那怎么办?最后看一个例子,查询“王强大小:”,百度将其切分为“王/强大/小”,是正向切分的结果,如果是反向的会被切分为“王/?大小”,这说明有歧义而且单字也相同则选择正向切分结果?
OK,看到这里可能头已经有些晕了,最后总结一下百度的分词算法,当然里面还是有猜测的成分,算法如下?
首先查询专用词典(人名,部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果。如果不一 致,则输出最短路径的那个结果,如果长度相同,则选择单字词少的那一组切分结果。如果单字也相同,则选择正向分词结果?
百度一直宣传自己在中文处理方面的优势,从上面看,分词算法并无特殊之处,消歧效果并不理想,即使百度采取比上述分词算法复杂些的算法也难以说成是优势,如果说百度有优势的话,唯一的优势就是那个很大的专用词典,这个专用词典登录了人名(比如大长今),称谓(比如老太太),部分地名(比如阿联酋等),估计百度采用学术界公布的比较新的命名实体识别算法从语料库里面不断识别出词典未登录词,逐渐扩充这个专门词典。如果这就是优势的话,那么这个优势能够保持多久就是个很明显的问题?
Spelling Checker拼写检查错误提?以及拼音提示功能)
  
拼写检查错误提示是搜索引擎都具备的一个功?也就是说用户提交查询 给搜索引?搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错?那么我们就来分析看看百度?怎么实现这一功能?
我们分析拼写检查系统关注以下几个问?
(1)系统如何判断用户的输入是有可能发生错误的查询?
(2)如果判断是可能错误的查询输入,如何提示正确的词汇呢?
  
那么百度是如何做的呢?百度判断用户输入是否错误的标?我觉得应该是查字?如果发现字典里面不包含这个词?那么很有可能是个错误的输?此时启动错误提示功能,这个很好判断,因为如果是一个正常词汇的?百度一般不会有错误提示,而你故意输入一个词典不可能包含的所谓词?此时百度一般会提示你正确的检索词?
那么百度是怎么提示正确词汇的呢?很明显是通过拼音的方?比如我输入查? 制才",百度提供的提示词汇为: ?制裁 质材纸材",都是?音字.所以百度必然维持着一个同音词词典,里面保留着同音词信?比如可能包含着下面这条词条: ?zhi cai à制裁,质材,纸材",另外还有一 个标注拼音程?现在能够看到的基本流程是: 用户输入" 制才",查词?发现没有这个词汇,OK,启动标注拼音程序,? 制才"标注为拼?zhi cai",然后查找同音词词?发现同音? 制裁,质材,纸材",那么提示用户可能的正确拼?
整体流程看起来很简?但是还有一些遗留的小问?比如是否将词表里面所有同音词都作为用户的提示信息?比如某个拼音?0个同音词,是否都输出呢?百度并没有将所有同音词都输出而是选择一定筛选标?选择其中几个输出.怎么证明这一?我们看看拼音"liu li"的同音词,紫光输入法提示同音词汇有" 流丽 流离 琉璃流利"4?我们看看百度返回几个,输入"流厉"作为查询,这里是故意输入一个词典不包含的词?这样百度的拼写检查才开始工?百度提示: " 琉璃刘丽 刘莉 ",这说明什?说明不是所有同音词都输?而是选择输出,那么选择的标准是什?
我能够猜测到的方法是对于用户查询LOG进行统计,提取用户查询次数多的那些同音词输?如果是这样的?上面的例子说明用户搜?琉璃"次数比其它的都要高些,次之? 刘丽",再次? 刘莉",看来大家都喜欢查询自己或者认识的人的名字.
另外一个小问题:同音词词典包?字词,3字词,那么是否包含4字词以及更长的词?是否包含一字词? 这里一字词好回?不用测试也能知道肯定不包?因为你输入一个字,谁知道是否是错误的呢?
反正只要是汉字就能在词表里面找到,所以没有判断依?二字词是包含?上面有例?三字词也包含,比如查询 "中城?百度错误提示:"中成?,修改查询?重城?,还是提示"中成? ,再次修改查询 "重城?,百度依然提示"中成?. 那么4字词汇呢?
百度还是会给你提示的,下面是个例子:
输入:静华烟云 提示 京华烟云
输入:静话烟云 提示 京华烟云
输入:静话阎晕 提示 京华烟云
那么更长的词汇是否提 示呢?也提?比如我输? "落花世界有风?,这个查询是什么意?估计读过古诗的都知道,看看百度的提?落花时节又逢君",这说明什?说明同音词词典包含不同长度的同音词信?另外也说明了百度的核心中文处理技?也就是那个词?还真挺大?
但是,如果用户输入?查询由两个或者两个以上子字符串构?那么百度的错误提示功能就罢工?比如输入查询"哀?,百度提示"艾提 挨踢",但是.输入?"?哀?",则没有任何错误提?
还有一个比较重要的问题:如果汉字是多音字那么怎么处理?百度呢比较偷?它根本就没有对多音字做处?我们来看看百度的一个标注拼音的错误,在看这个错误前先看看对于多音字百度是怎么提示错误?我们输入查询"俱长",百度提示"剧场 局?, “俱?的拼音有两个:"ju zhang /ju chang" ,可见如果是多音字则几种情况都提示..现在我们来看看错误的情况, 我们输入查询"剧常",百度 提示":剧场局?,提示?剧场"当然好解?因为是同音字,但是为什?"局?也会被提示呢?这说明百度的同音字词典有错误,说明?ju chang"这个词条里面包含"局?这个错误的同音词.让我们顺藤摸?这个错误又说明什么问题呢?
说明百度的同音词典是自动生成?而且没有人工校对.还说明在自动生成同音词典的过程中,百度不是根据对一篇文章标注拼音然后在抽取词汇和对应的拼音信息获得?而是完全按照某个词典的词条来标注音节?
所以对于多音字造成的错误无法识别出?如果是对篇章进行拼音标注,可能就不会出现这种很容易发现的错误标? 当然还有另外一种解?就是"局?是故意被百度提示出来可能的正确提示词?因为考虑到南方人"zh"?"ch"等前后鼻音分不清?那么是这样的?我们继续测试到底是何种情?是百度有错误还是这是百度的先进的算法?
我们考虑词汇"长大 ",故意错误输入?赃大",如果百度考虑到了前后鼻音的问?那么应该会提?长大",但是百度提示?藏大".这说明什?说明百度并没有考虑前后鼻音问题,根本就是系统?? 我们输入查询"悬赏",故意将之错误输入?悬桑",没有错误提示,说明确实没有考虑这种情况.前鼻音没有考虑,那么后鼻音考虑了么,我们输入":经常",故意改为后鼻?"经缠",百度提示?经产 经忏",还是没有考虑后鼻?这基本可以确定是百度系统的错误导?
根据以上推导, 我们可以得出如下结论:百度是将分词词典里面每个词条利用拼音标注程序标注成拼?然后形成同音词词?所以两个词典是同样大的 ,而且这个词典也随着分词词典的增长而在不断增长. 至于标注过程中多音字百度没有考虑,如果是多音字就标注成多个发音组合,通过这种方式形成同音词词?这样的同音词词典显然包含着很多错误.
最后一个问?百度对于英文进行拼写检查么?让我们试试看,输入查询"china",不错,搜到不少结果,专注中文搜索的百度还能搜索到英文,真是意外的惊?变换一下查?chine",会更加意外惊喜的给我们提?china"?
百度提示的是: 吃呢持呢,原来是不小心触发了百度的拼音搜索功能?那么拼音搜索和中文检查错误是否采用同一套同音词词典?让我们来实验一?搜索"rongji",百度提示" 榕基 溶剂 容积",OK,换个中文查询"容机",百度提示" 榕基溶剂容积",看来使用的是同一套同音词词典.也就是说百度的中文纠错和拼音检索使用的机制相同,中文纠错多了一道拼音注音的过程而已.难道这就是传说中那个百度?事实上是一个无比强大的拼音输入?的拼音提示功能么?
最后让我们总结归纳一下百度的拼写检查系?
后台作业:
(1)前面的文章我们说?百度分词使用的词典至少包含两个词典一个是普通词?另外一个是专用词典(专名?,百度利用拼音标注程序依次扫描所有词典中的每个词?然后标注拼音,如果是多音字则把多个音都标上,比如"长大",会被标注?zhang da/chang da"两个词条.
(2)通过标注完的 词条,建立同音词词?比如上面?长大",会有两个词条: zhang daà长大" , chang daà长大.
(3)利用用户查询LOG频率信息给予每个 中文词条一个权?
(4)OK,同音词词典建立完成了,当然随着分词词典的逐步扩大,同音词词典也跟着同步扩大;
  
拼写 检?
(1)用户输入查询,如果是多个子字符?不作拼写检?
(2)对于用户查询,先查分词词典,如果发现有这个单词词?OK, 不作拼写检?
(3)如果发现词典里面不包含用户查?启动拼写检查系?首先利用拼音标注程序对用户输入进行拼音标?
(4)对于标注好的拼音在同音词词典里面扫描,如果没有发现则不作任何提?
(5)如果发现有词?则按照顺序输出权重比较大的几个提 示结?
  
拼音提示:
(1)对于用户输入的拼音在同音词词典里面扫?如果没有发现则不作任何提?
(2)如果 发现有词?则按照顺序输出权重比较大的几个提示结?
上面说过,经过分析得出百度的分词系统采用双向最大匹配分?但是后来发现推理过程中存在一个漏?而且推导出来的百度分词算法步骤还是过于繁?所以进一步进行分?看看是否前面的推导有错误.
那么以前的分析有什么漏洞呢?
我们推导百度分词有反向最大匹配的依据是百度将"北京华烟?分词?从这里看好像采用了反向最大匹?因为正向最大匹配的结果应该?但是由此就推论说百度采用了双向最大匹配还是太仓促?前面文章我们也讲?百度有两个词?一个普通词?一个专有词?而且是专有词典的词汇先切?然后将剩余片断交给普通词典去切分.所以上面的"北京华烟?之所以被切分?另外一个可能是:京华烟云这个词汇是在专有词典里面存储?所以先分析,这样得出"京华烟云",剩下"?,没什么好切分?所以输?
这里只是假设,那么是否确实"京华烟云"在专有词典呢?我们再看一个例?山东北京华烟?,百度切分的结果是,如果"京华烟云"在普通词?如果是反向切?那么结果应该?如果是正向切分应该是,无论如何都分不出.这说明什?
说明"京华烟云"是在那个专有词典,所以先切分?京华烟云",然后剩下?山东?交由普通词典切?明显是正向最大匹配的结果输出.当然按照我们在第一篇文章的算法推导"山东?的切分也会得出的结论,但是明显比正向最大匹配多几个判断步骤,既然效果一?另外一个更加简洁的方法也能说得?那当然选择简便的方法?所以初步判断百度采取的是正向最大匹?
我们继续测试采用何种分词算法,为了减少专有词典首先分词造成的影?那么查询里面不能出现相对特殊的词?构筑查询"天才能量?,这里应该没有专有词典出现过的词汇,百度切分?看来是正向最大匹配的结果.另外,如果所有查询词汇都出现在专有词?那么采取的是何种方法?这样首先就得保证词汇都出现在专有词典,这么保证这一点呢?
我们构造查?铺陈晓东?,百度切分?可以看出 "陈晓?是在专有词典的所以先切分出来.另外一个例?"山东京城",百度切分?说明"东京"是在普通词典的.OK,构造查?陈晓东京华烟?,通过前面分析可以看出两个词汇都在专有词典里面,百度切分?说明对于专有词典词汇也是采取正向最大匹配或者双向最大匹?那么使用反向最大匹配了? 构造查询例?陈晓东方不败",首先我们肯定"陈晓??东方不败"都是在专有词典出现的,如果是正向切?那么应该是或者如果是反向切分则是,可以看出百度的切分是或?说明采用的是正向最大匹?通过分析,百度的词典不包含"不败"这个单词,所以实际上百度的切分结果是 ,很明显这和我们以前推导的算法是有矛盾?所以以前的分析算法确实有问?所以结论是百度采取的是正向最大匹配算?
重新归纳一下百度的分词算法系统:首先用专有词典采用最大正向匹配分?切分出部分结?剩余没有切分交给普通词?同样采取正向最大匹配分?最后输出结?
另外,GOOGLE也是采用正向最大匹配分词算?不过好像没有那个专用词典,所以很多专名都被切碎了.
从这点讲,GOOGLE在中文词典构建上比百度差?还需要加把子力气才行,不过这也不是什么多难的?

Tags - , , , ]]>
//www.2w0f.cn/google-webmaster-treat-auto-links/ <![CDATA[Google官方声明:网站应该避免自动产生的链接]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Thu, 23 Aug 2007 04:38:53 +0000 //www.2w0f.cn/google-webmaster-treat-auto-links/ 好网站的特?/strong>

好的网站通常内容丰富、更新及时。好的网站往往链接其他好网站,同时也吸引更多点击。自然的链接是谷歌页面排名算法决定排名的因素之一,但是,很多网站管理员认?ldquo;反向链接越多,网站的排名越高”。这一理论是错误的?nbsp; 谷歌的排名算法对网站的评价是一个多元化的系统。在考虑反向链接的同时会甄别有效链接和自动产生的链接。一个明显的例子就是 2007 ?5 月份结束的渡虎谷大赛,谷歌排名第一的网站的反向链接总数?3,600 个左? 其他许多低排名网站的反向链接超过?10,000 个,大多数的链接是程序产生的链接?nbsp; 

什么是自动产生的链接?

我们常看到的程序自动产生的链接有两种?/p>

        
  1. 使用群发软件所产生的链?/li>    
  2. 使用程序自动往自己或合作伙伴的网页中加链接?/li>

这是一个由群发软件产生自动链接并发表在留言簿上的例子:

这是一个由程序在自己或合作伙伴的网页上添加自动链接的例子:

请注意图中的“?rdquo;?ldquo;上汽”的拙劣链接?nbsp; 我们对自动链接的处理  网站通过买卖链接,自助链接,和程序自动产生的链接与谷歌网站管理员指南相抵触。请注意?/p>

如果你的网站有自动产生的链接,我们会有如下处?/strong>?/p>

        
  1. 谷歌不会给予自动产生的链接任何权?/li>    
  2. 如果一个网站为自己产生不自然的链接,该网站在谷歌中的排名会受到影响并可能被从我们的索引中移去?/li>

最后,我想强调的是,网站管理员应该把重点放在建立更好的内容和发现自然链接上。想了解更多关于建立高质量网站的信息,请访问如何建立一个对谷歌友好的网?/a>?/p>
Tags -
, , ]]> //www.2w0f.cn/post/310/ <![CDATA[Google宣布去掉“补充材料”标记]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Wed, 01 Aug 2007 09:24:40 +0000 //www.2w0f.cn/post/310/
  在去年年底以前,网页被标记为“补充材料”后,它就等于被Google打入冷宫了。只有当主索引数据库里实在没有相关的结果,Google才会把“补充材料”网页加进常规搜索结果里。此外,Google通常不会或隔很长时间才会重复抓取和分析这些“补充材料”网页。因此如果一个网站有越多的内容被 Google标记为“补充材料”,那么网站被搜索到的机会也就越小了。不过Google也意识到这样的处理方式会损害用户的搜索体验,因为有进候,用户想找的内容刚好就是“补充材料”里的网页?br/>
  于是在去年年初,Google的基层架构全面升级至Big Daddy后, Google便开始改变这种处理方式。直至去年年底,Google终于作出了一些重要的改变。Google全面改进了抓取系统,比如能处理链接里的更多参数、突破网站更多限制(比如支持JS文抓取、增强对多媒体内容的抓取等),努力提高了对“补充材料”的抓取及更新频率、范围,使“补充材料”和常规结果之间的差距越来越小。因此用户在搜索时,可直接获得比之前更多的来自“补充材料”的网页结果。Google还透露,未来的目标是确保每次搜索都能直接查询补充索引数据库的内容,并且预计这个目标会在今年夏天达成?br/>
  由于“补充材料”和常规结果之间的差距越来越小,因此Google觉得不必要再特地将来自补充索引数据库的网页标记为“补充材料”,于是它决定停止了这一做法。换言之,“补充材料”将成为历史。这意味着以后我们在Google上面进行搜索,将得到更准确及更全面的搜索结果,因为Google的两大索引数据库正在融合。去掉补充材料对SEO优化能产生什么样的影响,是仅仅形式上的人性化还是在底层网页权重级别判断上真正不再细致划分?总之,希望GOOGLE的算法更完整更贴近用户实际的搜索需?br/>Tags - , , ]]>
//www.2w0f.cn/post/304/ <![CDATA[Google AdSense防欺骗原理]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Mon, 16 Jul 2007 14:28:56 +0000 //www.2w0f.cn/post/304/
     随着在线广告的流行,pay by per click (每次点击付钱)的模?逐渐被大家接受。可是随之而来的问题就是fraud clicking的预防迫在眉捷,因为这将直接关系到这种广告模式能否长久生存和能否成为一种真正的网站拥有者的收入来源?br/>
下面介绍Google Adsense系统如何从系统角度出发防止点击欺骗,希望对其它的在线广告系统防止虚假点击能有很好的指导作?

  1] 点击?= 点击次数/共浏览的次数?点击率是一个判断是否有无fraud clicks的关键的方法,可以想像一个网站上的广告的点击率超?0%将意味这什么?

  2] 点击覆盖?独立IP ,这个分布里如果?单个IP ?点击/浏览)=点击覆盖率超出了3倍的系统误差范围内将有作弊的嫌疑?br/>
  例子,例如来?129.119.200.1 的用户浏览了 16个网页,点击?个广告,而整个广告的点击率「从[1]里计算的到」是5%,那么计算得?

  %5 X 16 =~ 1,方差为Sqrt(1) = 1,点击覆盖率=4/1 = 4 ,根据数学上高斯分布,这种概率小于万分之一?br/>
  3] 点击率『点击覆盖率?IP/时间

  根据时间序列对点击率进行分析,如果在某一个时间段上有明显的峰值,那么这将以为着有潜在的欺骗点击的可能?br/>
  Ratio VS time

  4] 网页load的时间和 广告点击时间差的分析,以及每两次click之间时间差序列的分析

  [网页load的时间和 广告点击时间差] 应该是一个泊松分?possion distribution,而每两次click之间的时间差也应该是一个Possion distribution,如果这个时间用秒记,大?5秒的话基本上呈现高斯分布的形状?br/>
  5] 针对Proxy点击的分?br/>
  改变IP进行点击可以说在以往是最难以解决最难以发现作弊方式,大概国人进行Alexa的Boost时就多半采用了Proxy进行虚假点击的方法,可是这里只要通过反向监查IP的来源是否是带有Proxy功能的服务器就可以知道了?br/>
  Reverse Proxy check

  6] 针对 http_agent的分?br/>
  Http_agent/时间 的时间序列的分析,峰值超?方差需要审?br/>
  7] 针对 http_referral 的分?br/>
  referral/时间 的时间序列的分析 ,峰值超?方差需要审?br/>
  8] 整体效果上还有一个非常有用的?

  所有用户的有效的每千次展示费用的均?独立IP
       这个将能更加直接找到spam clicking 的运行计算机并且予以封杀?br/>Tags - , ]]>
//www.2w0f.cn/post/302/ <![CDATA[如何解决GOOGLE“该网站可能会损害您的计算机”]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Wed, 04 Jul 2007 03:51:59 +0000 //www.2w0f.cn/post/302/
那这个提示用户的语句究竟是怎么回事呢?听听Goolge是如何解释的?br/>
关于恶意软件警告:“该网站可能会损害您的计算机?br/>
  在现今资讯科技发达的时代,我们几乎做什么事都离不开网络了,网站的安全性显得日益重要。那些含有恶意软件的网站,常常导致用户的电脑发生问题、信用卡或是银行账户号码被泄漏、甚至身份被盗窃,造成无数的金钱损失。Google(谷歌)一直致力于保护用户不被连结至传播恶意软件的网站,希望将用户受到恶意软件危害的几率降至最低。因此,谷歌?StopBadware.org 合作,于搜索结果中对那些?StopBadware 公布的指南下被判定为发布恶意软件的网站标示警告:该网站可能会损害您的计算机。身为网站管理员,您可能很关切自己的网站被加注该警告的可能性;但我们要向您保证,我们很认真看待您的疑虑,并且非常小心以避免错误的标示?br/>
  其实,向用户提出警告只能解决部分的问题。我们更重要的目的是帮助网站管理员们保护自己的用户,与他们一起努力来消除威胁。多数被标示警告的网站,并非有意散布恶意软件,而是因为被黑客入侵了。我们发现,许多网站管理员不知道他们的网站遭到入侵;当他们看到自己努力耕耘的网站竟然在搜索结果中被标示了这个警告,都感到非常意外。在此,我们要推荐您使用谷歌网站管理员工具,以便您能及早发现您的网站被标示了警告。我们将恶意软件通知与网站管理员工具结合,并通过电子邮件发送给部分网站被标示警告的网站管理员。如果您的网站被判定为散布恶意软件,您会在网站管理员工具的“诊断?标签下看到相关的警告,以及找到帮助您纠正这个问题的信息。此外,该页也显示了您网站上被判定为危险网址的范例。当您因为找不到恶意软件的藏身之处而头疼的时候,这个提示便可助您一臂之力。例如,受到入侵网站的常见情形是被插入一个像素的 iframe,而造成了自动从其他网站下载恶意软件。通过提供网址的示例,网站管理员可以进一步查找问题的来源,并作出修正来加强网站的安全?br/>
  如果您清除了您网站上所有的恶意软件,或是您认为您的网站被误判了,请访问//stopbadware.org/home/review  要求复审。一旦复审成功,您的网站将不再被标示该警告,而您的用户也会因为您的努力而受到更多的保障。然而我们还是要提醒您,即使您的网站没有恶意软件的警告标示,并不代表您的网站一定是安全无虞的。您可以参?StopBadware 所提供的一些小技巧来加强您网站的安全;持续不断的保护及监控您的网站才是避免恶意软件入侵的不二选择?br/>
Tags - , ]]>
//www.2w0f.cn/post/293/ <![CDATA[PR的下降与网站内容质量有关?]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Sat, 12 May 2007 16:40:31 +0000 //www.2w0f.cn/post/293/ SEO爱好?/a>,看到这样一篇文章:PR的下降与网站内容质量有关?br/>



今天看到了采访Google中国工程研究院副院长刘骏老师的文章(//news.mydrivers.com/1/82/82960.htm),当提到中国PR普遍下降的问题,刘先生的回答让我很惊讶,他说这个问题原因很多,比如复制等等…?br/>
PR不是链接量化计算方式么?Google官方虽然说明比较含糊,但是还是指出了PR的精髓就是链接质量与数量。完全没有提到网站内容质量云云…?br/>
怎么会和网站内容上靠上边?我想现在PR计算方式已经不是我们几年前所认识的PR机制了,在解释PR下降的问题上,我们往往都是从外部链接上分析,可能是与交换链接网站的PR下降间接影响了自己?br/>
我们经常抱怨,外国的PR往往比我们高,凭心而论,外国的确比较尊重版权,复制并不多,刘老师的话很明显,中国网站PR普遍低的原因就是采集、复制。我想这个比较可信,因为Google多次申明自己的PR算法是全球统一,不会因地而异?br/>
其实中国优质网站总量比较少,在一定程度上也影响了中国网站的PR,这个也是很大的因素之一?br/>
如果刘老师的回答没有敷衍之词,或许这个回答也解释了为什么少数网站并没有什么外部链接,却也??的PR值,到底是什么方式鉴定网站内容质量问题?虽然我并不清楚,不过“补充材料”或许能很好挑选有价值网页,是不是网站内的“补充材料”页面的比率直接影响网站内容的质量高?其实Google很容易能分辨网站质量,但是我实在没有想到能和PR联系在一起?br/>
既然PR受到网站质量的影响,反过来说,PR在一定程度上反应了网站内容质量,如果这是真的,那么,现在流行的PR无用论又被推翻了。如果我的猜测是事实的话,PR这个“花哨”的东西又开始吃香了…?br/>


我是最近几天注意到PR的变化,虽然我的SEO博客仍保持在4,但据了解,很多网站的PR都降了?br/>
PR值与网站内容质量有关,黑色梦中不赞同这种说法;我更倾向于把原因归结在链接质量,二PR值大幅度下降可能是GOOGLE应对中国疯狂的SEO链群的一种策略的结果?br/>
PR是GOOGLE以前的核心排名算法,既然是算法,个人理解是一种逻辑,算法是可以不断完善的,以不断根据实际需要进行调整,但是。。。算法的出发点是不会变化的,PR是有专利权的;如果说,GOOGLE更加注重内容质量,调整排名影响因素的比重,那大可以使用新的算法来控制其他排名因素,譬如:神经算法,以对中国地区的互联网大量重复性内容进行科学的筛选和判断,应该不会改变以前适用的PR算法?br/>
那为什么中国网站的PR普遍下降?原因何在?

我认为是链接的相关性权重被进一步提升,每个链接源引出的链接都将经过严格的算法检查,对于特殊的链接源进行忽略,以防止大量的垃圾链接对搜索结果质量的影?也许自然的单向链接将获得更多的权重?br/>
PR真的那么重要吗?我想不是,起码不是决定性的因素,根据个人经验,PR影响已经不足30%,说PR也还未必准确,应该说外链质量,因为已有太多的实例证明了这一点;忘记PR值吧,考究你获得的每个导入链接,通过正确的思路来建立链接,效果会更好~

引用
作? 郝聪
原载: Ʊƽ̨
版权所?转载时请注明作者并以链接形式标注原始出?

Tags - , , ]]>
//www.2w0f.cn/post/285/ <![CDATA[谷歌发布网站广告优化器]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Sat, 07 Apr 2007 07:04:30 +0000 //www.2w0f.cn/post/285/ Ʊƽ̨器。据称。该工具是可以帮助AdWords 广告主将更多的访问量转化为销售量、注册量或下载量?br/>
  据悉,谷歌网站优化器是一款多功能的登陆页面优化工具,可以让营销人员得以测试各种有关网页内容的想法,例如标题、促销性副本或图像等。该应用提供了易于阅读的报告,让广告主清晰地看到究竟哪一种变化最能引起站点访问者的共鸣。它是一种自助式应用,让站长自己动手设置和运行不同类型的登陆页面实验?br/>
  官方透露,Google(谷歌)网站优化?www.google.com/websiteoptimizer)目前为试用版,它整合到了Google(谷歌)AdWords计划中,并免费提供给AdWords广告主?br/>
  据称今后的几个星期,谷歌网站优化器应用自动对所有广告主的帐号开放。站长可以根据最高的转化率来判断哪些内容是最有效的?br/>Tags - , , ,
, , ]]> //www.2w0f.cn/post/272/ <![CDATA[百度中文分词算法分析之二]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Thu, 01 Feb 2007 06:08:37 +0000 //www.2w0f.cn/post/272/ Spelling Checker拼写检查错误提?以及拼音提示功能)
  
拼写检查错误提示是搜索引擎都具备的一个功?也就是说用户提交查询 给搜索引?搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错?那么我们就来分析看看百度?怎么实现这一功能?
  我们分析拼写检查系统关注以下几个问?
  (1)系统如何判断用户的输入是有可能发生错误的查询?  
  (2)如果判断是可能错误的查询输入,如何提示正确的词汇呢?
  
  那么百度是如何做的呢?百度判断用户输入是否错误?标准,我觉得应该是查字?如果发现字典里面不包含这个词?那么很有可能是个错误的输?此时启动错误提示功能,这个很好判断,因为如果 是一个正常词汇的?百度一般不会有错误提示,而你故意输入一个词典不可能包含的所谓词?此时百度一般会提示你正确的检索词?
   那么百度是怎么提示正确词汇的呢?很明显是通过拼音的方?比如我输入查? 制才",百度提供的提示词汇为: ?制裁 质材 纸材",都是?音字.所以百度必然维持着一个同音词词典,里面保留着同音词信?比如可能包含着下面这条词条: ?zhi cai à制裁,质材,纸材",另外还有一 个标注拼音程?现在能够看到的基本流程是: 用户输入" 制才",查词?发现没有这个词汇,OK,启动标注拼音程序,? 制才"标注为拼?zhi cai",然后查找同音词词?发现同音? 制裁,质材,纸材",那么提示用户可能的正确拼?
  整体流程看起来很简?但是还有一些遗?的小问题,比如是否将词表里面所有同音词都作为用户的提示信息?比如某个拼音?0个同音词,是否都输出呢?百度并没有将所有同音词都输 出而是选择一定筛选标?选择其中几个输出.怎么证明这一?我们看看拼音"liu li"的同音词,紫光输入法提示同音词汇有" 流丽 流离 琉璃 流利"4?我们看看百度返回几个,输入"流厉"作为查询,这里是故意输入一个词典不包含的词?这样百度的拼写检查才开始工?百度提示: " 琉璃刘丽 刘莉 ",这说明什?说明不是所有同音词都输?而是选择输出,那么选择的标准是什?我能够猜测到的方法是对于用户查询LOG进行 统计,提取用户查询次数多的那些同音词输?如果是这样的?上面的例子说明用户搜?琉璃"次数比其它的都要高些,次之? 刘丽",再次? 刘莉",看来大家都喜欢查询自己或者认识的人的名字.
  另外一个小问题:同音词词典包?字词,3字词,那么是否包含4字词以及更长的词 ?是否包含一字词? 这里一字词好回?不用测试也能知道肯定不包?因为你输入一个字,谁知道是否是错误的呢?反正只要是汉字就能在词表 里面找到,所以没有判断依?二字词是包含?上面有例?三字词也包含,比如查询 "中城?百度错误提示:"中成?,修改查询?重城?,?是提?中成? ,再次修改查询 "重城?,百度依然提示"中成?. 那么4字词汇呢?
  百度还是会给你提示的,下面是个例子:
  输入:静华烟云 提示 京华烟云
  输入:静话烟云 提示 京华烟云
  输入:静话阎晕 提示 京华烟云
  那么更长的词汇是否提 示呢?也提?比如我输? "落花世界有风?,这个查询是什么意?估计读过古诗的都知道,看看百度的提?落花时节又逢君",这说明什??明同音词词典包含不同长度的同音词信息,另外也说明了百度的核心中文处理技?也就是那个词?还真挺大?
  但是,如果用户输入?查询由两个或者两个以上子字符串构?那么百度的错误提示功能就罢工?比如输入查询"哀?,百度提示"艾提 挨踢",但是.输入?"?哀?",则没有任何错误提?
  还有一个比较重要的问题:如果汉字是多音字那么怎么处理?百度呢比较偷?它根本就没有对多音字做处??们来看看百度的一个标注拼音的错误,在看这个错误前先看看对于多音字百度是怎么提示错误?我们输入查询"俱长",百度提示"剧场 局?, “俱?的拼音有两个:"ju zhang /ju chang" ,可见如果是多音字则几种情况都提示..现在我们来看看错误的情况, 我们输入查询"剧常",百度 提示":剧场局?,提示?剧场"当然好解?因为是同音字,但是为什?"局?也会被提示呢?这说明百度的同音字词典有错误,说明?ju chang"这个词条里面包含"局?这个错误的同音词.让我们顺藤摸?这个错误又说明什么问题呢?说明百度的同音词典是自动生成?而且没有 人工校对.还说明在自动生成同音词典的过程中,百度不是根据对一篇文章标注拼音然后在抽取词汇和对应的拼音信息获得?而是完全按照某个 词典的词条来标注音节?所以对于多音字造成的错误无法识别出?如果是对篇章进行拼音标注,可能就不会出现这种很容易发现的错误标? 当然还有另外一种解?就是"局?是故意被百度提示出来可能的正确提示词?因为考虑到南方人"zh"?"ch"等前后鼻音分不清?那么是这 样的?我们继续测试到底是何种情?是百度有错误还是这是百度的先进的算法?
  我们考虑词汇"长大 ",故意错误输入?赃大",如果 百度考虑到了前后鼻音的问?那么应该会提?长大",但是百度提示?藏大".这说明什?说明百度并没有考虑前后鼻音问题,根本就是系统?? 我们输入查询"悬赏",故意将之错误输入?悬桑",没有错误提示,说明确实没有考虑这种情况.前鼻音没有考虑,那么后鼻音考虑了么,我们 输入":经常",故意改为后鼻?"经缠",百度提示?经产 经忏",还是没有考虑后鼻?这基本可以确定是百度系统的错误导?
  根据?上推? 我们可以得出如下结论:百度是将分词词典里面每个词条利用拼音标注程序标注成拼?然后形成同音词词?所以两个词典是同样大的 ,而且这个词典也随着分词词典的增长而在不断增长. 至于标注过程中多音字百度没有考虑,如果是多音字就标注成多个发音组合,通过这种方式 形成同音词词?这样的同音词词典显然包含着很多错误.
  最后一个问?百度对于英文进行拼写检查么?让我们试试看,输入??china",不错,搜到不少结果,专注中文搜索的百度还能搜索到英文,真是意外的惊?变换一下查?chine",会更加意外惊喜的给我们提 ?china"?百度提示的是: 吃呢持呢,原来是不小心触发了百度的拼音搜索功能?那么拼音搜索和中文检查错误是否采用同一套同音词词典 ?让我们来实验一?搜索"rongji",百度提示" 榕基 溶剂 容积",OK,换个中文查询"容机",百度提示" 榕基 溶剂容积",看来使用的是同一?同音词词?也就是说百度的中文纠错和拼音检索使用的机制相同,中文纠错多了一道拼音注音的过程而已.难道这就是传说中那个百度?事实 上是一个无比强大的拼音输入?的拼音提示功能么?
  最后让我们总结归纳一下百度的拼写检查系?
  后台作业: (1)前面的文 章我们说?百度分词使用的词典至少包含两个词典一个是普通词?另外一个是专用词典(专名?,百度利用拼音标注程序依次扫描所有词典中 的每个词?然后标注拼音,如果是多音字则把多个音都标上,比如"长大",会被标注?zhang da/chang da"两个词条.
  (2)通过标注完的 词条,建立同音词词?比如上面?长大",会有两个词条: zhang daà长大" , chang daà长大.
  (3)利用用户查询LOG频率信息给予每个 中文词条一个权?
  (4)OK,同音词词典建立完成了,当然随着分词词典的逐步扩大,同音词词典也跟着同步扩大;
  
  拼写 检?
  (1)用户输入查询,如果是多个子字符?不作拼写检?
  (2)对于用户查询,先查分词词典,如果发现有这个单词词?OK, 不作拼写检?
  (3)如果发现词典里面不包含用户查?启动拼写检查系?首先利用拼音标注程序对用户输入进行拼音标?
   (4)对于标注好的拼音在同音词词典里面扫描,如果没有发现则不作任何提?
  (5)如果发现有词?则按照顺序输出权重比较大的几个提 示结?
  
  拼音提示:
  (1)对于用户输入的拼音在同音词词典里面扫?如果没有发现则不作任何提?
  (2)如果 发现有词?则按照顺序输出权重比较大的几个提示结?
Tags - , , ]]> //www.2w0f.cn/post/271/ <![CDATA[百度中文分词算法分析之一]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Thu, 01 Feb 2007 06:07:32 +0000 //www.2w0f.cn/post/271/ 查询处理以及分词技?/strong>

随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象. 搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿?

但是,如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎.搜索引擎涉及到许多技术点,比如查询处理,排序算法,页面抓取算法,CACHE机制,ANTI-SPAM等等.这些技术细?作为商业公司的搜索引擎服务提供商比如百度,GOOGLE等是不会公之于众?我们可以将现有的搜索引擎看作一个黑?通过向黑盒提交输?判断黑盒返回的输出大致判断黑盒里面不为人知的技术细?

查询处理与分词是一个中文搜索引擎必不可少的工作,而百度作为一个典型的中文搜索引擎一直强调其”中文处理”方面具有其它搜索引擎所不具有的关键技术和优势.那么我们就来看看百度到底采用了哪些所谓的核心技?

我们分两个部分来讲述:查询处理/中文分词.

一. 查询处理

用户向搜索引擎提交查?搜索引擎一般在接受到用户查询后要做一些处?然后在索引数据库里面提取相关的信?那么百度在接受到用户查询后做了些什么工作呢?

1. 假设用户提交了不只一个查询串,比如”信息检?理论 工具?那么搜索引擎首先做的是根据分隔符比如空格,标点符号,将查询串分割成若干子查询?比如上面的查询就会被解析?<信息检?理论,工具>三个子字符串;这个道理简?我们接着往下看.

2. 假设提交的查询有重复的内?搜索引擎怎么处理?比如查询”理?工具 理论?百度是将重复的字符串当作只出现过一?也就是处理成等价的”理?工具?而GOOGLE显然是没有进行归?而是将重复查询子串的权重增大进行处理.那么是如何得出这个结论的?我们可以将”理?工具”提交给百度,返回341,000篇文?大致看看第一页的返回内容.OK.继续,我们提交查询”理?工具 理论?在看看返回结?仍然是那么多返回文,当然这个不能说明太多问题,那看看第一页返回结果的排序,看出来了?顺序完全没有变化,而GOOGLE则排序有些变?这说明百度是将重复的查询归并成一个处理的,而且字符串之间的先后出现顺序基本不予考虑(GOOGLE是考虑了这个顺序关系的).

3. 假设提交的中文查询包含英文单?搜索引擎是怎么处理?比如查询”电影BT下载?百度的方法是将中文字符串中的英文当作一个整体保?并以此为断点将中文切分开,这样上述的查询就切为<电影,BT,下载>,不论中间的英文是否一个字典里能查到的单词也好,还是随机的字符也?都会当作一个整体来对待.至于为什?你用查询?电影dfdfdf下载”看看结果就知道?当然如果查询中包含数?也是如此办理.

到目前为?一切很简?也很清楚,百度怎么处理用户查询的呢?归纳如下:首先根据分割符号将查询分开,然后看看是否有重复的字符?如果?就抛弃多余的,只保留一?接着判断是否有英文或者数?如果有的?把英文或者数字当作一个整体保留并把前后的中文切开.

接着该干什么呢?该考虑分词的问题了.  

? 中文分词

首先,讲讲百度的分词时机或者条件问?是否是个中文字符串百度就拿来切一下呢?非也,要想被百度的分词程序荣幸的切割一下也是要讲条件的,哪能是个字符串就切割?你当百度是卖锯条的么?  

那么什么样的字符串才满足被切割的条件呢?简单说?如果字符串只包含小于等于3个中文字符的?那就保留不动,当字符串长度大于4个中文字符的时?百度的分词程序才出马大干快上,把这个字符串肢解?

怎么证明?我们向百度提交”电影下载?看看返回结果中标为红字的地方,不难看出?查询已经被切割成<电影,下载>两个单词?说明分词程序已经开工了,如果是比4个中文字符更长的字符?那分词程序就更不客气?一定大卸八块而后?我们来看看三个字符的情况,提交查询”当然择?看起来这个查询不伦不?那是因为我希望看到这个字符串被切分为<当然,?,返回结果365篇相关页?翻到最后一?发现标红的关键字都是”当然择”连续出现的情况,好像没有切分,但是还不确定,那么再提交人工分好的查询”当?择”看?返回结果1,090,000?基本上可以确定没有进行分词了,当然另外一种解释是:对于三个字符先切?然后将切分后的结果当作一个短语查?这样看到的效果和没有切分是相似的.但是我倾向于判断百度对于少?个字符的串没有切?奥卡姆不是说了么”如无必?勿增实体?干吗做无用功?那么如果没有切分,会有一个随之而来的问?怎么从索引库里面提取未切分的字符串呢?这牵扯到索引的问?我觉得百度应该采取了两套索引机制,一种是按照单词索引,一种是按照N-GRAM索引,至于索引的具体问?以后在详细论?  

下面我们看看百度是采取的何种分词算法,现在分词算法已经算是比较成熟?有简单的有复杂的,比如正向最大匹?反向最大匹?双向最大匹?语言模型方法,最短路径算法等?有兴趣的可以用GOOGLE去搜索一下以增加理解.这里就不展开说了.但是要记住一点的?判断一个分词系统好不好,关键看两?一个是消除歧义能力;一个是词典未登录词的识别比如人?地名,机构名等.  

那么百度用的是什么方?我的判断是用双向最大匹配算?至于怎么推理得出?让我们一步步来看.当然,这里首先有个假设,百度不会采取比较复杂的算?因为考虑到速度问题.  

我们提交一个查询”毛泽东北京华烟云?又一个不知所云的查询,尽管不知所云但是自有它的道?我想看看百度的分词是如何消歧以及是否有词典未登录词的识别的功?如果是正向最大匹配算法的?那么输出应该?”毛泽东/北京/?烟云?如果是反向最大匹配算法的?那么输出应该?”毛/?东北/京华烟云?我们看看百度的分词结?”毛泽东/?京华烟云?一个很奇怪的输出,跟我们的期望相差较多,但是从中我们可以获得如下信息:百度分词可以识别人名,也可以识别”京华烟云?这说明有词典未登录词的识别的功能,我们可以假设分词过程分为两个阶段:第一阶段,先查找一个特殊词?这个词典包含一些人?部分地名以及一些普通词典没有的新词,这样首先将”毛泽东”解析出?剩下了字符串”北京华烟云?而”北/京华烟云?可以看作是反向最大匹配的分词结果.这样基本说得?为了证明这一?我们提交查询”发毛泽东北?我们期望两种分词结果,一个是正向最大匹?发毛,?东北>,一个是上述假设的结??毛泽??,事实上百度输出是第二种情?这样基本能确定百度分词采取了至少两个词典,一个是普通词?一个是专用词典(人名?.而且是专用词典先切分,然后将剩余的片断交由普通词典来切分.  

继续测验,提交查询”古巴比伦理?如果是正向最大匹?那么结果应该?古巴比伦,?,如果是反向最大匹?那么结果应该?古巴,?伦理>,事实上百度的分词结果?古巴比伦,?,从这个例子看,好像用了正向最大匹配算?此外还有一些例子表明好像是使用正向最大匹配的;但是且慢,我们看这个查询”北京华烟云?正向最大匹配期望的结果?北京,?烟云>,而反向最大匹配期望的结果??京华烟云>,事实上百度输出的是后?这说明可能采用的反向最大匹?从这点我们可以猜测百度采用的是双向最大匹配分词算?如果正向和反向匹配分词结果一致当然好?直接输出即可;但是如果两者不一?正向匹配一种结?反向匹配一种结?此时该如何是好呢?从上面两个例子看,在这种情况下,百度采取最短路径方?也就是切分的片断越少越好,比如<古巴,?伦理>?古巴比伦,?相比选择后?<北京,?烟云>??京华烟云>相比选择后?还有类似的一些例?这样基本可以解释这些输出结果.  

但是仍然遗留的问题是:如果正向反向分词不一?而且最短路径也相同,那怎么?输出正向的还是反向的结果?我们再来看一个例?提交查询”遥远古古巴比伦?这个查询被百度切分为<遥远,古古,巴比?,说明词典里面有”巴比伦?但是是否有”古巴比伦”这个词汇不确定,此时看不出是正向切分还是反向切分得出的结?换查询为”遥远古巴比伦?此时被切分为”遥?古巴比伦?这说明词典里面有”古巴比伦”这个词?这说明了”遥远古古巴比伦”是正向最大匹配的结果.那为什么”遥远古古巴比伦”不会被反向切分为”遥/远古/古巴比伦”呢,百度的可能选择是这种情况下选择单字少的那组切分结果.  

当然还可以继续追?如果切分后单字也一样多,那怎么?最后看一个例?查询”王强大??百度将其切分为”王/强大/小?是正向切分的结果,如果是反向的会被切分为”王/?大小?这说明有歧义而且单字也相同则选择正向切分结果.  

OK,看到这里可能头已经有些晕?最后总结一下百度的分词算法,当然里面还是有猜测的成分,算法如下:  

首先查询专用词典(人名,部分地名?,将专有名称切?剩下的部分采取双向分词策?如果两者切分结果相?说明没有歧义,直接输出分词结果.如果不一?则输出最短路径的那个结果,如果长度相同,则选择单字词少的那一组切分结?如果单字也相?则选择正向分词结果..  

百度一直宣传自己在中文处理方面的优?从上面看,分词算法并无特殊之处,消歧效果并不理想,即使百度采取比上述分词算法复杂些的算法也难以说成是优?如果说百度有优势的话,唯一的优势就是那个很大的专用词典,这个专用词典登录了人?比如大长?,称谓(比如老太?,部分地名(比如阿联酋等),估计百度采用学术界公布的比较新的命名实体识别算法从语料库里面不断识别出词典未登录?逐渐扩充这个专门词典.如果这就是优势的?那么这个优势能够保持多久就是个很明显的问?

Tags - , , ]]>
//www.2w0f.cn/post/265/ <![CDATA[搜索引擎蜘蛛程序名称大全]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Wed, 10 Jan 2007 01:09:17 +0000 //www.2w0f.cn/post/265/ Search engine spider(bot) id list

引用
robot/1.0=Neofonie.de
0.1_hseo(at)cs.rutgers.edu=Rutgers.edu
AbachoBOT (Mozilla compatible)=Crawler.de
AbachoBOT=Crawler.de
Abbr=//www.suoxie.com
abcdatos_botlink=Abcdatos.com
abot/0.1 (abot; //www.abot.com; abot@abot.com)=Abot.com
abot/0.1=Abot.com
About/0.1libwww-perl/5.47=About.com
accoona=Accoona.com
AcoiRobot=Acoi Picture Robot
Acoon Robot v1.50.001=Acoon.de
Acoon Robot v1.52=Acoon.de
Acoon Robot=Accon.de
ActiveWorlds/3.xx=ActiveWorlds.com
admin@crawler.de=Crawler.de
admin@maxbot.com=maxbot.com
ADSARobot=ADSARobot
AESOP_com_SpiderMan=Aesop.com
agadine/1.x.x=Agada.de
Agent-admin/=Daum.net
ah-ha.com crawler (crawler@ah-ha.com)=Ah-ha.com
ah-ha.com crawler=Ah-ha.com
AIBOT/2.1=21Seek.com
aipbot/1.0 (aipbot; //www.aipbot.com; aipbot@aipbot.com)=NameProtect.com
aipbot/1.0=NameProtect.com
aipbot=NameProtect.com
Aladin/3.324=Aladin.de
Aleksika Spider/1.0=Aleksika.de
AlkalineBOT/1.3=Vestris.com
AlkalineBOT/1.4=Vestris.com
AlkalineBOT=AlkalineBOT
Allesklar/0.1 libwww-perl/5.46=Allesklar.de
AltaVista-Intranet=Altavista.co.uk
AmfibiBOT=Amfibi.com
Amiga-AWeb/3.4.167SE=AWeb.com
amzn_assoc=Amazon.com
AnswerChase PROve x.0=AnswerChase.com
AnswerChase x.0=AnwserChase.com
AnswerChase=AnswerChase.com
Antibot=AntiSeach.net
antibot-V1.1.5/i586-linux-2.2=AntiSeach.net
AnzwersCrawl/2.0=Anzwers
A-Online Search=Jet2Web.com
Aport=Aport.ru
appie 1.1=Walhello.com
appie=Walhello.com
arachnoidea@euroseek.net=Euroseek.net
Arachnoidea=Euroseek.com
Aranha=Girafa.com
ArchitectSpider=Excite.com
archive.org_bot=Archive.org
archive_org=Archive.org
ask jeeves=Ask Jeeves
ask.24x.info=Ask.24x.info
ASPSeek/1.2.5=ASPSeek.org
ASPseek/1.2.9d=ASPSeek.com
ASPSeek/1.2.x=ASPSeek.org
ASPSeek/1.2.xa=ASPSeek.org
ASPseek/1.2.xx=ASPseek.org
ASPSeek/1.2.xxpre=ASPSeek.org
ASPSeek=ASPSeek.org
asterias/2.0=SingingFish.com
Asterias=SingingFish.com
AtlocalBot/1.1 +(//www.atlocal.com/local-web-site-owner.html)=Atlocal.com
AtlocalBot=Atlocal.com
Atomz/1.0=Atomz.com
Atomz=Atomz.com
Augurfind=Augurnet.ch
augurnfind V-1.x=Augurnet.ch
autohttp=Elsop.com
AV Fetch 1.0=Altavista.com
AVSearch=Altavista.com
AVSearch-3.0=Altavista.com
AxmoRobot=Axmo.com
Baiduspider+=Baidu.com
BaiDuSpider=Baidu.com
BanBots/1.2=Banbots.com
BarraHomeCrawler=BarraHome.com
bdcindexer_2.6.2=Business.com
BDFetch=Brandimensions.com
BDNcentral Crawler v2.3=Bdncentral.com
beautybot/1.0=Cosmoty.com
BigCliqueBOT/1.03-dev=BigClique.com
Bilbo/2.3b-UNIX=Biblo Bot
BlackWidow=BlackWidow Bot
Blaiz-Bee/1.0 (+//www.blaiz.net)=Blaiz.net
Blaiz-Bee/1.0=Blaiz.net
BlitzBOT@tricus.net (Mozilla compatible)=Blitzsuche.rp-online.de
BlitzBOT@tricus.net=Blitzsuche.rp-online.de
Blog=//www.5iya.com/blog
BlogBot/1.x=Blogdex.net
BlogBot=Blogdex.net
Bloglines Title Fetch/1.0 (//www.bloglines.com)=Bloglines.com
blogWatcher_Spider/0.1=Blogwatcher.pi.titech.ac.jp
BlogzIce/1.0 (+//icerocket.com; rhodes@icerocket.com)=IceRocket.com
BlogzIce/1.0 +//www.icerocket.com/=IceRocket.com
BlogzIce/1.0=IceRocket.com
boitho.com-dc/0.xx=Boitho.com
boitho.com-robot/1.x=Boitho.com
BSDSeek/1.0=Inktomi.com
BullsEye=Intelliseek.com
bumblebee@relevare.com=Relevare.com
Buscaplus Robi/1.0=Buscaplus.com
Buscaplus Robi=Buscaplus.com
CanSeek/=Cansee.ca
ChristCRAWLER 2.0=Christcrawler.com
ChristCRAWLER=Christcrawler.com
CipinetBot=Cipinet.com
citenikbot/=Cenik.co.uk
ClariaBot/1.0=Searchscout.com
Claymont.com=Claymont.com
CLIPS-index=Cips-index.imag.fr
Clushbot/3.3-BinaryFury (+//www.clush.com/bot.html)=Clush.com
Clushbot/3.3-BinaryFury=Clush.com
Combine/x.0=Combine Bot
Computer_and_Automation_Research_Institute_Crawler=Research Bot
contact/jylee@kies.co.kr=Kies.co.kr
Convera Internet Spider V6.x=Convera.com
cosmos/0.8_(robot@xyleme.com)=Xyleme.com
cosmos/0.9_(robot@xyleme.com)=Xyleme.com
cosmos=Xyleme.com
C-PBWF-ip3000.com-crawler=IP3000.com
CrawlConvera0.1=Converna.net
Crawler (cometsearch@cometsystems.com)=Findwhat.com
Crawler admin@crawler.de=Crawler.de
Crawler V 0.2.x admin@crawler.de=Crawler.de
crawler@alexa.com=Alexa.com
crawler@brainbot.com=Brainbot.com
crawler@fast.no=Alltheweb.com
Crawler=Crawler.de
CrawlerBoy Pinpoint.com=Pinpoint.com
CrawlerBoy=Pinpoint.com
CrocCrawler= CrocCrawler.com
Custom Spider www.bisnisseek.com /1.0=Bisnisseek.com
DaAdLe.com ROBOT/=Daadle.com
DataparkSearch/4.xx=DataparkSearch.com
DaviesBot/1.7=Wholeweb.net
DaviesBot=Wholeweb.net
dbDig=Prairielandconsulting.com
DBrowse 1.4b=DBrowse Bot
DBrowse 1.4d=DBrowse Bot
dCSbot/1.1=Openmarket.com
DeepIndex=DeepIndex.com
DeepIndexer.ca=DeepIndex.com
deepweb=Deepweb.com
Demo Bot DOT 16b= Btopenworld.com
DiaGem/=Skyrocket.gr.jp
DiaGem/1.1 (//www.skyrocket.gr.jp/diagem.html)=Skyrocket.gr.jp
DiaGem/1.1=Skyrocket.gr.jp
Diamond/1.0=Searchscout.com
Digger/1.0 JDK/1.3.0rc3=Diggit.com
Digimarc WebReader=Digimarc.com
DigOut4U=Arisem.com
DIIbot/1.2=Digital-Integrity.com
DIIbot=Digital-Integrity.com
DittoSpyder=Ditto.com
dloader(NaverRobot)/=Naver.com
dtSearchSpider=Dtsearch.com
Dumbot(version 0.1 beta - dumbfind.com)=Dumbfind.com
Dumbot(version 0.1 beta)=Dumbfind.com
dumrobo(NaverRobot)/=Naver.com
EARTHCOM.info/1.4beta=Earthcom.info
EasyDL/3.02=Keywen.com
EasyDL/3.03=Keywen.com
EasyDL/3.04=Keywen.com
EasyDL/3.xx //keywen.com/Encyclopedia/Bot=Keywen.com
EasyDL/3.xx=Keywen.com
EchO!/2.0=Voila.com
egothor/3.0a (+//www.xdefine.org/robot.html)=Xdefine.com
egothor/3.0a=Xdefine.com
EgotoBot/4.8=Egoto.com
Enterprise_Search/1.0.xxx=Innerprise.net
Enterprise_Search/1.0=Innerprise.net
erik@malfunction.org=Malfunction.org
EroCrawler=Erocrawler.com
ES.NET_Crawler/2.0=Innerprise.net
eseek-larbin_2.6.2=Exactseek.com
ESISmartSpider=Travel-Finder.com
ExactSeek Crawler/0.1=Exactseek.com
exactseek-crawler-2.63=Exactseek.com
Exalead NG/MimeLive Client=Exabot.com
Excalibur Internet Spider V6.5.4=Excalib.com
ExperimentalHenrytheMiragoRobot=Mirago.co.uk
EyeCatcher (Download-tipp.de)/1.0=Download-tipp.de
EyeCatcher=Download-tipp.de
EZResult=Ezresults.com
Fast Crawler Gold Edition=Alltheweb.com
FAST Data Search Crawler=Alltheweb.com
FAST Enterprise Crawler 6 (Experimental)=Alltheweb.com
FAST Enterprise Crawler 6 used by FAST (FAST)=Alltheweb.com
FAST Enterprise Crawler 6 used by FAST=Alltheweb.com
FAST Enterprise Crawler 6=Alltheweb.com
FAST Enterprise Crawler/6 (www.fastsearch.com)=Alltheweb.com
FAST Enterprise Crawler/6=Alltheweb.com
FAST FirstPage retriever (compatible; MSIE 5.5; Mozilla/4.0)=Alltheweb.com
FAST FirstPage retriever=Alltheweb.com
Fast PartnerSite Crawler=Alltheweb.com
FastCrawler 3.0.1 (crawler@1klik.dk)=Alltheweb.com
FastCrawler 3.0.1=Alltheweb.com
FAST-WebCrawler/2.2.10=Altheweb.com
FAST-WebCrawler/2.2.6=Altheweb.com
FAST-WebCrawler/2.2.7=Altheweb.com
FAST-WebCrawler/2.2.8=Altheweb.com
FAST-WebCrawler/3.2 test=Altheweb.com
FAST-WebCrawler/3.2=Altheweb.com
FAST-WebCrawler/3.3=Altheweb.com
FAST-WebCrawler/3.4/Nirvana=Altheweb.com
FAST-WebCrawler/3.4/PartnerSite=Altheweb.com
FAST-WebCrawler/3.5=Altheweb.com
FAST-WebCrawler/3.6/FirstPage=Altheweb.com
FAST-WebCrawler/3.6=Altheweb.com
FAST-WebCrawler/3.7/FirstPage=Altheweb.com
FAST-WebCrawler/3.7=Altheweb.com
FAST-WebCrawler/3.8/Fresh=Altheweb.com
FAST-WebCrawler/3.8=Altheweb.com
FAST-WebCrawler/3.x Multimedia (mm dash crawler at fast dot no)=Altheweb.com
FAST-WebCrawler/3.x Multimedia=Altheweb.com
FAST-WebCrawler=Alltheweb.com
Faxobot/1.0=FaXo.com
Felix - Mixcat Crawler=Mixcat.com
Felix=Mixcat.com
FFC Trap Door Spider=Frequentfinders.com
fido/1.0 Harvest/1.4.pl2=Planet Search
FileExtension=//www.kuozhanming.com
FinaleRobot=expressus.com
FindAnISP.com_ISP_Finder_v99a=FindAnISP.com
FineBot=Finesearch.com
Firefly/1.0 (compatible; Mozilla 4.0; MSIE 5.5)=Fireball.de
Firefly/1.0=Fireball.de
FlickBot 2.0 RPT-HTTPClient/0.3-3=DivX.com
Fluffy the spider=SearchHippo.com
Flunky=Metacarta.com
Francis/1.0 (francis@neomo.de //www.neomo.de/)=Neomo.de
Francis/1.0=Neomo.de
FreeFind.com-SiteSearchEngine/1.0=Freefind.com
FyberSearch=Fybersearch.com
FyberSpider=Fybersearch.com
Gagglebot=Gagglebot
GAIS Robot/1.0B2=Seed.net.tw
Gaisbot/3.0+=Seed.net.tw
Gaisbot/3.0=Seed.net.tw
GalaxyBot/1.0 (//www.galaxy.com/galaxybot.html)=Galaxy.com
GalaxyBot/1.0=Galaxy.com
GalaxyBot=Galaxy.com
GammaSpider/1.0=Gammasite.com
gazz/1.0=Infobee.ne.jp
gazz@nttrd.com=Infobee.ne.jp
Geckobot=Geckobot.com
geckobot=Geckobot.com
GenCrawler=Gendoor.com
generic_crawler/01.0217/=Cmu.edu
GentleSpider=Research.att.com
GeonaBot=Geona.com
GigaBaz=Brainbot.com
GigaBazVStheWeb=Brainbot.com
GigaBlast=Gigablast.com
Gigabot/1.0=Gigablast.com
Gigabot=Gigablast.com
GigabotSiteSearch/2.0 (sitesearch.gigablast.com)=Gigablast.com
GigabotSiteSearch/2.0=Gigablast.com
Giskard=oralco.com
GNODSPIDER=Gnod.net
Goblin/0.9 (//www.goguides.org/)=Goguides.org
Goblin/0.9.x (//www.goguides.org/goblin-info.html)=Goguides.org
Goblin/0.9.x=Goguides.org
Goblin/0.9=Goguides.org
GoForIt.com=Goforit.com
Goofer/0.2=Wanadoo.fr
Google=Google.com
Googlebot/1.0=Google.com
Googlebot/2.1= Google.com
Googlebot/Test=Google.com
googlebot@googlebot.com=Google.com
Googlebot=Google.com
Googlebot-Image/1.0=Google.com Image Bot
GrigorBot 0.8=Grigor.biz
grub crawler(//www.grub.org)=Grub.com
grub-client=Grub.org
gsa-crawler (Enterprise; GID-01422; jplastiras@google.com)=Google.com
gsa-crawler (Enterprise; GID-01742;gsatesting@rediffmail.com)=Google.com
gsa-crawler=Google.com
Gulliver/1.2=Northernlight.com
Gulliver/1.3=Northernlight.com
Gulliver=Northernlight.com
Gulper Web Bot 0.2.4=Gulper Bot
Gulper Web Bot=Gulper Bot
Hatena Antenna/0.4 (//a.hatena.ne.jp/help#robot)=a.hatena.ne.jp
Hatena Antenna/0.4=a.hatena.ne.jp
HeinrichderMiragoRobot=Mirago.de
HenrytheMiragoRobot=Mirago.co.uk
HenryTheMiragoRobot=Mirago.co.uk
Hippias/0.9 Beta= Hippias Bot
holmes/x.x=Morfeo.centrum.cz
HomePageSearch(hpsearch.uni-trier.de)=Hpsearch.uni-trier.de
Homerbot: www.homerweb.com=Homerweb.com
Homerbot=Homerweb.com
htdig/3.1.6 (//computerorgs.com)=Computerorgs.com
htdig/3.1.x (root@localhost)=Htdig.org
htdig/3.1.x=Htdig.org
//www.abcdatos.com/botlink/=Abcdatos.com
Hubater=Hubat.com
ia_archiver/1.6=Archive.org
ia_archiver=Archive.org
IAArchiver-1.0=Archive.org
icsbot-0.1=Icseoul.org
ideare - SignSite/1.x=Ideare.com
Ideare - SignSite=Ideare.com
IlTrovatore-Setaccio (+//www.iltrovatore.it)=Iltrovatore.it
Iltrovatore-Setaccio/0.3-dev=Iltrovatore.it
IlTrovatore-Setaccio/1.2=Iltrovatore.it
iltrovatore-setaccio/1.2-dev=Iltrovatore.it
IlTrovatore-Setaccio=Iltrovatore.it
IncyWincy=Incywincy.com
IndexTheWeb.com Crawler7=IndexTheWeb.com
Inet library=Inetlibrary.com
info@searchhippo.com=Searchhippo.com
InfoFly/1.0 (//www.versions-project.org/)=Versions-project.org
InfoFly/1.0= Versions-project.org
InfoSeek Sidewinder/0.9=Infoseek.com
InfoSeek Sidewinder/1.0A= Infoseek.com
InfoSeek Sidewinder/1.1A= Infoseek.com
Infoseek SideWinder/1.45 (Compatible; MSIE 10.0; UNIX)= Infoseek.com
Infoseek SideWinder/1.45= Infoseek.com
Infoseek SideWinder/2.0B (Linux 2.4 i686)= Infoseek.com
Infoseek SideWinder/2.0B= Infoseek.com
InfoSeek Sidewinder=infoseek.com
Inktomi Search=Yahoo.com
Inktomi=Yahoo.com
InnerpriseBot/1.0 (//www.innerprise.com/)=Innerprise.net
InnerpriseBot/1.0=Innerprise.net
InsumaScout=InsumaScout
Internet Ninja 6.0=Dti.ne.jp
InternetSeer.com= InternetSeer.com
InternetSeer=InternetSeer
InternetSeer=InternetSeer.com
ip3000.com=ip3000.com
ip3000.com-crawler=ip3000.com
IPiumBot laurion(dot)com=Laurion.com
ipiumBot=Laurion.com
Iron33=Verno.ueda.info.waseda.ac.jp
Jabot/6.x (//odin.ingrid.org/)=Ingrid.org
Jabot/6.x=Ingrid.org
Jabot/7.x.x (//odin.ingrid.org/)=Ingrid.org
Jabot/7.x.x=Ingrid.org
Jack=Domanova.co.uk
jan.gelin@av.com=Altavista.co.uk
jeeves=Ask Jeeves
Jetbot/1.0=Jeteye.com
JoocerBot=Joocer.com
Jyxobot/x=Jyxo.cz
Katriona=Katriona
KE_1.0/2.0 libwww/5.2.8=Voila.fr
Kenjin Spider=Kenjin.ne.jp
KIT_Fireball/2.0=Fireball.de
KIT-Fireball/2.0 (compatible; Mozilla 4.0; MSIE 5.5)=Fireball.de
KIT-Fireball/2.0=Fireball.de
KIT-Fireball=Fireball.de
Knowledge.com/0.x=Knowledge.com
Kototoi/0.1=s.u-tokyo.ac.jp
kuloko-bot/0.2=Kuloko.com
kuloko-bot/0.x=Kuloko.com
Kulokobot=Kuloko.com
kulturarw3/0.1=National Library of Sweden
LEIA/3.01pr (LEIAcrawler; [SNIP])=Gseek.com
LEIA=Gseek.com
LexiBot=Lexibot.com
LNSpiderguy=Lexis-nexis.com
Look.com=Look.com
lwp-trivial/1.27=Search4free.com
lwp-trivial/1.34=Search4free.com
Lycos_Spider_(T-Rex)/3.0=Lycos.com
Lycos_Spider_(T-Rex)=Lycos.com
lycos=Lycos.com
Mackster( //www.ukwizz.com )=Ukwizz.com
Mackster=Ukwizz.com
Mag-Net=Wind.it
mailto:webcraft@bea.com=Beasys.com
mammoth/1.0 (+//www.sli-systems.com/)=Sli-Systems.com
mammoth/1.0=Sli-Systems.com
MantraAgent=Looksmart.com
mapper@teradex.com=Mapper.teradex.com
Mariner/5.1b [de] (Win95; I ;Kolibri gncwebbot)=Kolibri.de
Mariner/5.1b= Kolibri.de
Martini=Looksmart.com
Marvin v0.3=Marvin Bot
marvin/infoseek=Webseek.de
marvin-team@webseek.de=Webseek.de
Mata Hari/2.00=Lexibot.com
MediaCrawler-1.0 (Experimental)=Mediacrawler.de
MediaCrawler-1.0=Mediacrawler.de
Mediapartners-Google/2.1 (+//www.googlebot.com/bot.html)=Google.com Adsense
Mediapartners-Google/2.1=Google.com Adsense
MediaSearch/0.1=Www.fi
MegaSheep v1.0 (www.searchuk.com internet sheep)=SearchUK.com
MegaSheep v1.0=SearchUK.com
Mercator=Altavista.com
Mercator=Altavista.com
Mercator-1.x=Altavista.com
Mercator-2.0=Altavista.com
Mercator-Scrub-1.1=Altavista.com
metabot=Metabot
Metaspinner/0.01=Meta-Spinner.de
MFC_Tear_Sample=Microsoft.com
MicrosoftPrototypeCrawler=Microsoft.com
Minibot=Minibot
MiracleAlphaTest=Nec.co.jp
MnogoSearch/3.2.xx=mNoGoSearch.org
moget/2.0=Goo.ne.jp
moget/2.1 (moget@goo.ne.jp)=Goo.ne.jp
moget/2.1=Goo.ne.jp
moget@goo.ne.jp=Goo.ne.jp
Mole2/1.0=Intags.de
Morris - Mixcat Crawler (+//mixcat.com)=Mixcat.com
Morris - Mixcat Crawler=Mixcat.com
Morris=Mixcat.com
Mouse-House/7.4=Spidermonkey.ca
mozDex/=Mozdex.com
mozDex/0.04-dev=Mozdex.com
Mozilla (Mozilla@somewhere.com)=Somewhere.com
Mozilla/2.0 (compatible; Ask Jeeves)=Ask Jeeves
Mozilla/2.0 (compatible; EZResult -- Internet Search Engine)=DirectHit.com
Mozilla/3.0 (compatible; MuscatFerret/1.5.4; claude@euroferret.com)=Euroferret.com
Mozilla/3.0 (compatible; MuscatFerret/1.5; olly@muscat.co.uk)=Euroferret.com
Mozilla/3.0 (compatible; MuscatFerret/1.6.x; claude@euroferret.com)=Euroferret.com
Mozilla/3.01 (Compatible; Links2Go Similarity Engine)=Links2go.com
Mozilla/4.0 (compatible; FastCrawler3, support-fastcrawler3@fast.no)=AllTheWeb.com
Mozilla/4.0 (compatible; grub-client-2.x)=Grub.org
Mozilla/4.0 (compatible; MSIE 5.0; Windows 95) TrueRobot; 1.5=Echo.com
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT; MS Search 4.0 Robot)=MSN.com
Mozilla/4.0 (compatible; SpeedySpider; www.entireweb.com)=EntireWeb.com
Mozilla/4.0 (compatible; www.galaxy.com)=Galaxy.com
Mozilla/4.0 [en] (Ask Jeeves Corporate Spider)=Ask Jeeves
Mozilla/4.0(compatible; Zealbot 1.0)=LookSmart.com
mozilla/5.0 (compatible; genevabot +//www.healthdash.com)=HealthDash.com
Mozilla/5.0 (wgao@genieknows.com)=GenieKnows.com
Mozilla/5.0 wgao@genieknows.com=GenieKnows.com
Mozilla/5.0 (compatible; Yahoo! Slurp;)=Yahoo.com
MP3Bot=mp3bot.de
MSN=MSN.com
MSNBOT/0.1=MSN.com
msnbot=MSN.com
MultiText/0.1=MultiText
MultiText=MultiText
MuscatFerret=Webtop.com
NationalDirectoryAddURL/1.0=NationalDirectory.com
NationalDirectory-SuperSpider=Nationaldirectory.com
NationalDirectory-WebSpider/1.3=NationalDirectory.com
Nazilla=Websmostlinked.com
NEC Research Agent=NEC Research Agent
NetCruiser=NetCruiser
NetResearchServer(//www.look.com)=Look.com
NetResearchServer=Look.com
NetZippy=Netzippy.com
NextopiaBOT=Nextopia.com
NG/1.0=Exabot.com
Noago Spider=Noago.com
NP/0.1 (NP; //www.nameprotect.com; npbot@nameprotect.com)=NameProtect.com
NP/0.1=NameProtect.com
NPBot=NameProtect.com
NPBot-1/2.0=NameProtect.com
nttdirectory_robot=Navi.ocn.ne.jp
Nutch=Nutch.org
NutchCVS/0.0x-dev=Nutch.org
NutchOrg/0.0x-dev=Nutch.org
NutchOrg=Nutch.org
NZBot=NavigationZone.com
ObjectsSearch/0.01=ObjectsSearch.com
ObjectsSearch/0.0x=ObjectsSearch.com
oBot ((compatible;Win32))=Cobion.com
oBot=Cobion.com
OliverPerry=Claymont.com
OntoSpider/1.0 libwww-perl/5.65=Ontospider.i-n.info
OntoSpider/1.0=Ontospider.i-n.info
OntoSpider=Ontospider.i-n.info
Openbot/=Openfind.com.tw
Openbot/3.0+=Openfind.com.tw
Openbot/3.0=Openfind.com.tw
Opencola=Opencola.com
Openfind piranha=Openfind.com
Openfind Robot/1.1A2=Openfind.com.tw
//www.5iya.com
OpenTextSiteCrawler/2.9.2=Opentext.net
Oracle Ultra Search=Oracle.com
Oxxbot1=Oxxfordinfo.com
Pansophica=Pansophica
ParaSite/1.0b (//www.ianett.com/parasite/)=Ianett.com
ParaSite/1.0b=Ianett.com
pd02_1.0.0 pd02_1.0.0@dzimi@post.sk=Post.sk
peerbot=Peerbot.com
Phoaks=Phoaks
phortse@hanmail.net=Daum.net
PICgrabber=PICgrabber
PicoSearch/=PicoSearch.com
PicoSearch/1.0=PicoSearch.com
PictureOfInternet=PictureOfInternet
PintaSpider=PintaSpider
pipeLiner/0.10=Pipeline-Search.com
pipeLiner=Pipeline-Search.com
Pita=Pita Bot
Pizilla++ ver 2.45=He.net
PJspider/3.0 (pjspider@portaljuice.com; //www.portaljuice.com)=Portaljuice.com
PJspider/3.0=Portaljuice.com
PJspider=Portaljuice.com
polybot 1.0 (//cis.poly.edu/polybot/)= PolyBot
polybot 1.0=PolyBot
PolyBot=PolyBot
Pompos/1.x //dir.com/pompos.html=Dir.com
Pompos/1.x pompos@iliad.fr=Iliad.fr
Pompos/1.x=Free.fr
Popdexter/1.0=Popdex.com
PortalBSpider/2.0 (spider@portalb.com)=Portalb.com
PortalBSpider/2.0=Portalb.com
Project XP5 [2.03.07-111203]= XP5 Bot
Project XP5=XP5 Bot
PROve AnswerBot 4.0=Answerchase.com
psbot/0.1 (+//www.picsearch.com/bot.html)=Picsearch.com
psbot/0.1=Picsearch.com
psbot=Picsearch.com
Qango.com Web Directory (//www.qango.com/)=Qango.com
Qango.com Web Directory= Qango.com
QPCreep Test Rig ( We are not indexing, just testing ) =Quepasa.com
QPCreep Test Rig=Quepasa.com
QuepasaCreep ( crawler@quepasacorp.com )=Quepasa.com
QuepasaCreep v0.9.1x=Quepasa.com
QuepasaCreep=Quepasa.com
QueryN Metasearch=Queryn.com
rabaz (rabaz at gigabaz dot com)=Brainbot.com
Rabaz=Brainbot.com
RaBot=Daum.net
ramBot xtreme x.x=Intersearch.de
Reaper [2.03.10-031204] (//www.sitesearch.ca/reaper/)=Sitesearch.ca
Reaper [2.03.10-031204]=Sitesearch.ca
Reaper/2.0x (+//www.sitesearch.ca/reaper)=Sitesearch.ca
Reaper/2.0x=Sitesearch.ca
Reaper=Sitesearch.ca
roach.smo.av.com-1.0=Altavista.com
roach.smo.av.com-1.0=Altavista.com
RoboCrawl (www.canadiancontent.net)=CanadianContent.net
RoboCrawl=CanadianContent.net
Robot/www.pj-search.com=PJ-Search.com
Robot@SuperSnooper.Com=SuperSnooper.com
robot@xyleme.com=Xyleme.com
robot-master@expressus.com=Expressus.com
robot-response@openfind.com.tw=Openfind.com.tw
Robozilla/1.0=Dmoz.org
Rotondo/3.1 libwww/5.3.1=Qualigo.de
ru-robot=Rutgers.edu
Scooter/1.0 scooter@pa.dec.com=Altavista.com
Scooter/1.0=Altavista.com
Scooter/1.1 (custom)=Altavista.com
Scooter/2.0 G.R.A.B. V1.1.0 =Altavista.com
Scooter/2.0 G.R.A.B. X2.0=Altavista.com
Scooter/3.3.QA.pczukor=Altavista.com
Scooter/3.3.vscooter=Altavista.com
Scooter/3.3_SF=Altavista.com
Scooter/3.3=Altavista.com
Scooter_bh0-3.0.3=Altavista.com
Scooter_trk3-3.0.3=Altavista.com
Scooter=Altavista.com
Scooter2_Mercator_3-1.0=Altavista.com
Scooter2_Mercator_x-x.0=Altavista.com
Scooter-3.0.EU=Altavista.com
Scooter-3.0.FS=Altavista.com
Scooter-3.0.HD=Altavista.com
Scooter-3.0.VNS=Altavista.com
Scooter-3.0QI=Altavista.com
Scooter-3.2.BT=Altavista.com
Scooter-3.2.DIL=Altavista.com
Scooter-3.2.EX=Altavista.com
Scooter-3.2.JT=Altavista.com
Scooter-3.2.NIV=Altavista.com
Scooter-3.2.SF0=Altavista.com
Scooter-3.2.snippet=Altavista.com
Scooter-3.2=Altavista.com
Scooter-3.3dev=Altavista.com
Scooter-ARS-1.1=Altavista.com
Scooter-ARS-1.1-ih=Altavista.com
scooter-venus-3.0.vns=Altavista.com
Scooter-W3.1.2=Altavista.com
Scooter-W3-1.0=Altavista.com
Scrubby/=Scrubtheweb.com
search.at V1.2=Search.at
search.ch V1.4.2=Search.ch
search.ch V1.4=Search.ch
SearchExpress Spider0.99=SearchExpress.com
Searchit-Now Robot/2.2 (+//www.searchit-now.co.uk)=Searchit-now.co.uk
Searchit-Now Robot/2.2=Searchit-now.co.uk
SearchSpider.com/1.1=Searchspider.com
Searchspider/=Searchspider.com
Searchspider/1.2=Searchspider.com
sebastien.ailleret@inria.fr=Inria.fr
Seeker.lookseek.com=Lookseek.com
SeznamBot/1.0 (+//fulltext.seznam.cz/)=Seznam.cz
SeznamBot/1.0=Seznam.cz
Shark=Openfind.com
sherlock_spider=Sherlock.com.cn
SightQuestBot/=Sightquest.com
SiteSpider +(//www.SiteSpider.com/)=Sitespider.com
SiteSpider=Sitespider.com
SiteXpert=Xtreeme.com
Skampy/0.9.x= Skaffe.com
Skimpy/0.x=Skaffe.com
Slarp/0.1=Only.com
Slider_Search_v1-de=Slider.com
Slurp.so/1.0= Yahoo.com
Slurp/2.0j=Yahoo.com
Slurp/2.0-KiteHourly=Yahoo.com
Slurp/2.0-OwlWeekly=Yahoo.com
Slurp/3.0-AU=Yahoo.com
slurp@inktomi.com=Yahoo.com
slurp@inktomi= Yahoo.com
Slurp=Yahoo.com
SlySearch/1.0=Turnitin.com
SlySearch/1.x=Turnitin.com
SlySearch=Turnitin.com
speedfind ramBot xtreme 8.1=Speedfind.de
speedfind ramBot xtreme=Speedfind.de
Speedy Spider (Beta/x.x; speedy@entireweb.com)=EntireWeb.com
Speedy Spider=EntireWeb.com
Speedy_Spider (//www.entireweb.com)=EntireWeb.com
Speedy_Spider=EntireWeb.com
Spida/0.1=Only.com
Spider TraficDublu=Traficdublu.ro
Spider/maxbot.com admin@maxbot.com=Maxbot.com
Spider/maxbot.com=Maxbot.com
spider@aeneid.com=Yahoo.com
Spider_Monkey/=Spidermonkey.ca
spider_monkey=Spidermonkey.ca
SpiderMonkey/7.x=Spidermonkey.ca
Sqworm/2.9.81-BETA (beta_release; 20011102-760; i686-pc-linux-gnu)=Aol.com
Sqworm=Aol.com
Steeler/1.x (//www.tkl.iis.u-tokyo.ac.jp/~crawler/)=Steeler Bot
Steeler/1.x=Steeler Bot
Steeler=Steeler Bot
Suchbot=Suchbot.de
Suchknecht.at-Robot=Suchknecht.at
super-robot@super.navi.ocn.ne.jp=Navi.ocn.ne.jp
support@canseek.ca=Canseek.ca
Surfnomore Spider v1.1=Surfnomore.com
SwissSearch V1.2=SwissSearch
SynoBot=Synomia.fr
TaWWWantula=TaWWWantula
teoma_admin@hawkholdings.com=Teoma.com
teoma_agent1=Teoma.com
TeraCrawl=TeraCrawl
Teradex_Mapper=Mapper.teradex.com
The Informant=The Informant
TheSuBot/0.1 (www.thesubot.de)=TheSuBot.de
TheSuBot/0.1=TheSuBot.de
thumbshots-de-Bot (Version: 1.02, powered by www.thumbshots.de)=ThumbShots.de
thumbshots-de-Bot=ThumbShots.de
Toutatis 2.5-2=Hoppa.com
Toutatis 3.3 (hoppa.com)=Hoppa.com
Toutatis 4-19.6 (hoppa.com)=Hoppa.com
TurnitinBot/x.x (//www.turnitin.com/robot/crawlerinfo.html)=Turnitin.com
TurnitinBot/x.x=Turnitin.com
TurnitinBot=Turnitin.com
Tutorial Crawler=Tutorgig.com
Tv_Merc_resh_26_1_D-1.0=Altavista.com
Tv_Merc_resh_26_1_D-1.0=Altavista.com
TygoBot=Tygo.com
UCmore=Ucmore.com
UdmSearch=Mnogosearch.org
UK Searcher Spider=Uksearcher.co.uk
Ultraseek=Infoseek.com
unlostBot=Unlost.com
updated/0.1beta=Updated.com
URLBlaze=Urlblaze.net
UrlScope=UrlScope
Vagabondo/1.x MT (webagent@wise-guys.nl)=Wise-guys.nl
Vagabondo/2.0 MT (webagent at wise-guys dot nl)=Wise-guys.nl
Vagabondo/2.0 MT (webagent@NOSPAMwise-guys.nl)=Wise-guys.nl
Vagabondo/2.0 MT=Wise-guys.nl
Vagabondo=Wise-guys.nl
vspider=Verity.com
webbandit/4.xx.0=WebBandit
Webbandit=WebBandit
Webclipping.com=WebClipping.com
webcollage/1.xx=WebCollage.com
webcollage=WebCollage.com
WebCompass=WebCompass
WebCrawler/3.0 Robot libwww/5.0a=WebCrawler
WebCrawler-AddURL/2.0=WebCrawler
WebFindBot(//www.web-find.com)=Web-find.com
WebFindBot=Web-find.com
WebGather=WebGather
WebGenie=WebGenie
webmaster@intags.de=Intags.de
whatUseek_winona/3.0=Whatuseek.com
whatuseek=Whatuseek.com
WhizBang! Lab=Whizbanglabs.com
WIRE WebRefiner=Wire.co.uk
wisenutbot=Looksmart.com
WSCbot=WorldSearchCenter.com
www.inktomisearch.com=Yahoo.com
www.WebWombat.com.au=Webwombat.com.au
YahooSeeker/CafeKelsa=Yahoo.com
Yandex=Yandex.com
Yellopet-Spider=YellowPet.com
YottaShopping_Bot/4.12=YottaShopping.com
Zao/0.1 (//www.kototoi.org/zao/)=Zao Bot
Zao/0.1=Zao Bot
Zao/0.2=Zao Bot
Zao-Crawler=Zao Bot
zerxbot/Version 0.6 libwww-perl/5.79=Zerx.com
Zippy v2.0 - Zippyfinder.com=Zippyfinder.com
ZyBorg=Wisenut.com


Tags - ]]>
//www.2w0f.cn/post/255/ <![CDATA[百度对网页收录、索引删除、SEO等问题的官方说明]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Thu, 28 Dec 2006 01:59:29 +0000 //www.2w0f.cn/post/255/ Ʊƽ̨的看法,合理?a href="//www.2w0f.cn/category/seo/" target="_blank" title="//www.2w0f.cn/category/seo/" class="mykeyword">搜索引擎优化终于被它所接受。而且相比之前的百度与站长,这次修改比较大,而且也透露了一些积极的信号。有幸跟百度的相关人员交流过,感觉百度跟站长,跟seo,需要一个相互了解的过程。抛弃偏见,互相沟通,才能共同维护好搜索生态圈的和谐?

网页收录问题

1:如何让我的网站(独立网站或者blog)被百度收录?

百度会收录符合用户搜索体验的网站和网页?

为促使百度Spider更快的发现您的站点,您也可以向我们提交一下您的网站的入口网址。提交地址是://www.baidu.com/search/url_submit.html。您只需提交首页即可,无需提交详细的内容页面?

百度的网页收录机制,只和网页价值有关,与竞价排名等商业因素没有任何关联?

2:如何让我的网页不被百度收录?

百度严格遵循搜索引擎Robots协议(详细内容,参见//www.robotstxt.org/)?

您可以写一个Robots文件以限制您的网站全部网页或者部分目录下网页不被百度收录。具体写法,参见:如何撰写Robots文件?

如果您的网站是在被百度收录之后再设置Robots文件,则Robots文件通常在两周内生效,被文件限制的内容,将从百度搜索结果中移除?

如果您的拒绝被收录需求非常急迫,也可以发邮件给webmaster@baidu.com请求处理?

3:为什么我的网站内一些不设链接的私密性网页,甚至是需要访问权限的网页,也会被百度收录?

百度Spider对网页的抓取,是通过网页与网页之间的链接实现的?

网页之间的链接类型,除了站点内部的页面链接之外,还有不同网站之间的互相链接。因此,某些网页即便通过您的网站内部链接无法访问到,但是,如果别人的网站上有指向这些页面的链接,那么这些页面还是会被搜索引擎所收录?

百度Spider的访问权限,和普通用户是一样的。因此,普通用户没有权限访问的内容,Spider也没有权限访问。之所以看上去某些访问权限限制内容被百度收录,原因有两点:

A. 该内容在Spider访问时是没有权限限制的,但抓取之后,内容的权限发生了变化
B. 该内容有权限限制,但是由于网站安全漏洞问题,导致用户可以通过某些特殊路径直接访问。而一旦这样的路径被公布在互联网上,则Spider就会循着这条路径抓出受限内容

如果您不希望这些私密性内容被百度收录,一方面可以通过Robots协议加以限制;另一方面,也可以联系webmaster@baidu.com进行解决?

4:我的网页为什么会从百度搜索结果中消失?

百度并不允诺所有网页都可从百度搜索到?

如果您的网页长时间无法从百度搜索到,或者突然从百度的搜索结果中消失,可能的原因有:

A. 您的网站所在服务器不稳定,被百度暂时性去除;稳定之后,问题会得到解决
B. 您的网页内容有不符合国家法律和法规规定的地方
C. 您的网页不符合用户的搜索体验
D. 其他技术性问?

以下的说法是错误的和毫无根据的:

A. 参与了百度竞价排名但未续费,会从百度搜索结果中消?
B. 参与了其他搜索引擎的广告项目,会从百度搜索结果中消失
C. 与百度旗下网站产生了竞争,会从百度搜索结果中消失
D. 从百度获得的流量太大,会从百度搜索结果中消失

5:什么样的网页会被百度认为是没有价值而不被百度收录或者从现有搜索结果中消失?

百度只收录百度认为有价值的网页。任何网页在搜索结果中的去留变化,都是机器算法计算和调整的结果。下述类型的网页,百度明确不会欢迎:

A. 网页做了很多针对搜索引擎而非用户的处理,使得用户从搜索结果中看到的内容与页面实际内容完全不同,或者使得网页在搜索结果中获得了不恰当的排名,从而导致用户产生受欺骗感觉?
如果您的网站中有较多这种页面,那么这可能会使您的整个网站的页面收录和排序受到影响?
B. 网页是复制自互联网上的高度重复性的内容?
C. 网页中有不符合中国法律和法规的内容?

6:如果我的网站因为作弊行为而从百度搜索结果中消失,是否还有被重新收录可能?

凡是作出完全修正的网站,是有机会被百度重新收录的。百度会定期对被处理站点进行自动评估,并对符合条件者重新收录?

需要说明的是,百度技术和产品部门只对用户搜索体验负责。以下的说法都是错误的和毫无根据的:

A. 我成为百度的广告客户或者联盟网站,就可以重新被收录
B. 我给百度若干钞票,就可以重新被收?
C. 我认识百度的某某人,就可以重新被收录

7:我的网站更新了,可是百度收录的内容还没更新怎么办?

百度会定期自动更新所有网页(包括去掉死链接,更新域名变化,更新内容变化)。因此请耐心等一段时间,您的网站上的变化就会被百度察觉并修正?

网页排序问题

1:我的网站首页被收录了,但搜索网站名称却排不到第一个,怎么办?

答:排序算法非常复杂。我们的目标,即在于通过算法改进,让用户以最小的成本,搜索到所需要的信息。这个过程中还是会有各种各样不尽如人意的地方。我们会非常欢迎您把您遇到的困惑和问题,反馈给我们。我们的工程师,对每一个问题都会有细致的跟踪和分析,以期将之最终解决。百度搜索结果页下方的搜索框右侧,有“与百度对话”链接,您可以在那里提交您的问题,以协助我们改进?

我们一直在改进搜索算法,以使得百度的搜索结果更加符合用户的搜索需求?

2:搜索某关键词,我的网页在百度搜索结果的排序短期内变化剧烈,这正常吗?

答:通常情况下,这是正常的变化。一般来说,有三类原因导致排序发生变化:

A. 特定关键词所涉及的您的网页发生了变化
B. 特定关键词所涉及的其他网页发生了变化
C. 百度的排序算法发生了变化

3:搜索某关键词,我的网页在百度的排序位置,和在其他搜索引擎的排序位置,差异非常大,这正常吗?

答:通常情况下,这是正常的现象。因为不同搜索引擎的算法,都是不同的?

4:我请一些“SEO”来为我的网站或者网页做优化,会有什么后果?

答:合理的搜索引擎优化,参见百度的“给站长的建站指南”?

外界很多打着SEO旗号的公司或者个人,也许能为您的网站带来短期的排序收益,但是,这会使您将面临更大损失的风险。在您把网站资源交托给别人之后,很多SEO甚至会利用您的资源进行他们个人的运营项目,最终导致您的利益受损?

不要因为SEO们以下的说法,而冒险将自己的网站托付给他们随意处置?

A. 我和百度的人很熟,想怎么干就怎么干,没风?
B. 我是搜索引擎专家,对百度的算法一清二楚,玩玩火也不要?
C. 我把xxx、yyy、zzz这些关键词都搞到第一了,所以我是牛人啊

您也可以向百度投诉搜索中遇到的垃圾网站或者网页,帮助百度保持搜索结果的质量?

商业客户相关的问?/strong>

1:我是百度的竞价排名客户,如果我不续费,百度是否会因此对我进行惩罚?

答:这是绝对不可能的?

百度的网页搜索策略的唯一标准,在于用户的搜索体验。竞价排名和网页搜索自然排名,是完全独立的两个技术服务系统。一个网站是否是百度竞价排名客户,对于网页搜索自然排序无任何影响?

如果您收到任何类似威胁的说辞,请您直接发邮件至ask@baidu.com举报?

2:我的网站因为作弊而从百度消失了,是否可以通过成为百度竞价排名客户、广告客户或者联盟站点的方式重新被百度收录?

答:不可以。我们对网站的收录,唯一标准是用户搜索体验。被惩罚网站重新被百度收录的说明,见网页收录问题6中的叙述?

3:我的网站加入百度竞价排名、百度联盟,或者成为百度的广告客户,是否能在网页的收录和排序上获得特别的照顾?

答:不可能?

给站长的建站建议

只有当搜索引擎、站长、互联网用户之间,能有一种默契的利益均衡,这个行业才会顺畅发展。竭泽而渔式的网站建设,只会使您与用户、与搜索引擎越来越远。搜索引擎与站长之间,宜和谐发展,共同拥抱美好的愿景?

以下是我们给出的一些建站建议:

站点结构宜简洁明?/strong>

不要让你的用户一进你的站点就因为纷繁芜杂而不知所措。从某种意义上来说,百度的Spider也是一个相对特殊的访客而已。每一个子域名,每一个目录,都最好有明确的内容区隔,避免不同子域名或者目录对相同内容的互相串用?
  

创造属于您自己的独特内?/strong>

百度更喜欢独特的原创内容。所以,如果您的站点内容只是从各处采集复制而成,很可能不会被百度收录?

保持经常的更?/strong>

经常的更新,蜘蛛程序就会经常的光顾;而长期不更新的网站,蜘蛛到访会日趋减少?

谨慎设置您的友情链接

如果您网站上的友情链接,多是指向一些垃圾站点,那么您的站点可能会受到一些负面影响。参与各类以SEO为目的的自助链接活动,很可能“过犹不及”?

把自己的网站做成常青?/strong>

如果没有搜索引擎,你的网站仍然访客盈门,那么你的网站就属于“常青树”了。面向用户做网站,而不要面向搜索引擎做网站,这是成为常青树网站的真谛?br/>
Tags - , , ]]>
//www.2w0f.cn/post/250/ <![CDATA[Google AdSense官方明确表示不可在广告旁加上误导图片]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Tue, 19 Dec 2006 09:37:38 +0000 //www.2w0f.cn/post/250/
  其实关于到底可不可以在AdSense旁边加上额外的图片,这是一个已经被讨论了很久的老问题了。因为AdSense的一个基本原则是禁止用户通过额外的手段误导访客,人为地增加广告点?/strong>;但一直以来,Google AdSense官方对于这种看似聪明的方式的态度都比较模糊,并没有统一地明确表???不行",以至大多数的AdSense用户以为只要图片与广告之间有一定的距离或加上border就可以。如果你对AdSense不熟悉而觉得一头雾水,好,我说的是这个?br/>
点击在新窗口中浏览此图片

    这下子应该清楚了。上面的这种"优化",在很多网站及blog上都可以看得到。据我所知,很多blog程序包括流行的WordPress在内,都有爱好者专门编写了AdSense广告插件,而这些插件的作用就是让你的AdSense广告变成上面这种形式。既然这么流行,那么问题来了?strong>到底这是不是Google官方所允许的做法?


  Google AdSense官方今天明确回答?strong>不是?/strong>

  由于最近有越来越多的用户写信给AdSense询问这个问题,AdSense作出的正式的明确的声明,那就是你不能通过投放额外的图片来误导访客,让他们误以为广告内容是与图片有关的。同样地,你也不能使用类似的方法来误导访客。不管你是否已经在广告内容和图片之间加上了间隔或者border,都是不允许的?strong>总之,你不能误导访客
?br/>
  除了上面这个典型的违规例子外,下面这样的也是不被允许的:

点击在新窗口中浏览此图片

    这是来自Google官方的明确态度,也是一个公开的警告。我相信除非你希望自己的AdSense帐号被删除,否则应该马上这样的行为,把样式更改掉?br/>
    那这是不是意味着不可以在有图片的网页上投放AdSense广告?当然不是,只要没有误导访客,你当然可以在这些网页上放置AdSense广告。如果你不清楚你将要实现的广告投放方式是否会误导访客,那该怎么办?当然是写一封给AdSense,把你要实现的样式的截图和网页地址发给他们,让他们进行审核。一般情况下,简体中文用户可以用自己的AdSense注册邮箱发邮件至adsense-zhs@google.com?br/>
Tags - , ]]> //www.2w0f.cn/post/242/ <![CDATA[展望SEO的发展趋势—郝聪对Google(谷歌)2007年的计划和未来战略有感]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Tue, 12 Dec 2006 15:45:35 +0000 //www.2w0f.cn/post/242/
    下面是谢尔盖.布林的回答:
    “简单化是一个重要的趋势,所以我们非常关注。就科技这条路来说,它已经变得过分复杂了,而同时,简单化确是人们使用Google的最基本吸引力。对于互联网技术而言,这种复杂已经成为了一个不得不努力解决的问题,而用设备或者计算机来解决是非常困难的。成功是来自于简单化的。看看苹果公司,他们正在做的使得他们非常成功。?br/>    “我们更应该关注特色,而不是产品本身。我们必须解决一个糟糕的问题,就是产品的过分复杂。我们不想采?0种不同的方式来使?0种不同的产品。我个人感觉,我们已经失去了持续吸引用户的一切。我更想拥有少数几个共同特色的产品。?br/>  
    下面是埃里克.施米特的回答?br/>    “硅谷的公司越来越有开发复杂系统的趋势。但是,正如采用Windows系统的个人电脑一样,Google从诞生之日起,就注重简单的搜索框,简单的搜索网页。?br/>    “我们已经摸到老虎的尾巴了,那就是如今的个性化现象。现在,我们必须要为用户做的更简单。我们正在努力的创新及改变,一路向前的整合Google的产品,并使之更加完整。这是公司战略的一个大的调整。过去,我们的产品哲学看起来?做好这个,建立哪个,砍掉?,但是现在,我们必须结束这种命名为X-Google的数百种产品的工作方式,因为人们最终最能记?种而已。?br/>  
    用一句中国话来概括就是:整合各种产品,使其更简单、更个?/strong>?br/>
补充?br/>1.是非官方资讯
2.翻译自Google Operating System .
3.作?Ionut Alex. Chitu
  
从GOOGLE创始人的话中,我们可以感悟出很多内涵?br/>在产品同质化越趋严重的今天,如何能使产品保持较强的竞争力呢?黑色梦中认为其一是产品模式,而产品模式来源于商业模式,是商业模式的具体表现形式,即便竞争对手能够复制整套模式,创新者仍然可以保持一段时间的领先;其二是用户体验,何为用户体验,请参看用户体验栏目的相关说明,用户体验已成为产品优势的附加值,它将潜移默化的影响用户的感受及心理,是粘住用户建立品牌的重要方式。相比之下,用户体验将成为未来互联网发展必不可缺的关键因素?br/>
GOOGLE的产品已逐渐加强在用户体验角度的投入,不断的整合产品、增强产品易用性,而作为依托于搜索引擎的SEO优化将做何准备呢?SEO与搜索引擎的利益是捆绑在一起的,在搜索引擎逐步重视用户体验的发展趋势中,SEO不得不将用户体验融合进去,而方式呢?br/>
PRODUCT——INTERFACE——USER

在用户与产品之间,最佳的体验是直接相互,实际上这是不太现实的,尤其是互联网,我想大家都能理解;既然不能实现直接相互,必然会有用户界面的产生,提升用户体验就是不断的优化用户与产品的交互过程,使产品的内容、功能及表现形式等完全基于用户角度需求角度考虑,说白了就是?strong>想用户之所想,及用户之所?/strong>。对于搜索引擎来说,其宗旨是提升用户的搜索体验,而这恰恰是通过具备良好用户体验的站点来反映出来的。搜索引擎的发展趋势将偏向于人性化、智能化,这就是说搜索引擎需要不断的优化算法以求保证提供用户最贴切的搜索结果,这是最基本的,而智能化的趋势将要求搜索引擎必须能理解并预期用户的需求,同时,对于还需要关注用户行为。这也就是为什么在昨天发布的文章?a href="//www.2w0f.cn/post/241.htm" target="_blank">搜狗网页搜索3.0的推广软?/a>”中,我提出了自己对搜狗搜索引擎3.0版本的疑问,因为那篇软文基本上没有写出未来搜索引擎应该具备的特点,如果硬要拿收录网页数作为一大特色的话,我只能说这还不足以使我认定搜狗是一个值得应用的搜索引擎?br/>
对于Ʊƽ̨,要谈的应该会更多,之前,我就曾经提出,SEO迟早会与UE融合一体,因此,我也建立了一个新栏目“用户体验”,鉴于这方面知识仍在学习之中,目前只以转载优秀文章为主,待到成熟时,我会写一些自己对UE的理解及开展具体工作的情况?br/>
SEO将越来越注重用户的需求,这包括用户的搜索行为、搜索习惯、模拟用户浏览行为、提供给用户更多的可能激发的需求,以及如何基于用户角度来描述网页等等,于是,我们可能要打破传统的产品策划模式,仅仅注重产品的功能或互动性是不够的,也许需要细化到每个网页如何布局以及将什么内容呈现给用户等等?br/>
举个例子:当用户查看某种IT产品资讯时,我们需要对用户需求进行分析,用户可能要对资讯内容进行深入挖掘,这是用户了解该产品大体评价的一种方式,直至用户判别出该产品是否可能满足自身需要或提升用户的关注度,因此,基于该产品的更多资讯内容是用户行为的诱发点,不仅如此,这些资讯内容还必须展示在用户眼球最容易触及的地方,偶很喜欢天极新版内容页最上方的导读;接下来,我们还要很方便的使用户找到产品参数、价格、购买渠道等信息获取的方式,但当用户预了解产品价格时,比价购物、体验购物的模式是不是应该被我们所利用呢,用户评论是最好的体验,而论坛又可以聚合用户评论,接下来呢。。?br/>
SEO最终是要被淡化的,其包含的元素将体现于网站的方方面面,在可预知的未来,可能所有从事互联网行业的人都会对SEO有基本的了解,SEO的思想和策略将体现于策划、产品及推广的细节工作中去,特别是UE,为此,SEOER需要做更多准备,你准备好了吗?

引用
作? 黑色梦中
原载: Ʊƽ̨
版权所?转载时请以链接形式黑色梦中以文章出处?/div>

Tags - , , , ]]> //www.2w0f.cn/post/241/ <![CDATA[搜狗网页搜索3.0的推广软文]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Mon, 11 Dec 2006 15:49:13 +0000 //www.2w0f.cn/post/241/
  日前,搜狐公司旗下自主品牌搜狗搜索引擎宣布,搜狗网页搜索3.0版本将于2007??日正式上线,新版本将凭借其自主研发的服务器集群并行的抓取技术,成为全球首个中文网站收录量达?00亿的搜索引擎,并以每?亿网页的更新速度及独一无二的搜狗网页评级体系,在海量、及时、精准等搜索引擎基本指标上全面升级中文搜索引擎的用户体验,再次掀起搜索引擎新一轮技术革命?


  海量:全球首个网页收录量达到100亿的中文搜索引擎

  一直致力于后台技术研发和数据积累的搜狗,?006?月份的时候就成功支持?0亿中文网页的查询,成为了全球首个中文网页收录量达?0亿的搜索引擎,即将于2007??日震撼上线的搜狗网页搜索3.0更是将数据量拓展到了100亿的惊人数字,再创全球中文网页收录量新高?br/>
  目前市场上各家搜索引擎对于中文数据的收录量远比英文数据的收录量低很多,导致了用户想要的信息找不到,这也是长期以来中文搜索引擎的用户满意度要比英文的低很多的一个主要原因,而数据量的大小,直接反映了搜索引擎研发团队的技术实力?br/>
  此次,搜狗技术团队采用了自行开发的文件系统和数据库,大幅提升了服务器利用率,并对后台的抓取、页面分析、滤重、索引、排序、反垃圾等一系列的功能模块都进行全方位的升级,以支持更大的容量的内容储备,向网友提供创纪录的百亿网页的信息资源,进一步拉开了与竞争对手的差距,重新定义了搜索引擎业界标准,奠定了搜狗技术团队行业绝对领先的地位?br/>
  及时:每天更?亿网页,最新资讯最?分钟即可被检索到

  在及时性方面,搜狗网页搜索3.0通过智能分析技术,对于不同网站、网页采取了差异化的抓取策略,充分地利用了带宽资源来抓取高时效性信息,更是确保互联网上的最新资讯能够被用户及时检索到?br/>
  经过对互联网上的热点新闻事件搜索的测试,搜狗网页搜索3.0仅需1分钟时间就能完成从抓取到页面分析到建立索引到上线的全部过程,在第一时间呈现大量相关结果。在这样的速度下,每天搜狗的服务器集群并行更新5亿的网页,用户不必再专门到新闻搜索引擎上,就能获得最新资讯?br/>
  为了满足对及时性要求极高的用户的需求,搜狗还特意提供了按时间排序的功能,更加显示了搜狗网页搜索3.0强大的网页及时迅速的更新能力?br/>
  精准:评测指标业内领?基于搜狗网页评级的结果排?/strong>

  搜索结果的精准性是搜狗网页搜索3.0三大特点之一。搜狗网页搜?.0在搜索结果的排名上采用了被业界广泛认可的搜狗网页评级体系。网页评级是搜狗衡量网页重要性的指标,不仅考察了网页之间链接关系,同时考察了链接质量、链接之间的相关性等特性,网页评级越高,该网页在搜索中越容易被检索到。由于有了网页评级体系的保证,搜狗的搜索结果能够做到更加精准?br/>
  另外,用户对于搜索结果的点击,代表了用户对搜索结果的认可。数据分析表明,用户每次搜索后,点击结果的次数越多,说明搜索结果越精准。搜狗网页搜?.0从用户体验出发,将结果点击次数与搜索次数的比率,即点击通过率,作为评估搜索结果精准性的重要指标,进行优化,确保我们的算法满足用户对于“精准”的理解。搜狗网页搜?.0版本上线后,网页搜索的点击通过率预计将提升?0%?br/>
  由于Web2.0概念的普及,博客、论坛、社区、圈子等应用的涌现,互联网上越来越多的用户从信息的获取者变成了信息的发布者。面对求知若渴的众多网友,目前国内搜索引擎市场远远达不到用户对海量、及时、精准的三点要求,导致目前国内搜索行业处于停滞不前,利益当先的状况,因此搜狗网页搜索3.0的诞生是对目前龙鱼混杂的搜索市场的一次梳理,也是长期以来的尝试和发展过程中勇于创新的成果,必将打破目前搜索行业的陈旧格局,成?007年搜索风暴的引领者?br/>
  搜狐公司董事局主席兼首席执行官张朝阳先生非常有信心地说:“在信息呈现爆炸式增长的今天,海量、及时和精准已经成为搜索引擎的衡量标准。搜狗网页搜?.0将会成为中文互联网中品质最好的搜索引擎。搜狗技术研发团队近两年的技术储备,将为搜索领域带来深刻的蜕变?007??日,搜狗网页搜索3.0正式发布,将会证明一切,我们期待那个时刻的到来,同时也是给一直以来支持搜狗的网友们一份新年大礼,我们将同网友一同见证这个在搜索行业标入史册的重要时刻”?br/>
  从诞生之日起,为网民提供最好的互联网体验就是搜狗团队一直不懈努力的目标,从凭借打字速度快而火速窜红的搜狗输入法到中文网页评级最权威的行业标准Sogou Rank;从运用领先的pxp技术提供流畅的在线音乐试听到为网民提供了无限乐趣的文品指数,以及国内首个搜索引擎实验室——搜狗网络实验室,都证实了搜狗的强大技术创新能力。 

黑色梦中有个疑问:众多周知,大部分网民都会将搜索结果第一位作为首选,如果该网页并不能满足用户需求,致使用户发生更多次点击,但关注结果数据而非用户操作过程会使第一位的点击通过率恒高,这个矛盾如何解决?所以几乎可以肯定的是,好的搜索结果不是简单的排序,而是对大量的数据进行归纳研究得出的近似结果?br/>
引用
作? 郝聪
原载: Ʊƽ̨
版权所?转载时请注明作者并以链接形式标注原始出?

Tags - , ]]>
//www.2w0f.cn/post/240/ <![CDATA[Google和百度收录网站页面的比较]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Wed, 06 Dec 2006 14:34:08 +0000 //www.2w0f.cn/post/240/
  Google和Baidu收录网站页面的标准是不同的?

  为了验证这一点,我做一个实验:我申请了一个新域名www.moon-blog.com,不再其他任何网站做链接,而直接往百度和Google搜索引擎的提交页面进行提交。一个月过去了,百度收录的网页是24,900篇,Google收录的网页是0,这证实了我以前的猜测?

  这说明了什么呢?说明百度比Google好吗?绝对不是的。因为Baidu和Google收录页面的标准是完全不同的?

  Google是按照网页级别来收录的,只要你有一定的网页级别,Google会快速收录的,而没有网页级别的网站,Google则坚决不去收录。Baidu则很夸张,采用的是来者不拒,多多益善的原则,无休止的进行收录。Baidu的这种不按网页级别的收录方式其实有很大的恶果,最主要的恶果是造成大量的垃圾网站流行,因为只要做一个垃圾站,Baidu就会立刻收录?5000页以内),这等于变相的鼓励大家去做垃圾站,去盲目采集。当垃圾站横行的时候,Baidu再通过人工的方式封站,对于大流量的网站再威胁其站长办理百度竞价排名。因此Baidu和大量的个人站长都结有恩怨?

  这两种收录方式哪种更好呢?我个人认为Google的这种收录方式是比较科学的。因为互联网上的页面是个天文数字,收录应该是有选择的收录,好的网站则多收录,新站则应该少收录,等其慢慢知名了以后再多收录,这样也提高了效率,让用户搜索到更好的页面而不是更多的页面。而且Google的爬虫占用服务器的资源较少,通常是先用head来查看网页是否更新,如果更新了再抓取整个页面,这种方法耗费流量较少。而百度则不管三七二十一上来就抓整个站,而且其爬虫数量非常庞大,对于页面较多的网站通常会耗费惊人的流量,并且常常造成恶劣的后果。例如我以前的月光软件站有一段时间CPU耗费极大,IIS连接数也逼近1000,每天流量高?0多G,电信机房总威胁要限制我的带宽,我以前一直以为是被别人DDOS攻击,但是我购买了新的服务器,换了几个IP,甚至更换了几个机房,依然无法解决问题,不得已只好将服务器托管到外地流量充裕的机房,但CPU负荷还总是居高不下。直到我网站被百度封了后,百度爬虫也不再光故,这时我才惊奇地发现,我的CPU和流量终于处于一种稳定合理的状态了,到目前为之,我站每天流量也有十多G,但CPU一直都没有超过5%,服务器也很少出现死机和大量IIS连接的状况,因此我开始怀疑,以前的所谓被DDOS攻击,其实只是大量的百度爬虫在抓取我的网站而已,由于其爬虫数量庞大,才引起我服务器的超负荷运转以至濒于崩溃?

  当然,百度这种“贪婪”爬虫抓取方法,虽然会让用户能够在百度搜索出一些Google里搜索不到的页面,但这实在是损人利己。其带给网站站长不少负面效果:服务器和带宽资源过度消耗,垃圾站被变相鼓励了,原创的有特色的网站则被边缘化,MP3音乐网站则更苦不堪言-自己的MP3被百度盗链后带来大量文件下载却没有带来页面访问?

  因此,中国的网民也出现了很奇怪的现象:大量的新网民和菜鸟新手喜欢用百度搜索,因为百度往往搜索到很多别处搜索不到的页面,但内容的匹配度则令人质疑,而专业人士和老鸟则更喜欢用Google,个人站长则普遍和百度有“个人恩怨”。因此百度在业界的Blog以及社区中口碑都不太好,但在普通的低层次的网民心中却不错,这些大量的普通网民给百度带来了大量流量?

  其实百度也发现这样所带来的问题。网络新手和普通网民的影响力微不足道,被Hao123这样的流氓网站强奸了,也不会反抗,用Hao123时间长了反而会依赖和喜欢上这样的低级网站。而IT专业人士则不同,他们建网站、写博客、开论坛,他们可以影响一大批普通用户,如果百度长期依靠低端用户而和大量站长结怨的话,其发展前景也是令人质疑的?br/>
转载?//google-google.blog.sohu.com/23789516.html
Tags - , , , ]]>
//www.2w0f.cn/post/238/ <![CDATA[搜索引擎中网络爬虫的设计分析]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Mon, 04 Dec 2006 04:18:17 +0000 //www.2w0f.cn/post/238/
说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里?br/>
1?网络爬虫高度可配置性?br/>2?网络爬虫可以解析抓到的网页里的链?br/>3?网络爬虫有简单的存储配置
4?网络爬虫拥有智能的根据网页更新分析功?br/>5?网络爬虫的效率相当的?br/>
那么依据特征,其实也就是要求了,如何设计爬虫呢?要注意哪些步骤呢?br/>
1?url 的遍历和纪录
这点 larbin 做得非常的好,其实对于url的遍历是很简单的,例如:

cat [what you got]| tr \" \\n | gawk '{print $2}' | pcregrep ^//

就可以得到一个所由的 url 列表

2】多进程 VS 多线?br/>各有优点了,现在一台普通的PC 例如 booso.com 一天可以轻松爬?个G的数据。大?0万网页?br/>
3】时间更新控?br/>最傻的做法是没有时间更新权重,一通的爬,回头再一通的爬?br/>通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍?/strong>

如果一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1??/strong>

注意,效率是取胜的关键之一?br/>
4】爬的深度是多少呢?
看情况了。如果你比较牛,有几万台服务器做网络爬虫,我劝您跳过这一点?br/>如果你同我一样只有一台服务器做网络爬虫,那么这样一个统计您应该知道?br/>
网页深度:网页个数:网页重要程度
0 : 1 : : 10
1 :20 : :8
2: :600: :5
3: :2000: :2
4 above: 6000: 一般无法计?br/>
好了,爬到三级就差不多了,再深入一是数据量扩大??倍,二是重要度确下降了许多,这叫做“种下的是龙种,收获的是跳蚤?br/>
5】爬虫一般不之间爬对方的网页,一般是通过一个Proxy出去,这个proxy有缓解压力的功能,因为当对方的网页没有更新的时候,只要拿到 header ?tag就可以了,没有必要全部传输一次了,可以大大节约网络带宽?br/>
apache webserver里面纪录?304 一般就是被cache的了?br/>
6】请有空的时候照看一下robots.txt

7】存储结构?br/>这个人人见智,google ?gfs 系统,如果你??台服务器,我劝你用NFS系统,要是你?0?0个服务器的话我建议你用afs 系统,要是你只有一台服务器,那么随便?br/>
给一个代码片断,是我写的新闻搜索引擎是如何进行数据存储的?br/>


NAME=`echo $URL |perl -p -e 's/([^\w\-\.\@])/$1 eq "\n" ? "\n":sprintf("%%%2.2x",ord($1))/eg'`
mkdir -p $AUTHOR
newscrawl.pl $URL --user-agent="news.booso.com+(+//booso.com)" -outfile=$AUTHOR/$NAME





以上转载的是一篇关于搜索引擎网络爬虫(即搜索引擎蜘蛛程序)的设计分析的文章,介绍了一些蜘蛛设计的常识,这些信息对Ʊƽ̨都很有帮助,特别是注意以下几句:

1.通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍,如果一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1??/strong>

网页更新频度严重影响着搜索引擎蜘蛛程度对网站的爬行,爬取次数越多意味着网页收录几率会越大、收录数量越多,收录?a href="//www.2w0f.cn/" target="_blank">SEO优化最基础的一个环节?br/>
2.好了,爬到三级就差不多了,再深入一是数据量扩大??倍,二是重要度确下降了许多,这叫做“种下的是龙种,收获的是跳蚤?/strong>

尽量将网站保持在三级目录内,深层次的网页会给搜索引擎带来很大的压力,当然,我想Google有足够的服务器来承担这些压力,但从侧面来说,3层目录下的网页被抓取及更新的频度要低很多。前面,我说过,要想办法使网站物理结构和逻辑结构吻合,这体现于URL的良好设计,现在你可以检查下前台生成的静态网页的实际目录有几层,考虑是否可以优化?br/>关于网站逻辑结构和URL设计,请参考?a href="//www.2w0f.cn/post/224/" target="_blank">网站内部链接优化是SEO的第一要素”和?a href="//www.2w0f.cn/post/190/" target="_blank">二级域名与一级目录之间该如何选择??/a>

引用
作? 黑色梦中
原载: Ʊƽ̨
版权所有。转载时请以链接形式注明作者和原始出处及本声明?/div>

Tags - , , ]]> //www.2w0f.cn/post/237/ <![CDATA[郝聪对搜索引擎作弊的看法]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Fri, 01 Dec 2006 04:06:18 +0000 //www.2w0f.cn/post/237/ 关于搜索引擎作弊问题,黑色梦中谈一下自己的看法?br/>
自从有了搜索引擎,就有了针对搜索引擎网页排名的作?SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子?/strong>

搜索引擎的作弊,虽然方法很多,目的只有一个,就是采用不正当手段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站,重复地罗列各种数码相机的品牌,如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词,聪明一点的作弊者常用很小的字体和与背景相同的颜色来掩盖这些关键词。其实,这种做法很容易被搜索引擎发现并纠正?br/>
在有了网页排?page rank)以后,作弊者发现一个网页被引用的连接越多,排名就可能越靠前,于是就有了专门卖链接和买链接的生意。比如,有人自己创建成百上千个网站,这些网站上没有实质的内容,只有到他们的客户网站的连接。这种做法比重复关键词要高明得多,但是还是不太难被发现。因为那些所谓帮别人提高排名的网站,为了维持生意需要大量地卖链接,所以很容易露马脚。(这就如同造假钞票,当某一种假钞票的流通量相当大以后,就容易找到根源了。)再以后,又有了形形色色的作弊方式,我们就不在这里一一赘述了?br/>
几年前,我加入Google做的第一件事就是消除网络作弊。在Google最早发现搜索引擎作弊的是Matt Cutts,他在我加入Google前几个月开始研究这个问题,后来,辛格,马丁和我先后加入进来。我们经过几个月的努力,清除了一半的作弊者?当然,以后抓作弊的效率就不会有这么高了。)其中一部分网站从此"痛改前非",但是还是有很多网站换一种作弊方法继续作弊,因此,抓作弊成了一种长期的猫捉老鼠的游戏。虽然至今还没有一个一劳永逸地解决作弊问题的方法,但是,Google基本做到了对于任何已知的作弊方法,在一定时间内发现并清除它,从而总是将作弊的网站的数量控制在一个很小的比例范围?br/>
抓作弊的方法很像信号处理中的去噪音的办法。学过信息论和有信号处理经验的读者可能知道这么一个事实,我们如果在发动机很吵的汽车里用手机打电话,对方可能听不清;但是如果我们知道了汽车发动机的频率,我们可以加上一个和发动机噪音相反的信号,很容易地消除发动机的噪音,这样,收话人可以完全听不到汽车的噪音。事实上,现在一些高端的手机已经有了这种检测和消除噪音的功能。消除噪音的流程可以概括如下?br/>
点击在新窗口中浏览此图片

在图中,原始的信号混入了噪音,在数学上相当于两个信号做卷积。噪音消除的过程是一个解卷积的过程。这在信号处理中并不是什么难题。因为第一,汽车发动机的频率是固定的,第二,这个频率的噪音重复出现,只要采集几秒钟的信号进行处理就能做到。从广义上讲,只要噪音不是完全随机的、并且前后有相关性,就可以检测到并且消除。(事实上,完全随机不相关的高斯白噪音是很难消除的。)

搜索引擎的作弊者所作的事,就如同在手机信号中加入了噪音,使得搜索结果的排名完全乱了。但是,这种人为加入的噪音并不难消除,因为作弊者的方法不可能是随机的(否则就无法提高排名了)。而且,作弊者也不可能是一天换一种方法,即作弊方法是时间相关的。因此,搞搜索引擎排名算法的人,可以在搜集一段时间的作弊信息后,将作弊者抓出来,还原原有的排名。当然这个过程需要时间,就如同采集汽车发动机噪音需要时间一样,在这段时间内,作弊者可能会尝到些甜头。因此,有些人看到自己的网站经过所谓的优化(其实是作弊),排名在短期内靠前了,以为这种所谓的优化是有效的。但是,不久就会发现排名掉下去了很多。这倒不是搜索引擎以前宽容,现在严厉了,而是说明抓作弊需要一定的时间,以前只是还没有检测到这些作弊的网站而已?br/>
还要强调一点,Google抓作弊和恢复网站原有排名的过程完全是自动?并没有个人的好恶),就如同手机消除噪音是自动的一样?span style="color: #FF0000;">一个网站要想长期排名靠前,就需要把内容做好,同时要和那些作弊网站划清界?/span>?br/>



黑色梦中个人理解,这是一篇具有技术含量的公关稿,Google想要告诉我们?br/>1。Google完全可以通过自身算法的不断完善来判断作弊行为
2。Google并不想把作弊网站排在搜索结果前面,而是搜索结果遭到了人为的破坏,而解决这样的问题需要一定的时间和证?br/>3。Google正在收集、研究目前已知的作弊行为,并对其进行研究,并在合适的时期将结论分析应用于算法中,体现结果会是全面惩罚作弊行为
4。Google对作弊站点的惩罚可能会株连很多无辜的站点,请在交换链接时注意?br/>5。如果你遇到了这样的网站:他没有实际内容,网页上几乎都是导出链接,但他PR很高。请不要购买这种站点的链接,不仅价值不高,还可能被列出重点“关照”对?br/>
当然,还有一些疑问,说出来大家一起想一想:
把内容做好是必需的,但是不是保持内容的持续不断更新就可以?否则Google如何解决内容可复制性的问题?br/>Google指定不会告诉我们其算法中是如何检测到重复关键词的,我想利用搜索引擎的信息片算法就可以解决这个问题,但像吴军所言?br/>
引用
比如一个卖数码相机的网站,重复地罗列各种数码相机的品牌,如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词,聪明一点的作弊者常用很小的字体和与背景相同的颜色来掩盖这些关键词。其实,这种做法很容易被搜索引擎发现并纠正?/div>

这点值得商榷,何为重复,尺度如何,我想即便是不了解SEO的人也知道,网页中的文字也不可能写成”尼康尼康尼康尼康尼康尼康尼康尼康尼康尼康尼康尼康尼康尼康“吧,难道他不觉得碍眼??但写成”尼康数码相?nbsp; 佳能数码相机   柯达数码相机。。。“算不算在重复”数码相机“这个关键词呢???可“尼?#124;?#124;康尼[]?#124;!·¥#?!康%?#……尼—PADG康?#124;”这种形式,无论从密度或绝对匹配情况都无法用一个极限值去衡量,不是吗???当然,希望Google有更好的方法.

对于搜索引擎作弊,黑色梦中持反对态度,为什么?很简单,没有必要?/strong>

我个人认?a href="//www.2w0f.cn/" target="_blank">SEO是持久性的优化(前提是保证网站内容的持续更新、市场营销活动铺开、线上合作、网站维护等)。当然,不持久的也未必是作弊,我希望大家从网站整体的角度去看待SEO,SEO不仅仅是要把某一个或几个关键词优化上去,实际情况是:如果你不能对关键词进行合理的布置,对整站结构及内容体现有一个很清晰的把握的话,优化效果也无法持久,而花费在后期维护的时间、精力却是大量而没有效果的,就好比人在犯了错误的时候,没能从根本原因入手去解决问题,而从导致错误的直接原因入手,结果是错上加错。SEO的前期准备工作更加重要,你试图去了解网站的业务模式、网站技术实现方式、网站架构、网站的营销策略、网站内容的表现形式,然后转换一下角色,以一个需求者的角度去模拟用户访问行为,可能你会发现的确需要做很多事情来满足用户,利用上你对SEO的了解去做这些事情,最终结果会让你很惊喜的。祝你好运!!!

引用
作? 郝聪
原载: Ʊƽ̨
版权所?转载时请注明作者并以链接形式标注原始出?

Tags - , , , , ]]> //www.2w0f.cn/post/236/ <![CDATA[Yahoo统计到的用户行为分析]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Wed, 29 Nov 2006 14:22:27 +0000 //www.2w0f.cn/post/236/
SDS部门的前身是一家数据挖掘咨询机构,雅虎?004年将其收购。该部门专门负责研究用户的访问、点击行为,并从海量的统计中摸准用户的真实心理。根据这篇文章披露的资料,到目前为止,雅虎的用户行为统计数据量足以填?000个美国国会图书馆?

SDS的研究成果对雅虎的页面设计提供了非常直接的建议,比如?

1、网民“所声称的”和他们的实际点击行为往往有较大的出入。用户吵着闹着“需要看严肃的国际新闻”,而且常常抱怨:“我不希望我浏览的网页上到处都是Britney Spears的消息,要是我的老板经过时看到了怎么办?”但实际上关注Britney Spears的消息点击率是最高的?

这个矛盾的结果让yahoo做出了一个改版决定——保留国际新闻在显著位置,但娱乐版也被放在重要位置?

2、用户更喜欢方便,而非简洁。通常的观点会认为网民更偏好于一个简约的首页,但SDS的数据显示网民希望能在一个页面上就看到所有东西,诸如邮箱、即时消息、新闻、专栏等等?

马云曾经让雅虎中国的页面变成Google,现在又换成了美国风格,不知道雅虎中国的不断“变脸”是不是也在SDS的数据左右之下?

3、有时候页面载入速度过快也是问题所在。雅虎推出的Personal Assistant功能利用AJAX技术实现了“把光标放在图标上就能浏览到其中的内容,比如电子邮件”。本来一个看似非常棒的功能,但结果却并不讨用户的喜欢,SDS分析的结果是——页面载入速度太快。设计团队加入延迟载入之后,问题迎刃而解?

无独有偶,上次见李开复的时候,他提到了在微软工作时一个有趣的试验——有些初级网民不会使用关键字,常常输入“去哪找工作啊?”这样啼笑皆非的搜索词,于是他们采用了一个简单的处理方法解决了问题——将文字输入框缩短。这便是用户心理学,和SDS干得事是一样的?

不知道国内门户是否有类似的部门(据我所知,多数网站的这一工作,被用户体验部门和应用平台技术部门包办了),但我想这项工作对任何商业站点都有非常重要的意义。恰好最近网易和奇虎已经完成首页及各频道的改版,而新浪和搜狐也正在对页面进行调整,不知道它们又是凭什么做“Face-Lift”的?br/>
Tags - , ]]>
//www.2w0f.cn/post/234/ <![CDATA[Google Adsense高价关键词列表-Highest Paying Google AdSense Keywords]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Tue, 21 Nov 2006 06:08:28 +0000 //www.2w0f.cn/post/234/ FREE Top Paying Google Adsense Keywords List

Here is a list of free best paying keywords for google adsense. Rates given here is the average for top three postion, updated 5 th June, 2006. The data provided here is just for the information only. We do not encourage or support any kind of spamming including MFA(Made for Adsense) sites. We also want to make it clear that the actual earning could be much lower than listed here, depending on the site, location of the visitor and a number of other factors. Google adsense, Yahoo YPN or any other PPC programs are not money making machines. Creating a successfull website needs a lot of hardwork and dedication, selecting the top paying keywords is not really a criteria. In fact, all the MFA sites earn practically nothing, it is the quality of the content that matters in long term. Another interesting fact is that, there is high paying keywords( say above 10$ per click) in almost every niche. It is always better to select a topic of your interest rather than selecting a high paying niche. Our personal experince proves that the keywords showing 10$-15$ ultimately earns only 2$-3$ for the publisher. Google has a keyword bidding mechanism, so that the first ad pays only one cent more than the competitor.

The data is obtained directly from google's tools itself. I hope publishing the rates doesn't break any adsense/adwords TOS, if anybody feel otherwise, please let us know.

Disclaimer:  Google, Adsense, Adwords are registerd trademarks. We are not affiliated with google and make any claims about the accuracy of the data.

Now that you have been warned, take a look at the high paying Top Google Adsense Keywords.


google adsense高价关键词价格排?/strong>

$78.30 chicago personal injury lawyer
 $73.01 chicago personal injury attorney
 $69.17 lasik new york city
 $64.27 new york personal injury lawyer
 $64.17 new jersey car insurance
 $63.10 new york personal injury attorney
 $61.64 chicago personal injury lawyers
 $61.17 mesothelioma lawyers
 $60.74 atlanta personal injury lawyer
 $60.29 new york personal injury lawyers
 $59.00 lasik dallas
 $58.68 new york personal injury lawyers
 $58.38 miami personal injury attorney
 $58.25 what is mesothelioma
 $58.08 best equity loan
 $57.95 lasik new york
 $56.88 whole life insurance quote
 $56.75 new york car insurance
 [...]
 $53.46 whole life insurance quotes
 $53.42 car insurance in new jersey
 $53.12 las vegas personal injury lawyer
 $53.12 term life insurance quotes
 $52.57 mesothelioma treatments
 $52.41 equity loan rate
 $51.78 equity loan
 $51.50 new york personal injury lawyer
 $51.29 equity loan rates
 $51.15 fixed rate equity loan
 $50.54 causes of mesothelioma
 [...]
 $45.33 los angeles botox
 $45.07 new lasik
 $44.86 fixed equity loan
 $44.51 san diego personal injury attorney
 $44.19 125 equity loans
 $43.58 mesothelioma cases
 $43.57 car insurance in new york
 $42.97 equity refinance
 $42.70 asbestos and mesothelioma
 $42.52 auto insurance quote
 [...]
 $40.47 [cosmetic surgery los angeles]
 $40.04 personal injury attorney atlanta
 $39.67 car insurance california
 $39.66 oregon personal injury lawyer
 $39.43 auto insurance
 $39.35 albany personal injury lawyer
 $39.21 fixed equity loans
 $39.11 personal injury lawyers
 $38.84 ameriquest mortgage
 $38.31 auto insurance quotes
 $38.19 mortgage refinance
 $38.17 lump sum settlement
 $37.43 cause of mesothelioma
 [...]

 TOP PAYING FINANCIAL KEYWORDS  
 
auto insurance quote $57.18  
college loan consolidation $53.52  
car insurance quote $46.89  
federal loan consolidation $46.62  
online car insurance $41.92  
term life insurance quote $40.43  
cheap car insurance $39.79  
student loan consolidation $39.45  
auto insurance quotes $39.24  
online insurance quotes $37.63  
student loan information $37.32  
equity loan rates $36.53  
nj auto insurance $36.31  
student loan consolidation center $35.89  
debt consildation $35.83  
chase credit cards $35.02  
student loan refinancing $34.89  
discount car insurance $34.34  
life insurance quote $34.26  
homeowners insurance quotes $33.61  
mortgage loans $33.17  
mortgage loans $33.17  
mortgage refinancing $33.08  
equity line of credit $33.05  
college loans $32.91  
best mortgage rates $32.65  
student loans $32.54  
loan refinancing $32.44  
us mortgage rates $32.38  
instant insurance quote $32.37  
term life insurance quotes $32.11  
consolidation loan $32.03  
loan refinance $31.95  
car insurances $31.92  
safe auto insurance $31.82  
insurance auto florida $31.38  
auto insurance $31.38  
equity line of credit $30.71  
gmac mortgages $30.46  
mortgages for self employed $30.45  
car insurance california $30.17  
in car insurance $29.84  
best mortgage $29.53  
refinancing mortgages $29.43  
line of credit $29.27  
prequalify loan $28.98  
loans com $28.75  
business credit report $28.40  
whole life insurance quotes $28.17  
new york auto insurance $27.72  
online mortgages $27.71  
student loan $27.61  
cheap house insurance $27.45  
low cost life insurance $27.25  
school loan consolidation $26.99  
citi credit $26.80  
manhattan mortgages $26.70  
school loans $26.61  
term insurance $26.58  
second mortgage $26.56  
credit report com $26.48  
auto ins $26.21  
consolidation $25.90  
line of credit $25.57  
landlords insurance $25.46  
low mortgage $25.45  
commercial vehicle insurance $25.37  
credit consolidation $25.32  
bad credit mortgages $25.22  
bad credit mortgages $25.22  
discount life insurance $25.22  
More Financial Keywords .....
 
TOP HOSTING AND DOMAIN NAMES KEYWORDS
 
register a domain name $34.51  
domain registrations $31.39  
servers dedicated $29.47  
how to register a domain name $26.84  
domaine names $26.00  
register domain names $25.83  
search domain name $24.75  
domain register $24.25  
domain registration $23.97  
internet domain registration $23.58  
yahoo webhosting $22.05  
domain registering $21.78  
counter strike dedicated servers $21.65  
buy domain name $21.23  
registering domain names $20.71  
domain check $20.21  
buy a domain name $20.12  
domain search $19.83  
dedicated server $19.73  
managed dedicated servers $19.56  
domain name registrations $19.55  
eu domain registration $19.52  
domain searches $19.28  
domain names $19.06  
domain name registration $19.01  
dedicated linux hosting $18.35  
available domain name $18.31  
linux dedicated hosting $18.20  
dedicated web hosting $18.04  
hosting domain registration $17.87  
dedicated windows server hosting $17.74  
dedicated web hosting $17.63  
hosting dedicated $17.58  
dedicated hosting $17.30  
managed dedicated hosting $17.30  
domain name availability $16.99  
ca domain name $16.64  
web domain $16.58  
dedicated web server $16.56  
domain names canada $16.53  
dedicated server hosting $16.14  
dedicated hosting server $16.03  
cheap domain names $16.00  
register domains $15.92  
dedicated windows hosting $15.90  
mohaa dedicated server $15.87  
inexpensive domain $15.70  
domain name $15.69  
dedicated server web hosting $15.44  
Domain $15.38  
domain name registration search $15.37  
uk dedicated hosting server $15.36  
unix dedicated server $15.17  
cheap domain register $15.03  
dedicated sql server $15.03  
More Web Hosting & Domain Name Keywords  
 
HIGHEST PAYING ELECTRONICS KEYWORDS
 
laptop data recovery $23.60  
vaio notebook $22.88  
laptop pcs $18.85  
computer notebooks $18.49  
sony cyber shot dsc w7 digital camera $17.61  
laptop computers $16.18  
notebooks $13.79  
rugged laptop $13.55  
pc laptops $13.43  
laptops $13.34  
vaio laptop battery $12.56  
toshiba laptop computers $12.07  
macintosh laptop $12.00  
laptop notebook $11.51  
notebook pc $11.48  
laptop mounts $11.32  
notebook computers $11.31  
vehicle laptop $10.32  
dsc p10 digital camera $10.05  
 
HIGH PAYING DATING KEYWORDS  
 
singles in las vegas $20.95  
las vegas singles $19.21  
albuquerque singles $12.32  
pensacola singles $12.19  
african american singles $11.79  
american christian singles $10.60  

Tags - , ,
What's An Update
and his
More info on PageRank.


Page Rank Export Table Definitions

TBPR Export: Toolbar PageRank Export - export of Real PR to the Toolbar PR 11 unit scale (no longer called a PR update as Real PR is updated continously and the Toolbar PR change is just an export of that updated value).
GDPR Export: Google Directory Export - export of Real PR to the Google Directory 8 unit scale (no longer called a PR update as Real PR is updated continously and the Google directory PR change is an export of that updated value).
BL Export: Backlink Export - export of a sample of the number of backlinks which is almost meaningless as it is only a sample number. This number can be seen with the link:www.domain.tld command (no longer called a BL update as backlinks are updated continously and the visible BL number change is an export of that updated value).
Algo Update: Algorithm Update - a major update in the Ranking algorithm that causes a large SERP change.
TB Program Version Change: Toolbar Program Version Change - a software version change to the Google toolbar that displays PR.
Days: Days between toolbar PR exports.
Tooltip information:
点击在新窗口中浏览此图片Mouseover this icon and it provides further information. : Mouseover this icon and it provides further information. Click the icon takes you to forum coverage.


Page Rank Export List History Table


<table width="65%">
<tr><td colspan="4" style="color:red;">PR/BL Estimations: Average days between the last 5 exports.</td></tr>
<tr><td><b>Year</b></td><td><b>Date</b></td><td><b>Info</b></td><td><b>Days</b></td></tr>
<tr>
<td>2006</td>
<td>Waiting</td>
<td><b>TBPR Export <span style="color:red;">Estimation</span> Jan 28</b></td>
<td>53</td>
</tr>

<tr>
<td>2006</td>
<td>Waiting</td>
<td><b>GDPR Export <span style="color:red;">Estimation</span> Mar 19</b></td>
<td>336</td>
</tr>

<tr>
<td>2006</td>
<td>Waiting</td>
<td><b>BL Export <span style="color:red;">Estimation</span> Oct 28</b></td>
<td>53</td>
</tr>


<tr><td>2006</td><td><a class="info" href="//forums.digitalpoint.com/showthread.php?t=148674">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Sep 28 TBPR &amp; BL Export:</b> Toolbar Pagerank &amp; BL Export.<br />
<b>Forum coverage:</b><br />
//forums.digitalpoint.com/showthread.php?t=148674<br />
//www.mattcutts.com/blog/new-toolbar-pageranks-visible/<br />


Estimated Oct 11/2006</span></a> Sep 28</td>
<td>TBPR &amp; BL Export</td>
<td><b>76</b>/76</td></tr>


<tr><td>2006</td><td><a class="info" href="//forums.digitalpoint.com/showthread.php?t=107899">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Jul 13 TBPR &amp; BL Export:</b> Toolbar Pagerank &amp; BL Export.<br />
<b>Forum coverage:</b><br />
//forums.digitalpoint.com/showthread.php?t=107899</span></a> Jul &nbsp;13</td>
<td>TBPR &amp; BL Export</td>
<td><b>100</b></td></tr>

<tr><td>2006</td><td><a class="info" href="//forums.digitalpoint.com/showthread.php?t=71901">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Apr 05 TBPR Export:</b> Toolbar Pagerank Export.<br />
<b>Forum coverage:</b><br />
//forums.digitalpoint.com/showthread.php?t=71901</span></a> Apr &nbsp;04</td>
<td>TBPR Export</td>
<td><b>45</b></td></tr>

<tr><td>2006</td><td><a class="info" href="//blog.searchenginewatch.com/blog/060406-090216">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Mar 28/2006 TB Program Update:</b> Google launched a new toolbar update
(v 2.0f) for Fire Fox.<br />
//blog.searchenginewatch.com/blog/060406-090216</span></a> Apr 07</td>
<td>TB Program Update FF v2.0f</td>
<td></td></tr>

<tr><td>2006</td><td><a class="info" href="//forums.digitalpoint.com/showthread.php?t=59164">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Feb 18 TBPR &amp; BL Export:</b> Toolbar Pagerank &amp; BackLink Export.<br />
<b>Forum coverage:</b><br />
//forums.digitalpoint.com/showthread.php?t=59164</span></a> Feb &nbsp;18</td>
<td>TBPR &amp; BL Export</td>
<td><b>122</b>/60</td></tr>

<tr><td>2006</td><td><a class="info" href="//blog.searchenginewatch.com/blog/060406-090216">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Mar 30/2006 TB Program Update:</b> Google launched a new toolbar update
(v 4.0.513.2948 Beta) for IE.<br />
//blog.searchenginewatch.com/blog/060406-090216</span></a> Jan 30</td>
<td>TB Program Update IE v4.0.513.2984 Beta</td>
<td></td></tr>

<tr id="bigdaddy"><td>2006</td><td><a class="info" href="//www.mattcutts.com/blog/bigdaddy-progress-update/">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Jan 4 to Mar 27 Infra Update:</b> Infrastructure update.<br />
<b>Matt coverage:</b><br />
//www.mattcutts.com/blog/indexing-timeline/
//www.mattcutts.com/blog/q-a-thread-march-27-2006/
//www.mattcutts.com/blog/bigdaddy-status-update-almost-there/<br />
//www.mattcutts.com/blog/bigdaddy-progress-update/<br />
//www.mattcutts.com/blog/bigdaddy-on-the-move/<br />
//www.mattcutts.com/blog/bigdaddy/<br />
//www.mattcutts.com/blog/seo-advice-discussing-302-redirects/<br />
</span></a> Jan 4</td>
<td>Infra Update - <b>BigDaddy</b></td>
<td></td></tr>

<tr><td>2005</td><td><a class="info" href="//www.seo-guy.com/forum/thread10675.html">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Dec 19 GDPR &amp; BL Export:</b> Google Directory &amp; BackLink Export.<br />
<b>Forum coverage:</b><br />
//www.seo-guy.com/forum/thread10675.html</span></a> Dec 19</td>
<td>GDPR &amp; BL Export</td>
<td>106</td></tr>

<tr><td>2005</td><td><a class="info" href="//www.mattcutts.com/blog/jagger-winding-down/">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Nov 04 to Nov 18 Algo Update:</b> Algorithm Update - Jagger 3.<br />
<b>Forum coverage:</b><br />
//www.mattcutts.com/blog/jagger-winding-down/<br />
//www.mattcutts.com/blog/the-little-301-that-could/</span></a> Nov 04</td>
<td>Algo Update - <b>Jagger 3</b></td>
<td></td></tr>

<tr><td>2005</td><td><a class="info" href="//www.mattcutts.com/blog/jagger-2-update-info/">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Oct 27 to Nov 06 Algo Update:</b> Algorithm Update - Jagger 2.<br />
<b>Forum coverage:</b><br />
//www.mattcutts.com/blog/jagger-2-update-info/</span></a> Oct 27</td>
<td>Algo Update - <b>Jagger 2</b></td>
<td></td></tr>

<tr><td>2005</td><td><a class="info" href="//www.mattcutts.com/blog/page/6/">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Oct 19 TBPR &amp; BL Export:</b> Google Toolbar Pagerank &amp; BackLink Export.<br />
<b>Forum coverage:</b><br />
//www.mattcutts.com/blog/page/6/</span></a> Oct 19</td>
<td>TBPR &amp; BL Export</td>
<td><b>97</b>/45</td></tr>

<tr><td>2005</td><td><a class="info" href="//www.mattcutts.com/blog/more-info-on-updates/">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Oct 16 to Nov 07 Algo Update:</b> Algorithm Update - Jagger 1.<br />
<b>Forum coverage:</b><br />
//www.mattcutts.com/blog/more-info-on-updates/</span></a> Oct 16</td>
<td>Algo Update - <b>Jagger 1</b></td>
<td></td></tr>

<tr><td>2005</td><td><a class="info" href="//forums.digitalpoint.com/showthread.php?t=27100">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Sep 4 GDPR &amp; BL Export:</b> Google Directory Pagerank &amp; BackLink export.<br />
<b>Forum coverage:</b><br />
//forums.digitalpoint.com/showthread.php?t=27100</span></a> Sep 04</td>
<td>GDPR &amp; BL Export</td>
<td>85</td></tr>

<tr><td>2005</td><td><a class="info" href="//forums.digitalpoint.com/showthread.php?t=21294">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Jul 14 PR Update:</b>Toolbar Pagerank &amp; BackLink update.<br />
<b>Forum coverage:</b><br />
//forums.digitalpoint.com/showthread.php?t=21294</span></a> Jul 14</td>
<td>TBPR &amp; BL Update</td>
<td><b>83</b>/33</td></tr>

<tr><td>2005</td><td><a class="info" href="//www.webmasterworld.com/forum80/934.htm">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Jun 11 GDPR Update:</b> Goggle Directory Pagerank update.<br />
<b>Forum coverage:</b><br />
//forums.digitalpoint.com/showthread.php?t=18363</span></a> Jun 11</td>
<td>GDPR Update</td>
<td>18</td></tr>

<tr><td>2005</td><td><a class="info" href="//www.webmasterworld.com/forum80/934.htm">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>May 27 BL Update:</b> Backlink update.<br />
<b>Forum coverage:</b><br />
//forums.searchenginewatch.com/showthread.php?t=6162</span></a> Jun 08</td>
<td>BL Update</td>
<td></td></tr>


<tr><td>2005</td><td><a class="info" href="//www.webmasterworld.com/forum80/934.htm">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>May 27 TBPR Goes Blank:</b> Toolbar PageRank Goes Grey Everywhere For 3 Days. Most claim it is dead.<br />
<b>Forum coverage:</b><br />
//www.webmasterworld.com/forum80/934.htm</span></a> May 27</td>
<td>TBPR Goes Grey For 3 Days</td>
<td></td></tr>

<tr><td>2005</td><td><a class="info" href="//forums.searchenginewatch.com/showthread.php?t=5852">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>May 24 GDPR &amp; BL Update:</b> Google PageRank &amp; Backlink Update.<br />
<b>Forum coverage:</b><br />
//forums.searchenginewatch.com/showthread.php?t=5852</span></a> May 24</td>
<td>GDPR &amp; BL Update</td>
<td>32</td></tr>

<tr><td>2005</td><td><a class="info" href="//forums.digitalpoint.com/showthread.php?t=12268">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Apr 22 TBPR, GDPR &amp; BL Update:</b>Toolbar PageRank, Google Directory &amp; Backlink update.<br />
<b>Forum coverage:</b><br />
//forums.searchenginewatch.com/showthread.php?t=5356</span></a> Apr 22</td>
<td>TBPR, GDPR &amp; BL Update</td>
<td><b>111</b>/50</td></tr>

<tr><td>2005</td><td><a class="info" href="#">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Mar 04/2005 BL Update:</b>Backlink Update.<br />
<b>Forum coverage:</b><br />
//forums.searchenginewatch.com/showthread.php?t=4505</span></a> Mar 04</td>
<td>BL Update</td>
<td></td></tr>

<tr><td>2005</td><td><a class="info" href="//forums.digitalpoint.com/showthread.php?t=10635">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Mar 3/2005 GDPR Update:</b>Google Directory PR Update.<br />
<b>Forum coverage:</b><br />
//forums.digitalpoint.com/showthread.php?t=10635</span></a> Mar 03</td>
<td>GDPR Update</td>
<td>28</td></tr>

<tr><td>2005</td><td><a class="info" href="#">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Feb 23/2005 TB Program Update:</b> Google launched a new toolbar update
(v 3.0.119.6) with a change algorithm for computing the checksum.</span></a> Feb 23</td>
<td>TB Program Update IE 3.0.119.6</td>
<td></td>
</tr>

<tr>
<td>2005</td>
<td><a class="info" href="//forums.digitalpoint.com/showthread.php?t=9219" &nbsp;
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Feb 04 GDPR Update:</b>Google Directory PR Update.<br />
<b>Forum coverage:</b><br />
//forums.digitalpoint.com/showthread.php?t=9219</span></a> Feb 04</td>
<td>GDPR Update</td>
<td>24</td>
</tr>

<tr>
<td>2005</td>
<td><a class="info" href="//forums.digitalpoint.com/showthread.php?t=9022" &nbsp;
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Feb 03 BL &amp; Algo Update:</b>Google Backlink &amp; Algorithm update.<br />
Lots of SEO sites seemed to just drop out of the SERP.<br />
//www.webmasterworld.com/forum30/27801.htm
<b>Forum coverage:</b><br />
//forums.digitalpoint.com/showthread.php?t=9022</span></a> Feb 03</td>
<td>BL &amp; Algo Update</td>
<td></td>
</tr>

<tr>
<td>2005</td>
<td><a class="info" href="//forums.seochat.com/t21038/s.html" &nbsp;
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Jan 10 GDPR Update:</b>Google Directory PageRank Update.<br />
<b>Forum coverage:</b><br />
//forums.seochat.com/t21038/s.html</span></a> Jan 10</td>
<td>GDPR Update</td>
<td>88</td>
</tr>

<tr>
<td>2005</td>
<td><a class="info" href="//www.v7n.com/forums/showthread.php?t=16258" &nbsp;
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Jan 1 TBPR &amp; BL Update:</b>Toolbar PageRank &amp; Backlink Update.<br />
<b>Forum coverage:</b><br />
//www.v7n.com/forums/showthread.php?t=16258</span></a> Jan 1</td>
<td>TBPR &amp; BL Update</td>
<td><b>87</b>/16</td>
</tr>


<tr>
<td>2004</td>
<td><a class="info" href="//www.v7n.com/forums/showthread.php?t=16258" &nbsp;
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Dec 16 BL Update:</b>Google Backlink update.<br />
<b>Forum coverage:</b><br />
//www.v7n.com/forums/showthread.php?t=16258</span></a> Dec 16</td>
<td>BL Update</td>
<td></td>
</tr>

<tr>
<td>2004</td>
<td><a class="info" href="//www.seo-guy.com/forum/thread4727.html" &nbsp;
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Nov 25 BL Update:</b>Google Backlink update.<br />
<b>Forum coverage:</b><br />
//www.seo-guy.com/forum/thread4727.html</span></a> Nov 25</td>
<td>BL Update</td>
<td></td>
</tr>

<tr>
<td>2004</td>
<td><a class="info" href="//forums.seochat.com/t17631/s.html" &nbsp;
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Oct 28 GDPR Update:</b>Google Directory PR Update?<br />
<b>Forum coverage:</b><br />
//forums.seochat.com/t17631/s.html</span></a> Oct 28</td>
<td>GDPR Update?</td>
<td>??</td>
</tr>


<tr>
<td>2004</td>
<td><a class="info" href="//forums.searchenginewatch.com/showthread.php?p=20199" &nbsp;
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Oct 28 BL Update:</b>Google Backlink update.<br />
<b>Forum coverage:</b><br />
//forums.searchenginewatch.com/showthread.php?p=20199</span></a> Oct 28</td>
<td>BL Update</td>
<td></td>
</tr>

<tr>
<td>2004</td>
<td><a class="info" href="//forums.digitalpoint.com/showthread.php?t=4141&amp;page=5&amp;pp=10"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Oct 18 BL Update Roll Back:</b>Oct 16th Backlink Update Was Rolled Back.<br />
<b>Forum coverage:</b><br />
//forums.digitalpoint.com/showthread.php?t=4141&amp;page=5&amp;pp=10</span></a> Oct 18</td>
<td>BL Update Rolled Back</td>
<td></td>
</tr>

<tr>
<td>2004</td>
<td><a class="info" href="//forums.seochat.com/t17053/s.html" &nbsp;
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Oct 17 GDPR Update:</b>Google Directory update.<br />
<b>Forum coverage:</b><br />
//forums.seochat.com/t17053/s.html</span></a> Oct 17</td>
<td>GDPR Update</td>
<td>67</td>
</tr>

<tr>
<td>2004</td>
<td><a class="info" href="//forums.seochat.com/t17003/s.html"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Oct 16 BL Update:</b>Backlink update - Was rolled back Oct 18.<br />
<b>Forum coverage:</b><br />
//forums.seochat.com/t17003/s.html</span></a> Oct 16</td>
<td>BL Update</td>
<td></td>
</tr>

<tr>
<td>2004</td>
<td><a class="info" href="//forums.digitalpoint.com/showthread.php?t=3833"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Oct 6/2004 Toolbar Update:</b> Longest wait for a toolbar update. 106
days.<br />
<b>Forum coverage:</b><br />
//forums.digitalpoint.com/showthread.php?t=3833</span></a> Oct 6</td>
<td>TBPR Update; No BL Update</td>
<td><b>106</b></td>
</tr>


<tr><td>2004</td><td><a class="info" href="//www.webmasterworld.com/forum3/25686.htm"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Sept 10/2004 Backlinks (BL) Update:</b> Fourth BL update since the last June 23
PR toolbar update.<br />
<b>Forum coverage:</b><br />
//www.webmasterworld.com/forum3/25686.htm</span></a> Sept 10</td>
<td>BL Update</td>
<td></td></tr>

<tr><td>2004</td><td><a class="info" href="#">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Sept 8/2004 Toolbar Update:</b> Google launched a new toolbar update
(v 2.0.114).</span></a> Sept 8</td>
<td>TB Program Update</td>
<td></td></tr>

<tr><td>2004</td><td><a class="info" href="//forums.seochat.com/t14908/s.html"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Aug 30/2004 Backlinks (BL) Update:</b> Third BL update since the last June 23
PR toolbar update.<br />
<b>Forum coverage:</b><br />
//forums.seochat.com/t14908/s.html<br />
//searchguild.com/tpage14349-0.html</span></a> Aug 30</td>
<td>BL Update</td>
<td></td></tr>

<tr><td>2004</td><td><a class="info" href="//www.seroundtable.com/archives/000747.html"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Aug 10/2004 Google Directory Update:</b> First Google PR update since the
last June 23 PR toolbar update.<br />
<b>Forum coverage:</b><br />
//www.seroundtable.com/archives/000747.html</span></a> Aug 10 </td>
<td>GDPR Update</td>
<td>158?</td></tr>



<tr><td>2004</td><td><a class="info" href="//www.ozzu.com/ftopic29477.html"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
<b>Aug 9/2004 Backlinks (BL) Update:</b> Second BL update since the last June 23
PR toolbar update.<br />
<b>Forum coverage:</b><br />
//www.ozzu.com/ftopic29477.html</span></a> Aug 9 </td>
<td>BL Update</td>
<td></td></tr>


<tr><td>2004</td><td><a class="info" href="//forums.seochat.com/showthread.php?t=13196"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" />
<span><b>July 16/2004 Backlink (BL) Update:</b> First BL updated since the June 23 PR
update; No PR update; discussion on the forums of Google going to quarterly
toolbar PR update.<br />
<b>Forum coverage:</b><br />
//forums.seochat.com/showthread.php?t=13196
</span></a>Jul 16 </td>
<td>BL Update</td>
<td></td></tr>

<tr><td>2004</td><td><a class="info" href="//forums.digitalpoint.com/showthread.php?t=1329"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /> <span>
From this date to May 6th 2003 Web Rank Info's list from
//www.webrankinfo.com/google/google-dance/historique-google-dance.php is
the source for the dates used. &nbsp;Web Rank Info's dates are a bit different than
I found from other sources, (they are based on EU time and use a Monday date if
the update happened over the weekend), but they are more complete.<br />
I changed the EU Jun 23 date to Jun 22.<br />
<b>Forum coverage:</b><br />
//forums.digitalpoint.com/showthread.php?t=1329<br />
<b>Forum dates for updates:</b><br />
//forums.seochat.com/t11000/s.html #8 McDar Nov 20 through Apr 23 dates.
</span></a>Jun 22 </td>
<td>TBPR &amp; BL Update</td>
<td>22</td>
</tr>

<tr><td>2004</td>
<td><a class="info" href="//forums.digitalpoint.com/showthread.php?t=860"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" />
<span><b>May 31/2004 Toolbar PR &amp; BL Update:</b><br />
Backlink and toolbar PR update.<br />
<b>Forum coverage:</b><br />
//forums.digitalpoint.com/showthread.php?t=860
</span></a>May 31 </td>
<td>TBPR &amp; BL Update</td>
<td>38</td></tr>

<tr><td>2004</td>
<td><a class="info" href="//forums.digitalpoint.com/showthread.php?t=411"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" />
<span><b>Apr 7/2004 Toolbar PR &amp; BL Update:</b><br />
Backlink and toolbar PR update.<br />
<b>Forum coverage:</b><br />
//forums.digitalpoint.com/showthread.php?t=411
</span></a>Apr 23</td>
<td>TBPR &amp; BL Update</td>
<td>16</td></tr>

<tr><td>2004</td>
<td><a class="info" href="//forums.digitalpoint.com/showthread.php?t=284"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" />
<span><b>Apr 7/2004 Toolbar PR &amp; BL Update:</b><br />
Backlink and toolbar PR update.<br />
<b>Forum coverage:</b><br />
//forums.digitalpoint.com/showthread.php?t=284
</span></a>Apr 7</td>
<td>TBPR &amp; BL Update</td>
<td>22</td></tr>

<tr><td>2004</td>
<td><a class="info" href="//forums.digitalpoint.com/showthread.php?t=110"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" />
<span><b>Mar 16/2004 Toolbar PR &amp; BL Update:</b><br />
Backlink and toolbar PR update. &nbsp;Google Directory
PR update also //www.webmasterworld.com/forum3/10706.htm .<br />
<b>Forum coverage:</b><br />
//forums.digitalpoint.com/showthread.php?t=110
</span></a>Mar 16</td>
<td>TBPR, GDPR &amp; BL Update</td>
<td><b>50</b></td></tr>

<tr><td>2004</td>
<td><a class="info" href="//www.webproworld.com/viewtopic.php?t=13845"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" />
<span><b>Feb 11/2004 Algorithm Update:</b><br />
Algorithm Update, perhaps BL Update. &nbsp;No TBPR change.<br />
<b>Forum coverage:</b><br />
//www.webproworld.com/viewtopic.php?t=13845
</span></a>Feb 11</td>
<td>Brandy: Algo Update</td>
<td></td></tr>

<tr><td>2004</td><td><a class="info" href="//www.seroundtable.com/archives/000092.html"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" />
<span><b>Jan 26/2004 BL TBPR Update:</b><br />
TBPR &amp; BL Update.<br />
<b>Forum coverage:</b><br />
//www.seroundtable.com/archives/000092.html
</span></a>Jan 26</td>
<td>TBPR &amp; BL Update</td>
<td>15</td></tr>

<tr><td>2004</td>
<td><a class="info" href="//www.webproworld.com/viewtopic.php?t=11631"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" />
<span><b>Jan 11/2004 Toolbar PR &amp; BL Update:</b><br />
TBPR &amp; BL update.<br />
<b>Forum coverage:</b><br />
//www.webproworld.com/viewtopic.php?t=11631
</span></a>Jan 11</td>
<td>Austin: TBPR &amp; BL Update</td>
<td>19</td></tr>

<tr><td>2003</td><td><a class="info" href="//www.webproworld.com/viewtopic.php?t=10618"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" />
<span><b>Jan 23/2004 Toolbar PR Update:</b><br />
Toolbar PR update.<br />
<b>Forum coverage:</b><br />
//www.webproworld.com/viewtopic.php?t=10618
</span></a>Dec 23</td>
<td>TBPR &amp; BL Update</td>
<td>17</td></tr>


<tr><td>2003</td>
<td><a class="info" href="//www.jimworld.com/apps/webmaster.forums/action::thread/forum::google/thread::1070753785"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" />
<span><b>Dec 6/2003 Toolbar PR Update:</b><br />
Toolbar PR update.<br />
<b>Forum coverage:</b><br />
//www.jimworld.com/apps/webmaster.forums/action::thread/forum::google/thread::1070753785
</span></a>Dec 6</td>
<td>TBPR Update</td>
<td>20</td></tr>

<tr><td>2003</td>
<td><a class="info" href="//www.webproworld.com/viewtopic.php?t=9034"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" />
<span><b>Nov 16-24/2003 TBPR, BL &amp; Algo Update:</b><br />
Toolbar PR, Backlinks and Algorithm Update.<br />
<b>Forum coverage:</b><br />
//www.webproworld.com/viewtopic.php?t=9034
</span></a>Nov 16</td>
<td>Florida: TBPR, BL &amp; Algo Update</td>
<td>21</td></tr>

<tr><td>2003</td><td>Oct 26</td><td></td><td>35</td></tr>

<tr><td>2003</td>
<td><a class="info" href="//www.webproworld.com/viewtopic.php?t=7829"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" />
<span><b>Oct 2/2003 GDPR Update</b><br />
Google Directory Update. Last GDPR Update was 7 months ago.<br />
<b>Forum coverage:</b><br />
//www.webproworld.com/viewtopic.php?t=7829
</span></a>Oct 2</td>
<td>GDPR Update</td>
<td></td></tr>

<tr><td>2003</td><td>Sept 21</td><td></td><td>23</td></tr>
<tr><td>2003</td><td>Aug 29</td><td></td><td>21</td></tr>
<tr><td>2003</td><td>Aug 8</td><td></td><td><b>54</b></td></tr>
<tr><td>2003</td><td>Jun 15</td><td></td><td>40</td></tr>
<tr><td>2003</td><td>May 6</td><td></td><td>25</td></tr>

<tr>
<td>2003</td>
<td><a class="info" href="#">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" /><span>
All the below dates are from eSavvyMarketing
www.esavvymarketing.com/index.php?nic=google-dance-history and double checked
against the WebmasterWorld list found at
www.webmasterworld.com/forum3/2657.htm</span></a> Apr 11</td>
<td></td>
<td>36</td>
</tr>

<tr><td>2003</td><td>Mar 6</td><td></td><td><b>41</b></td></tr>
<tr><td>2003</td><td>Jan 25</td><td></td><td>24</td></tr>
<tr><td>2003</td><td>Jan 1</td><td></td><td>35</td></tr>
<tr><td>2002</td><td>Nov 27</td><td></td><td>27</td></tr>


<tr>
<td>2002</td>
<td><a class="info" href="//www.webmasterworld.com/forum3/6459.htm"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" />
<span><b>Oct 31/2002 Toolbar PR &amp; BL Update:</b><br />
Toolbar PR &amp; BL Update.<br />
<b>Forum coverage:</b><br />
//www.webmasterworld.com/forum3/6459.htm
</span></a>Oct 31</td>
<td>TBPR &amp; BL Update</td>
<td>35</td></tr>

<tr>
<td>2002</td>
<td><a class="info" href="//www.webmasterworld.com/forum3/5628.htm"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" />
<span><b>Sept 26/2002 TBPR, GDPR &amp; BL Update:</b><br />
Toolbar PR, Google Directory PR &amp; Backlink Update.<br />
<b>Forum coverage:</b><br />
//www.webmasterworld.com/forum3/5628.htm
</span></a>Sept 26</td>
<td>TBPR GDPR &amp; BL Update</td>
<td>36</td></tr>

<tr>
<td>2002</td>
<td><a class="info" href="//www.webmasterworld.com/forum3/4925.htm"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" />
<span><b>Aug 21/2002 TBPR, GDPR &amp; BL Update:</b><br />
Toolbar PR, Google Directory PR &amp; Backlink Update.<br />
<b>Forum coverage:</b><br />
//www.webmasterworld.com/forum3/4925.htm
</span></a>Aug 21</td>
<td>TBPR GDPR &amp; BL Update</td>
<td>27</td></tr>

<tr>
<td>2002</td>
<td><a class="info" href="//www.webmasterworld.com/forum3/4367.htm"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" />
<span><b>July 25/2002 Toolbar PR &amp; BL Update:</b><br />
Toolbar PR &amp; BL Update.<br />
<b>Forum coverage:</b><br />
//www.webmasterworld.com/forum3/4367.htm
</span></a>Jul 25</td>
<td>TBPR &amp; BL Update</td>
<td>32</td></tr>

<tr>
<td>2002</td>
<td><a class="info" href="//www.webmasterworld.com/forum3/3778.htm"
onclick="this.target = '_blank'; return true;">
<img src="//www.2w0f.cn/attachment/icon-book.gif" alt="" />
<span><b>Jun 23/2002 Toolbar PR &amp; BL Update:</b><br />
Toolbar PR &amp; BL Update.<br />
<b>Forum coverage:</b><br />
//www.webmasterworld.com/forum3/3778.htm
</span></a>Jun 23</td>
<td>TBPR &amp; BL Update</td>
<td>30</td></tr>

<tr><td>2002</td><td>May 24</td><td></td><td>29</td></tr>
<tr><td>2002</td><td>Apr 25</td><td></td><td>19</td></tr>
<tr><td>2002</td><td>Apr 6</td><td></td><td><b>45</b></td></tr>
<tr><td>2002</td><td>Feb 20</td><td></td><td>26</td></tr>
<tr><td>2002</td><td>Jan 25</td><td></td><td>29</td></tr>
<tr><td>2001</td><td>Dec 27</td><td></td><td>32</td></tr>
<tr><td>2001</td><td>Nov 25</td><td></td><td>28</td></tr>
<tr><td>2001</td><td>Oct 28</td><td></td><td><b>42</b></td></tr>
<tr><td>2001</td><td>Sept 16</td><td></td><td>28</td></tr>
<tr><td>2001</td><td>Aug 19</td><td></td><td>31</td></tr>
<tr><td>2001</td><td>Jul 19</td><td></td><td>30</td></tr>
<tr><td>2001</td><td>Jun 22</td><td></td><td>32</td></tr>
<tr><td>2001</td><td>May 21</td><td></td><td>28</td></tr>
<tr><td>2001</td><td>Apr 23</td><td></td><td>28</td></tr>
<tr><td>2001</td><td>Mar 26</td><td></td><td>35</td></tr>
<tr><td>2001</td><td>Feb 19</td><td></td><td>29</td></tr>
<tr><td>2001</td><td>Jan 21</td><td></td><td>33</td></tr>
<tr><td>2000</td><td>Dec 19</td><td></td><td>31</td></tr>
<tr><td>2000</td><td>Nov 18</td><td></td><td>27</td></tr>
<tr><td>2000</td><td>Oct 22</td><td></td><td><b>54</b></td></tr>
<tr><td>2000</td><td>Aug 29</td><td></td><td>34</td></tr>
<tr><td>2000</td><td>Jul 26</td><td></td><td>Unknown</td></tr>
</table>


Tags - , , ]]> //www.2w0f.cn/post/232/ <![CDATA[Google Adsense建议与技巧]]> - JƱƽ̨J©JԨJ׬淨J̳J 郝聪 <bloghuman@gmail.com> Tue, 21 Nov 2006 01:25:37 +0000 //www.2w0f.cn/post/232/
2.广告展示次数基于你的网站流量,该项代表Adsense广告展示次数。(译注:废话-。-!)

3.点击率为广告被点击次数÷广告展示次数,基本范围?.1%-30%,大多数?%-10%(译注:中文广告偏低,大陆地区平均点击率?.2%)?br/>
4.点击单击为每次点击的收入,一般根据广告商付出的点击单价决定?br/>
5.智能定价机制为Google衡量你的网站刊登广告价值的系统,如果你的网站上用户点击广告后转化为购买用户的比例较低,您只能获得较低的收入?br/>
6.通过 blogger.com 申请Adsense项目,帐号批准速度更快?

7.不要点击自己网站上的广告,也不要让朋友去点击,包括使用代理服务器的情况下。(译注:Google会实时反查服务器代理服务并拥有大量代理服务器地址?br/>
8.不要使用自动点击程序?br/>
9.不要要求访客点击广告,Adsense广告周围仅允许放置“赞助商链接”或“广告”字样。(译注:推介广告可放置正面宣传文字。)

10.不要在放置Adsense的网页放置网页内容匹配广告,例如Yahoo Publisher Network,百度主题推广。可以放置与页面不自动相关的广告?br/>
11.不要将广告放置在成人站点,违反法律的站点或有版权问题(如MP3下载)的站点等?br/>
12.访问你自己的网站不会使帐号被封停,但不要点击任何广告?br/>
13.不断的刷新自己的网页可能使你的帐号被封停。(译注:这将影响展示次数和点击率)

14.不要欺骗Google Adsense,Google的经验永远比你多?br/>
15.对条款有疑问时主动联系Google,他们会很快答复你?br/>
16.同一页面不要放置过多广告?br/>
17.可以通过 cwire.org 寻找高价关键字,但请注意,竞争者会很多?br/>
18.通过 Overture 的关键字分析工具寻找合适的关键字(译注:Google Adwords和Google Trends也有类似功能。)

19.考虑加入Google AdWords并小额投放广告,这将有助于你理解Adsense的运作机制?br/>
20.将你的目标关键字放置在网页标题中。(译注:在网页文件名和目录上体现更佳)

21.在正文中重复你的关键字。(译注:不要超?%,最好为3%?br/>
22.学习HTML?br/>
23.在关键字上使用粗体标签如、等?br/>
24.域名中尽量包含目标关键字?br/>25.将你的站点提交到知名网页目录系统,如dmoz.org, Yahoo目录等?br/>
26.将你的站点提交到各个搜索引擎?br/>
27.使用Google Sitemap?br/>
28.不要仅面向Google优化网页,还有很多搜索引擎?br/>
29.软广告(枪稿)是最好的SEO方法,在文章作者信息中包含你的网页链接,然后投稿到知名网站?br/>
30.不要使用恶意手段留下用户,如间谍软件,浏览器劫持等方法,这将可以能使你的帐号被封停?br/>
31.新访客比经常浏览你网站的人更容易点击广告?br/>
32.经常浏览你网站的人将更容易向他人推荐你的网站?br/>
33.新访客大多数来自于搜索引擎,做好网页优化工作(SEO)?br/>
34.不要建立镜像站点,即URL不同而内容相同的网站?br/>
35.建立多个点击单价网站比几个高点击单价网站更容易?br/>
36.论坛通常是展示次数多而点击率低?br/>
37.点击率不是最重要的,如果转化率过低(点击用户转化为广告商客户),广告单价也不会高?br/>
38.遵循好的网页设计,避免常规错误?br/>
39.优化网站导航设计,这将有助于延长用户在网站的停留时间?br/>
40.使用Google Analytics统计访问信息,这有助于SEO?br/>
41.不同的论坛有不同的广告热区,通常是左侧控制面板,第一贴下边和页脚前边?br/>
42.论坛是互通交流,注意关注热点问题?br/>
43.尝试300×250, 336×280,160×600等高点击率广告格式?br/>
44.使用网页主色调编辑调色板,即将广告和内容混合在一起?br/>
45.让文章正文围绕广告单元?br/>
46.广告周围紧挨图片有助于提高点击率?br/>
47.使用广告渠道跟踪不同位置、不同颜色的广告单元?br/>
48.文字广告和图片广告都选择?br/>Adsense 包含CPM广告,Adsense将自动选择展示。(译注:通常需要广告商指定网站进行展示,CPM:每千次展示付费。)

49.图片广告和文字广告都可能有CPM广告?br/>
50.页面底部可放置广?链接单元?br/>
51.尝试在底部放?Adsense For Search 搜索框?br/>
52.在提高内容质量上多下功夫,Adsense不是一夕致富的项目?br/>
53.去掉低质量网站的链接?br/>
54.在Google中搜索“AdSense Tips”,有许多站长会与你分享经验?br/>
55.这里是在Blog投放Adsense的建议?br/>关注Inside AdSense(Google Adsense官方博客)。(译注:大陆用户可通过此Feed订阅://feeds.feedburner.com/blogspot/GjwI?br/>
56.你可以从AdSense Help Group获取更多经验和帮助?br/>
57.如果你希望以Adsense维生,购买AdSense Secrets。(译注:谨慎参考)

58.少放置广告单元,通过渠道寻找到页面上单价最高的广告单元,去掉其它广告单元?br/>
59.不停的试验,不断尝试新的广告格式?br/>
60.除非你的网站规模足够大,否则去掉“在本网站刊登广告”链接,这可以避免许多MFA网站(Made For Adsense,为Adsense制作的网?。你可以在账户设置中禁用它?br/>
61.广告展示基于访客地理位置,尝试Adsense 广告预览工具?br/>
62.使用“竞争性广告过滤器”去除劣质网站广告,包括盗窃他人网站内容,提供大量无用链接等?br/>
62.使用“竞争性广告过滤器”去除不相关广告?br/>
63.AdsBlackList.com包括一些可以过滤掉的广告URL?br/>
64.尝试不断的变化广告位置、颜色、样式,使访客对广告更不可预知?br/>
65.学习简单的CSS

66.如果放置多个广告单元,将单价高的广告单元放置在HTML中靠前的位置,可以使用CSS定位?br/>
67.对动态网页地址使用URL导向变为静态网页地址。(译注:即不包?及参数的网址?br/>
68.验证网页HTML和CSS?br/>
69.多大文章拆为多个小文章。(译注:按主题分拆,一个文章分为多页不利于广告匹配。)

70.每篇文章重点关注一个主题?br/>
71.关注统计系统,注意那些带来较多访客的文章?br/>
72.发布更吸引访客的主题的文章?br/>
73.熟悉电脑网络的人较少点击广告?br/>
74.有耐心,提高流量需要时间?br/>
75.做长期规划,分析你的访客需要什么,提高网站价值?br/>
76.关注每日的收入,感觉数据有异常时及时通知Google,你的竞争者可能恶意点击你的广告或者你的朋友会?7.点击你的广告,并认为他是在帮你?br/>
78.使用“区段定位”以提高广告匹配度?br/>
79.使用“替代广告链接”以防Google无法匹配你的网页?br/>
80.使用多个调色板,防止用户对广告形成盲区?br/>
81.尝试Yahoo Publisher Network,百度主题推广等项目。但不要在放置Adsense广告单元的网页?br/>
82.页面上可以放置Amazon广告联盟等销售联盟的广告,但应该是不会自动匹配网页内容的广告?br/>
83.不遵守条款和协议将使你的账户被封停并且该个人将永远不能再申请Adsense项目?br/>
84.如果你遵守条款和协议而帐号被封停,写信给Google,注意要客气,不要灰心,可以提供你的服务器访问日志,尽量证明你的清白?br/>
85.多链接你的网站,如电子邮件签名、论坛签名、Blog评论等?br/>
86.将你的文章提交到网摘网站,如digg、del.icio.us等?br/>
87.提供“将本文E-mail给朋友”链接?br/>
88.掌握你的Adsense报告,根据广告收入来源确定网站未来内容?br/>
89.提供网站更新通知。(译注:如邮件列表或RSS文?br/>
90.你可以在Adsense帮助中找到大部分你需要的信息?
Tags - , Ʊƽ̨ , ]]>
  • ղƷ嵥 ҵӭĸ 2018-12-13
  • ҵɫڸĸﴴͶɫ2500 2018-12-07
  • ԺίԼ̸ 2018-12-04
  • ҵݽʾҵͶʼֵ 30ֻɻ10Ԫʽ𲼾 2018-12-04
  • ȷϷּ ʵϷעʵ 2018-11-30
  • Ϊ̫ԭ˲ޣ 2018-11-23
  • Զܵһ֮ 2018-11-23
  • ӲӳӦȡλǷˣŶӵȴְͲӳ٣ijλ̷ˣӳ١䡰˰߸λ޵Դ 2018-11-15
  • ˫һУżתרҵ 2018-10-28
  • ൱90 Ҽ̬԰ 2018-10-24
  • 籭ҹ СϺϷ 2018-10-24
  • ϲӭʮŴýߣȫιΪйݻ 2018-10-22
  • Ů֮ȫ 2018-10-14
  • 壺CñϷ˹÷ 3 2018-10-10
  • йʮŴδ 2018-10-10