合肥网站建设、网站制作

  • 网络营销顾问(SEO顾问)|网站诊断和优化建议|SEO排名优化|搜索引擎优化知识

  • 首 页关于我们域名服务网站建设网站推广SEO服务典型客户行业资讯联系我们

  • 搜索引擎优化

  • ·谷歌“暧昧”退出 放大微软补空想象
  • ·Google称与ISP合作不会威胁网络中立性
  • ·如果通过搜索引擎话得到效益
  • ·搜索引擎优化应该重视什么?
  • ·网络炒作让任何企业和个人都有快速成名的优势
  • ·关于SEO最佳的实践方法
  • ·关注seo发展进程及其作弊行为
  • ·谷歌对PageRank数字的定义
  • ·搜索引擎优化(SEO)中的常问问题
  • ·搜索引擎优化的最高境界是忘记搜索引擎优化
  • ·研究表明搜索引擎营销对企业至关重要

  • 网络营销知识

  • ·进行网络营销的十大要点
  • ·如何利用网络打造“企业航空母舰系统”
  • ·病毒性营销不是破坏性营销
  • ·网络营销的十大要领
  • ·从无到有 中小企业应该怎样做好电子商务

首页 >>网络营销分析>>搜索引擎中网络爬虫的设计分析

搜索引擎中网络爬虫的设计分析

说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里?

  1)网络爬虫高度可配置性。

  2)网络爬虫可以解析抓到的网页里的链接

  3)网络爬虫有简单的存储配置

  4)网络爬虫拥有智能的根据网页更新分析功能

  5)网络爬虫的效率相当的高

  那么依据特征,其实也就是要求了,如何设计爬虫呢?要注意哪些步骤呢?

  1)url 的遍历和纪录

  这点 larbin 做得非常的好,其实对于url的遍历是很简单的,例如:

  cat [what you got]  tr \" \\n   gawk '{print $2}'   pcregrep ^http://

  就可以得到一个所由的 url 列表

  2)多进程 VS 多线程

  各有优点了,现在一台普通的PC 例如 booso.com 一天可以轻松爬下5个G的数据。大约20万网页。

  3)时间更新控制

  最傻的做法是没有时间更新权重,一通的爬,回头再一通的爬。

  通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍。

  如果一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。

  注意,效率是取胜的关键之一。

  4)爬的深度是多少呢?

  看情况了。如果你比较牛,有几万台服务器做网络爬虫,我劝您跳过这一点。

  如果你同我一样只有一台服务器做网络爬虫,那么这样一个统计您应该知道:

   网页深度:网页个数:网页重要程度

  0 : 1 : : 10

  1 :20 : :8

  2: :600: :5

  3: :2000: :2

  4 above: 6000: 一般无法计算

   好了,爬到三级就差不多了,再深入一是数据量扩大了3/4倍,二是重要度确下降了许多,这叫做“种下的是龙种,收获的是跳蚤。

  5)爬虫一般不之间爬对方的网页,一般是通过一个Proxy出去,这个proxy有缓解压力的功能,因为当对方的网页没有更新的时候,只要拿到 header 的 tag就可以了,没有必要全部传输一次了,可以大大节约网络带宽。

  apache webserver里面纪录的 304 一般就是被cache的了。

   6)请有空的时候照看一下robots.txt

   7)存储结构。

  这个人人见智,Google 用 gfs 系统,如果你有7/8台服务器,我劝你用NFS系统,要是你有70/80个服务器的话我建议你用afs 系统,要是你只有一台服务器,那么随便。

   给一个代码片断,是我写的新闻搜索引擎是如何进行数据存储的:

   NAME=`echo $URL  perl -p -e 's/([^\w\-\.\@])/$1 eq "\n" ? "\n":sprintf("%%%2.2x",ord($1))/eg'`mkdir -p $AUTHOR

  newscrawl.pl$URL--user-agent="news.booso.com+(+http://booso.com)"-outfile=$AUTHOR/$NAME

特别是注意以下几句:

  1.通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍,如果一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。

   网页更新频度严重影响着搜索引擎蜘蛛程度对网站的爬行,爬取次数越多意味着网页收录几率会越大、收录数量越多,收录是SEO最基础的一个环节。

  2.好了,爬到三级就差不多了,再深入一是数据量扩大了3/4倍,二是重要度确下降了许多,这叫做“种下的是龙种,收获的是跳蚤。

  尽量将网站保持在三级目录内,深层次的网页会给搜索引擎带来很大的压力,当然,我想Google有足够的服务器来承担这些压力,但从侧面来说,3层目录下的网页被抓取及更新的频度要低很多。前面,我说过,要想办法使网站物理结构和逻辑结构吻合,这体现于URL的良好设计,现在你可以检查下前台生成的静态网页的实际目录有几层,考虑是否可以优化。

上一篇:[网络营销分析]
下一篇:读者和搜索优化博客的25个技巧

  • 首 页|常见问题|联系我们|政策法规合作伙伴|客户隐私|网站隐私|付款方式|网站地图
  • Copyright @ 2007-2008 合肥双赢网络科技有限公司 All Rights Reserved.皖ICP备08005398号
  • 浏览本网主页,建议将电脑显示屏的分辨率调为102