使用C#制作网络蜘蛛爬虫，随时在检查站点可访问性

23

2012
07

　　前几天自己负责的网站出现了不能访问的问题，系统监控程序通过告警将这一信息告诉了管理员。管理员找到了我，告诉我站点不能正常访问。后来问题查明，是负载均衡器出了问题。自己在检查站点的时候，发现有些图片不能正确显示，原因是图片链接无效。

　　后来我就在总结这次故障，监控程序只能检测几个配置的链接，不可能对整个站点所有链接进行检测，不然配置文件要写一大堆。如果是配置外的链接不能访问，那不是就没有办法告知管理员了吗，况且现在的监控程序也不能检查页面图片能否正常显示。如果每次都要人工去检查，那是相当不现实的，那我能不能写个小程序去实现自动检查，并把检查结果已邮件的形式发送给相关人员呢？于是我想到了，可以使用网络爬虫干这件事情，当然这个爬虫是定制版的，只爬当前站点。

　　首先创建一个控制台程序（其他类型的工程也可以），命名为WebResourceInspector。

　　新建三个文件：Inspector.cs，EmailHelper.cs，config.xml。结果如下：

　　其中Inspector.cs是监控类，里面利用HttpWebRequest实现数据爬取，分析。EmailHelper.cs是邮件帮助类，发送邮件。config.xml是爬取网站的配置文件。还有很多配置信息是写在app.config里面的。

　　工程里面用到两个dll，一个是log4net，这个是记录日志的，不多说了，大家可以去网上找到很多相关文章。另一个是HtmlAgilityPack，他用来解析你爬取的html数据，相当的强大，你可以把整个html作为dom来操作，使用xpath获取link和img的信息。

　　程序实现原理:

　　通过HttpWebRequest，HttpWebResponse获取首页的html信息，通过HtmlAgilityPack结合xpath获取到所有的a标签和图片。把所有的链接和图片地址放到待检查队列unVisitedPageUrlList中。放入之前要检查当前链接是否已经检查过。只有已当前站点域名开头的链接才做页面html的进一步爬取，获取下面页面的链接信息并放入待检查队列。以此类推，直到站点内所有链接都检查完毕。非本站域名开头链接只做可访问性判断。程序里我使用了多线程，以提高运行效率。线程数在配置文件里配置。把所有的错误记录日志，最后发送邮件，通知管理员。　　

　　代码我贴出来了，有兴趣的人可以下载后查看源代码。下载地址：WebResourceInspector.zip

来源：http://www.cnblogs.com/softlover/archive/2012/07/20/2601494.html

Tags: C#