我想用python写一个大爬虫。

爬虫是互联网上最常见的东西。

爬虫每天在网上抓取大量信息，各大搜索引擎厂商每天都有数百万爬虫活跃在网上。这些爬虫的作用是为搜索引擎收集互联网上的最新内容，收集到的内容经过分类处理后会进入搜索引擎的索引。这是爬行动物最常见的应用。

关于搜索引擎的理论很多，应该已经形成了系统的理论和方法。这里不追求搜索引擎的细节，只看爬虫如何抓取有效信息。

赞美诗这个博客已经很久没有更新了。现在时间越来越少，平时很少有时间更新博客。

最近有人发现，python其实是一种非常适合写爬虫的语言，而且python用的越多越容易。现在如果有人问我“c++和c#，你想学哪个？”这样的问题，我会说，学python吧，因为人生苦短，你应该学python。

所谓爬虫，就是下载一个网页的html，然后从中提取有用的信息，一般是文字、图片、链接等信息。

对于特定网站的爬虫来说更容易写。用正则表达式找到网页中的链接信息，然后找到需要的信息，保存到本地，然后进入下一个链接重复上一个过程。

以下脚本演示了如何从加菲猫官网下载1978到现在的所有漫画。