爬虫每天在网上抓取大量信息,各大搜索引擎厂商每天都有数百万爬虫活跃在网上。这些爬虫的作用是为搜索引擎收集互联网上的最新内容,收集到的内容经过分类处理后会进入搜索引擎的索引。这是爬行动物最常见的应用。
关于搜索引擎的理论很多,应该已经形成了系统的理论和方法。这里不追求搜索引擎的细节,只看爬虫如何抓取有效信息。
赞美诗这个博客已经很久没有更新了。现在时间越来越少,平时很少有时间更新博客。
最近有人发现,python其实是一种非常适合写爬虫的语言,而且python用的越多越容易。现在如果有人问我“c++和c#,你想学哪个?”这样的问题,我会说,学python吧,因为人生苦短,你应该学python。
所谓爬虫,就是下载一个网页的html,然后从中提取有用的信息,一般是文字、图片、链接等信息。
对于特定网站的爬虫来说更容易写。用正则表达式找到网页中的链接信息,然后找到需要的信息,保存到本地,然后进入下一个链接重复上一个过程。
以下脚本演示了如何从加菲猫官网下载1978到现在的所有漫画。