笑话大全网 - 经典笑话大全 - Python漫画爬虫两弹

Python漫画爬虫两弹

其实我接触python已经快半年了。看了很多视频,用别人的教程写了很多东西,还是觉得自己还没入门。其实我也明白为什么,就像小学生上课一样,上课认真听讲,认真做笔记,下课却从来不看笔记,从来不做作业。我一听课就明白,自己什么都写不出来。相信很多人都和我现在有同感,所以我现在想创作这个作业集,一是督促自己真的写点东西,二是希望广大读者和老师能指正我的作业,让大家互相学习,共同进步。

好了,现在言归正传。

但是我还有一个小问题。例如

最后一步,我们获取了所有漫画的URL,并保存在一个列表中。现在我们逐个请求comic_list中的URL。

通过观察网页,我们发现可以直接看到Comic One有多少页(page_num),也就是有多少张图片。

(点击上一章和下一章后,你会发现你已经跳转到另一个漫画了,所以我们不必在意,这里的一个漫画很短。)

规律性是用来提取数字的。

然后我们一页一页的点击,观察url的变化,会发现除了第一页的url是漫画的url之外,从第二页到最后一页的url是有规律的。

很容易找到规律,类似于之前漫画url的构建。我们构建除第一页之外的其他页面的URL。

保存漫画分两步,第一步是创建文件夹,第二步是保存。

打开风的动画,拉到底部。我们可以看到网站底部有一张网站地图。

获取漫画中每一句的标题和对应的url,保存在字典comic_chapter_url_dict中。

最难的部分来了。

首先通过F12我们可以看到图片的链接在一个id="mhpic "的img标签里。

最后,希望能帮到那些比我白的白人,也希望各位大神看完能给点建议。我非常感激。

两种爬行动物的GitHub地址