笑话大全网幽默笑话冷笑话大全笑话段子爆笑笑话经典笑话大全笑话小品笑话段子大全搞笑笑话笑话故事古代笑话

Python漫画爬虫两弹

其实我接触python已经快半年了。看了很多视频，用别人的教程写了很多东西，还是觉得自己还没入门。其实我也明白为什么，就像小学生上课一样，上课认真听讲，认真做笔记，下课却从来不看笔记，从来不做作业。我一听课就明白，自己什么都写不出来。相信很多人都和我现在有同感，所以我现在想创作这个作业集，一是督促自己真的写点东西，二是希望广大读者和老师能指正我的作业，让大家互相学习，共同进步。

好了，现在言归正传。

但是我还有一个小问题。例如

最后一步，我们获取了所有漫画的URL，并保存在一个列表中。现在我们逐个请求comic_list中的URL。

通过观察网页，我们发现可以直接看到Comic One有多少页(page_num)，也就是有多少张图片。

(点击上一章和下一章后，你会发现你已经跳转到另一个漫画了，所以我们不必在意，这里的一个漫画很短。)

规律性是用来提取数字的。

然后我们一页一页的点击，观察url的变化，会发现除了第一页的url是漫画的url之外，从第二页到最后一页的url是有规律的。

很容易找到规律，类似于之前漫画url的构建。我们构建除第一页之外的其他页面的URL。

保存漫画分两步，第一步是创建文件夹，第二步是保存。

打开风的动画，拉到底部。我们可以看到网站底部有一张网站地图。

获取漫画中每一句的标题和对应的url，保存在字典comic_chapter_url_dict中。

最难的部分来了。

首先通过F12我们可以看到图片的链接在一个id="mhpic "的img标签里。

最后，希望能帮到那些比我白的白人，也希望各位大神看完能给点建议。我非常感激。

两种爬行动物的GitHub地址