py3+urllib+re，爬虫下载捧腹网图片-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

py3+urllib+re，爬虫下载捧腹网图片

阅读量：4944 次

发布时间：2019-06-11

本文共 736 字，大约阅读时间需要 2 分钟。

实现原理及思路请参考我的另外几篇爬虫实践博客

py3+urllib+bs4+反爬，20+行代码教你爬取豆瓣妹子图：http://www.cnblogs.com/UncleYong/p/6892688.html

py3+requests+json+xlwt，爬取拉勾招聘信息：http://www.cnblogs.com/UncleYong/p/6960044.html

py3+urllib+re，轻轻松松爬取双色球最近100期中奖号码：http://www.cnblogs.com/UncleYong/p/6958242.html

实现代码如下：

import urllib.request, re# 获取网页源码def page(pg):	url = 'https://www.pengfu.com/index_%s.html'%pg	# 页面是utf8编码，所有解码成unicode	html = urllib.request.urlopen(url).read().decode('utf8') # 
     	# print(html)	return html# 获取标题def title(html):	reg = re.compile(r'(.*?)') # r表示防止转义	item = re.findall(reg, html)	# print(item)	return item# 获取图片urldef content(html):	# html = page(1)	reg = r'>>>>：' + m, n)		download(n, m)

转载于:https://www.cnblogs.com/uncleyong/p/6973887.html

你可能感兴趣的文章

Android开发13——内容提供者ContentProvider的基本使用

php 之根据mysql字段批量生成 array 数组

[BZOJ 1005] 明明的烦恼

Atitit.Atiposter 发帖机信息发布器 v7 q516

Atitit paip.对象方法的实现原理与本质.txt

Atitit 提升效率界面gui方面的前后端分离与cbb体系建设规范推荐标准

重定向带中文参数跳页面显示中文示例代码

iOS中UIKit——UIButton设置边框

CodeCommit on Amazon AWS

C++ 顺序容器基础知识总结

数据库查询优化，只需要优化其中的一两个查询就达到目的

mysql之数据库连接的方法封装及防sql注入

php使用curl模拟多线程发送请求

input type = file 在部分安卓手机上无法调起摄像头和相册

设计模式 ( 十八 )：State状态模式 -- 行为型

ThinkPHP学习笔记（一）----初识ThinkPHP

ptyhon 编程基础之函数篇（二）-----返回函数，自定义排序函数，闭包,匿名函数...

MyDESPlus 加密文件

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-11-07 01:38:07 当前IP: 3.12.34.148 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我