博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
py3+urllib+re,爬虫下载捧腹网图片
阅读量:4944 次
发布时间:2019-06-11

本文共 736 字,大约阅读时间需要 2 分钟。

实现原理及思路请参考我的另外几篇爬虫实践博客

py3+urllib+bs4+反爬,20+行代码教你爬取豆瓣妹子图:http://www.cnblogs.com/UncleYong/p/6892688.html

py3+requests+json+xlwt,爬取拉勾招聘信息:http://www.cnblogs.com/UncleYong/p/6960044.html
py3+urllib+re,轻轻松松爬取双色球最近100期中奖号码:http://www.cnblogs.com/UncleYong/p/6958242.html

实现代码如下:

import urllib.request, re# 获取网页源码def page(pg):	url = 'https://www.pengfu.com/index_%s.html'%pg	# 页面是utf8编码,所有解码成unicode	html = urllib.request.urlopen(url).read().decode('utf8') # 
# print(html) return html# 获取标题def title(html): reg = re.compile(r'

(.*?)') # r表示防止转义 item = re.findall(reg, html) # print(item) return item# 获取图片urldef content(html): # html = page(1) reg = r'>>>>:' + m, n) download(n, m)

 

 

转载于:https://www.cnblogs.com/uncleyong/p/6973887.html

你可能感兴趣的文章
mysql 时间函数总结
查看>>
Java-Day05,基本语法
查看>>
集成学习
查看>>
c#网络通信框架networkcomms内核解析之一 消息传送
查看>>
Asp.net会话详解2——sessoin存储和配置
查看>>
C#中的类型相等与恒等(Equality & Identity)
查看>>
第三次作业
查看>>
nodejs中 图文混搭
查看>>
使用js控制文本超出部分显示省略号
查看>>
HDU ACM 1180 诡异的楼梯 (优先队列 + 广搜)
查看>>
深入理解css浮动
查看>>
Android 开发者福利Google Developers中国网站发布
查看>>
【模板】线段树 2
查看>>
《零基础入门学习Python》学习过程笔记【017函数】
查看>>
Block Demo
查看>>
LintCode Coins in a Line III
查看>>
Oracle定义varchar2()类型存储汉字的长度问题
查看>>
python 2.7 pip install plt 报错,应该是 pip install matplotlib
查看>>
C# 解压缩
查看>>
Centos7安装教程
查看>>