博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
py3+urllib+re,爬虫下载捧腹网图片
阅读量:4944 次
发布时间:2019-06-11

本文共 736 字,大约阅读时间需要 2 分钟。

实现原理及思路请参考我的另外几篇爬虫实践博客

py3+urllib+bs4+反爬,20+行代码教你爬取豆瓣妹子图:http://www.cnblogs.com/UncleYong/p/6892688.html

py3+requests+json+xlwt,爬取拉勾招聘信息:http://www.cnblogs.com/UncleYong/p/6960044.html
py3+urllib+re,轻轻松松爬取双色球最近100期中奖号码:http://www.cnblogs.com/UncleYong/p/6958242.html

实现代码如下:

import urllib.request, re# 获取网页源码def page(pg):	url = 'https://www.pengfu.com/index_%s.html'%pg	# 页面是utf8编码,所有解码成unicode	html = urllib.request.urlopen(url).read().decode('utf8') # 
# print(html) return html# 获取标题def title(html): reg = re.compile(r'

(.*?)') # r表示防止转义 item = re.findall(reg, html) # print(item) return item# 获取图片urldef content(html): # html = page(1) reg = r'>>>>:' + m, n) download(n, m)

 

 

转载于:https://www.cnblogs.com/uncleyong/p/6973887.html

你可能感兴趣的文章
Android开发13——内容提供者ContentProvider的基本使用
查看>>
php 之根据mysql字段 批量生成 array 数组
查看>>
[BZOJ 1005] 明明的烦恼
查看>>
Atitit.Atiposter 发帖机 信息发布器 v7 q516
查看>>
Atitit paip.对象方法的实现原理与本质.txt
查看>>
Atitit 提升效率 界面gui方面的前后端分离与cbb体系建设 规范推荐标准
查看>>
重定向带中文参数跳页面显示中文示例代码
查看>>
iOS中UIKit——UIButton设置边框
查看>>
CodeCommit on Amazon AWS
查看>>
C++ 顺序容器基础知识总结
查看>>
数据库查询优化,只需要优化其中的一两个查询就达到目的
查看>>
mysql之数据库连接的方法封装及防sql注入
查看>>
php使用curl模拟多线程发送请求
查看>>
input type = file 在部分安卓手机上无法调起摄像头和相册
查看>>
printf格式
查看>>
术语解释
查看>>
设计模式 ( 十八 ):State状态模式 -- 行为型
查看>>
ThinkPHP学习笔记(一)----初识ThinkPHP
查看>>
ptyhon 编程基础之函数篇(二)-----返回函数,自定义排序函数,闭包,匿名函数...
查看>>
MyDESPlus 加密文件
查看>>