py3+urllib+re，爬虫下载捧腹网图片-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

py3+urllib+re，爬虫下载捧腹网图片

阅读量：4944 次

发布时间：2019-06-11

本文共 736 字，大约阅读时间需要 2 分钟。

实现原理及思路请参考我的另外几篇爬虫实践博客

py3+urllib+bs4+反爬，20+行代码教你爬取豆瓣妹子图：http://www.cnblogs.com/UncleYong/p/6892688.html

py3+requests+json+xlwt，爬取拉勾招聘信息：http://www.cnblogs.com/UncleYong/p/6960044.html

py3+urllib+re，轻轻松松爬取双色球最近100期中奖号码：http://www.cnblogs.com/UncleYong/p/6958242.html

实现代码如下：

import urllib.request, re# 获取网页源码def page(pg):	url = 'https://www.pengfu.com/index_%s.html'%pg	# 页面是utf8编码，所有解码成unicode	html = urllib.request.urlopen(url).read().decode('utf8') # 
     	# print(html)	return html# 获取标题def title(html):	reg = re.compile(r'(.*?)') # r表示防止转义	item = re.findall(reg, html)	# print(item)	return item# 获取图片urldef content(html):	# html = page(1)	reg = r'>>>>：' + m, n)		download(n, m)

转载于:https://www.cnblogs.com/uncleyong/p/6973887.html

你可能感兴趣的文章

mysql 时间函数总结

Java-Day05,基本语法

c#网络通信框架networkcomms内核解析之一消息传送

Asp.net会话详解2——sessoin存储和配置

C#中的类型相等与恒等(Equality & Identity)

第三次作业

nodejs中图文混搭

使用js控制文本超出部分显示省略号

HDU ACM 1180 诡异的楼梯 (优先队列 + 广搜)

深入理解css浮动

Android 开发者福利Google Developers中国网站发布

【模板】线段树 2

《零基础入门学习Python》学习过程笔记【017函数】

LintCode Coins in a Line III

Oracle定义varchar2()类型存储汉字的长度问题

python 2.7 pip install plt 报错,应该是 pip install matplotlib

Centos7安装教程

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-11-07 03:39:09 当前IP: 3.17.166.87 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我