您当前的位置:首页 > 电脑百科 > 程序开发 > 编程百科

爬虫入门——原来爬虫这么简单

时间:2020-07-21 11:11:03  来源:  作者:
爬虫入门——原来爬虫这么简单

 

今天我们来介绍近年大火的爬虫工具,需要说明的是,我们今天将主要介绍基于Python的专业工具——requests第三方软件包的基本使用,并且有两个实战例子,其他如八爪鱼采集器、后裔采集器等爬虫软件的使用大家可通过网页教程自行探索!

一、什么是Requests软件包

Requests软件包是目前公认的爬取网页最好的第三方库,主要特点在于超简洁!甚至一行代码就能从网页上获得相关资源,轻轻松松便可掌握掌握定向网络数据爬取的方法。

二、Requests安装

安装方法:直接以管理者身份运行命令提示符,输入pip install requests即可,回车即可。如果你的电脑上没有pip,(啧啧),请上官网http://www.python-requests.org获得帮助。

(emm…开头表扬:我不得不说,这个库的官网实在是太可爱啦!)

爬虫入门——原来爬虫这么简单

 

三、基本方法介绍

首先介绍,Requests可以实现两个功能:

一是自动爬取html页面

二是自动网络请求提交

requests库主要有7个常用方法:

爬虫入门——原来爬虫这么简单

 

其中,requests.get() 是获取HTML网页的主要方法,也是我们最常用的方法。以下构造了一个向服务器请求资源的Request对象,其中url为拟获取页面的url链接。

  •  
r=requests.get(url)

四、实例演示——爬取百度主页信息

访问百度主页

  •  
  •  
import requestsr = requests.get(“ http://www.baidu.com”)

检查状态码,若状态码为200则访问成功,否则即为失败

  •  
r.status_code

解码,更改为“utf-8”编码(针对Unicode的一种可变长度字符编码)

  •  
r.encoding= 'utf-8'

输出网页内容

  •  
r.text

此时,便成功抓取了百度首页的内容!

爬虫入门——原来爬虫这么简单

 

五、实战1 :爬取京东商品信息

在这一例中,我们选择了华为Mate30这一产品,用try/except格式(主要是用于处理程序正常执行过程中出现的一些异常情况),来爬取商品信息。

爬虫入门——原来爬虫这么简单

 

import request
surl=" https://item.jd.com/100005185603.html"
try:
  r=requests.get(url)   
  r.raise_for_status()   
  r.encoding=r.Apparent_encoding  
  print(r.text[:1000])
except:   
	print ("爬取失败")

以下就是我们的结果啦~

运行结果:

爬虫入门——原来爬虫这么简单

 

六、实战2:网络图片的爬取和储存

在国家地理中文网中我们选择了如下图片(这张罕见的照片捕捉到了一只喜马拉雅旱獭被一只藏狐吓坏的一幕,照片的拍摄者中国摄影师鲍永清获得了年度野生生物摄影师大赛的最高荣誉。

摄影:鲍永清, WILDLIFE PHOTOGRAPHER OF THE YEAR)。

我们复制了其图片链接,接下来我们将用python将其爬取下来,并保存在C://pics//路径中。

import requestsimport os
url=" http://image.ngchina.com.cn/2019/1016/20191016034112233.jpg "
root="C://pics//"path=root+url.split('/')[-1]
try:    
	if not os.path.exists(root):        
  	os.mkdir(root)    
	if not os.path.exists(path): 
  	r=requests.get(url)with open(path,'wb') as f:   
			f.write(r.content)f.close()print("文件保存成功")
  else:    
  		print("文件已存在")
except:    
	print("爬取失败")


Tags:爬虫   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
利用Python实现中国地铁数据可视化。废话不多说。让我们愉快地开始吧~开发工具Python版本:3.6.4相关模块:requests模块;wordcloud模块;pandas模块;numpy模块;jieba模块;pyecharts模...【详细内容】
2021-12-08  Tags: 爬虫  点击:(34)  评论:(0)  加入收藏
这个开源项目程序可以持续爬取一个或多个新浪微博用户(如李文di、无疫烦)的数据,并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。...【详细内容】
2021-10-27  Tags: 爬虫  点击:(43)  评论:(0)  加入收藏
今天我们仍旧利用scrapy框架实现自动翻页爬取数据,爬取诗词胖排行榜( https://www.shicimingju.com/paiming)中的标题。1.新建文件夹scrapy starproject 文件名(wallpaper)2.新建...【详细内容】
2021-10-21  Tags: 爬虫  点击:(62)  评论:(0)  加入收藏
回顾python学习历程,感慨良多,这门语言实在是太强了,当然,分支也很多,有的在做安全,有的在做数据,有的在做爬虫,本文就笔者本身的爬虫入门的小经验分享给读者,期待各位在学习python的...【详细内容】
2021-08-11  Tags: 爬虫  点击:(81)  评论:(0)  加入收藏
来源:Python数据之道作者:Peter整理:阳哥大家好,我是阳哥。今天来跟大家分享用 BeautifulSoup 获取信息的一些知识点,文章内容由公众号读者 Peter 创作。欢迎各位童鞋向公众号投...【详细内容】
2021-06-23  Tags: 爬虫  点击:(134)  评论:(0)  加入收藏
上次写的如何给小孩约马术课过程,见这里 Python 约课[1], 本想一劳永逸,但是好景不长,预约系统升级了,而且还换了服务商,从之前的公众号 H5 应用,换成了小程序,之前编写的方式直接失...【详细内容】
2021-05-07  Tags: 爬虫  点击:(261)  评论:(0)  加入收藏
众所周知,代理IP可以助力爬虫工作更好的进行,很多人认为:如果没有代理IP,爬虫工作寸步难行。那么,如果爬虫不使用代理IP会出现什么情况呢? 一、小型爬虫:可有可无爬几百篇文章,几百...【详细内容】
2021-05-07  Tags: 爬虫  点击:(157)  评论:(0)  加入收藏
前言 将爬虫的爬取过程分为网络请求,文本获取和数据提取3个部分。 信息校验型反爬虫主要出现在网络请求阶段,这个阶段的反爬虫理念以预防为主要目的,尽可能拒绝反爬虫程序的请...【详细内容】
2021-04-20  Tags: 爬虫  点击:(451)  评论:(0)  加入收藏
导读:Scrapy由Python语言编写,是一个快速、高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取出结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试...【详细内容】
2021-04-13  Tags: 爬虫  点击:(333)  评论:(0)  加入收藏
在了解爬虫基础、请求库和正则匹配库以及一个具体豆瓣电影爬虫实例之后,可能大家还对超长的正则表达式记忆犹新,设想如果想要匹配的条目更加多那表达式长度将会更加恐怖,这显然...【详细内容】
2021-04-12  Tags: 爬虫  点击:(262)  评论:(0)  加入收藏
▌简易百科推荐
摘 要 (OF作品展示)OF之前介绍了用python实现数据可视化、数据分析及一些小项目,但基本都是后端的知识。想要做一个好看的可视化大屏,我们还要学一些前端的知识(vue),网上有很多比...【详细内容】
2021-12-27  项目与数据管理    Tags:Vue   点击:(1)  评论:(0)  加入收藏
程序是如何被执行的  程序是如何被执行的?许多开发者可能也没法回答这个问题,大多数人更注重的是如何编写程序,却不会太注意编写好的程序是如何被运行,这并不是一个好...【详细内容】
2021-12-23  IT学习日记    Tags:程序   点击:(9)  评论:(0)  加入收藏
阅读收获✔️1. 了解单点登录实现原理✔️2. 掌握快速使用xxl-sso接入单点登录功能一、早期的多系统登录解决方案 单系统登录解决方案的核心是cookie,cookie携带会话id在浏览器...【详细内容】
2021-12-23  程序yuan    Tags:单点登录(   点击:(8)  评论:(0)  加入收藏
下载Eclipse RCP IDE如果你电脑上还没有安装Eclipse,那么请到这里下载对应版本的软件进行安装。具体的安装步骤就不在这赘述了。创建第一个标准Eclipse RCP应用(总共分为六步)1...【详细内容】
2021-12-22  阿福ChrisYuan    Tags:RCP应用   点击:(7)  评论:(0)  加入收藏
今天想简单聊一聊 Token 的 Value Capture,就是币的价值问题。首先说明啊,这个话题包含的内容非常之光,Token 的经济学设计也可以包含诸多问题,所以几乎不可能把这个问题说的清...【详细内容】
2021-12-21  唐少华TSH    Tags:Token   点击:(9)  评论:(0)  加入收藏
实现效果:假如有10条数据,分组展示,默认在当前页面展示4个,点击换一批,从第5个开始继续展示,到最后一组,再重新返回到第一组 data() { return { qList: [], //处理后...【详细内容】
2021-12-17  Mason程    Tags:VUE   点击:(14)  评论:(0)  加入收藏
什么是性能调优?(what) 为什么需要性能调优?(why) 什么时候需要性能调优?(when) 什么地方需要性能调优?(where) 什么时候来进行性能调优?(who) 怎么样进行性能调优?(How) 硬件配...【详细内容】
2021-12-16  软件测试小p    Tags:性能调优   点击:(19)  评论:(0)  加入收藏
Tasker 是一款适用于 Android 设备的高级自动化应用,它可以通过脚本让重复性的操作自动运行,提高效率。 不知道从哪里听说的抖音 app 会导致 OLED 屏幕烧屏。于是就现学现卖,自...【详细内容】
2021-12-15  ITBang    Tags:抖音防烧屏   点击:(23)  评论:(0)  加入收藏
11 月 23 日,Rust Moderation Team(审核团队)在 GitHub 上发布了辞职公告,即刻生效。根据公告,审核团队集体辞职是为了抗议 Rust 核心团队(Core team)在执行社区行为准则和标准上...【详细内容】
2021-12-15  InfoQ    Tags:Rust   点击:(24)  评论:(0)  加入收藏
一个项目的大部分API,测试用例在参数和参数值等信息会有很多相似的地方。我们可以复制API,复制用例来快速生成,然后做细微调整既可以满足我们的测试需求1.复制API:在菜单发布单...【详细内容】
2021-12-14  AutoMeter    Tags:AutoMeter   点击:(20)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条