您当前的位置:首页 > 电脑百科 > 电脑知识

一个爬虫的故事:这是人干的事儿?

时间:2020-10-10 10:16:57  来源:51CTO  作者:

爬虫原理

我是一个爬虫,每天穿行于互联网之上,爬取我需要的一切。

一个爬虫的故事:这是人干的事儿?

 

说起来还要感谢HTTP协议,因为它,全世界的网站和浏览器才能够连接通信,而我也是借助HTTP协议,获取我想要的数据。

我只需要伪装成一个浏览器,向服务器发送HTTP请求,就能拿到网页html文件。

接着,我再按照HTML的格式规范,去解析其中的图片<img>、链接<a>、表单<form>等等我关注的信息。

一个爬虫的故事:这是人干的事儿?

 

获取链接标签以后,我又可以进一步爬取链接背后的网页,如此反复,要不了多久,一个网站中暴露出来的内容我就能爬个干净。

当然了,咱们做爬虫也还是有底线的。干我们这一行,有一个约定俗成的规定,那就是Robots协议

只要你在网站的根目录下放置一个叫robots.txt的文件,里面写上哪些目录禁止访问,我就会绕道而行,就像这样:

User-agent: *

Disallow: /a/

Disallow: /b/

Disallow: /c/

就像程序员们经常互相鄙视一样,在咱们爬虫的圈子里,也存在鄙视链。

地位最高的要数搜索引擎的爬虫了,他们高高在上,正大光明的爬,各个网站欢迎还来不及,都想被他们收录到搜索引擎之中,给网站带来流量。这些爬虫,都是圈子里的大佬,我们惹不起。

一个爬虫的故事:这是人干的事儿?

 

另外有一些爬虫,他们有的不遵守robots协议,随意乱爬,有的一天天的净知道爬美女图片,把人家服务器爬崩溃了,这些爬虫我们也是看不起的。

像我这样老实本分的爬虫,平日的工作就是爬取一些网站的数据,像购物网站、点评网站等等。虽然我们很守规矩,但这些个网站还是很不待见我们,为了拿到数据,我们展开了旷日持久的拉锯战。

一个爬虫的故事:这是人干的事儿?

 

反爬虫技术

现在很多网站都上云了,云上的资源可昂贵了,CPU、内存、存储这些都价格不菲,尤其是网络带宽,价格是真心贵。

一个爬虫的故事:这是人干的事儿?

 

那些网站不待见咱们这些爬虫也就可以理解了,我们不像搜索引擎爬虫可以给他们带来好处,相反,还会消耗他们的服务器性能,花掉他们宝贵的流量,那可是白花花的人民币,谁不心疼啊?

所以这些网站加了一个措施:一旦在HTTP请求中的user-agent字段发现这是一个爬虫,那就不搭理我们了。

一个爬虫的故事:这是人干的事儿?

 

这个user-agent是HTTP协议中表示客户端名字的字段,那个时候我刚刚入行,没什么经验,不懂得伪装,很容易就被发现。

为了能够继续爬数据,我只好改头换面,伪装成了浏览器的名字,圈子里有的兄弟还伪装成了搜索引擎爬虫的名字,我可不像他们那样没下线。

这一招管用了没多久,这些网站就升级了策略,通过我们的行为来识别是不是真的浏览器。我们毕竟是程序,那速度比人类点击快多了,网站一旦发现我们短时间内发起了很多请求,那就掐断连接。

我只好降低爬取的频率,避免被拉入黑名单。

有些网站更狠,在网页里面插入一些假的图片,只有几个像素那种,人类的眼睛是看不见的,但是我们不知道啊,对我来说都是<img>标签,我一访问就中计了!立刻被拉入黑名单。

没有办法,摊上这种事,我只好想办法换个IP再去爬,真是难顶。

听说圈子里有些大佬用上了分布式技术,组团去爬,很多个IP地址,其中一个或者几个封了也不用怕,我真是很羡慕。

前后端分离

在我的职业生涯中,遇到过一些奇怪的网站,明明网页中有数据,但是我一访问拿到的HTML中啥也没有,一度让我很郁闷。

后来才知道,原来他们用上了一个叫前后端分离开发的技术,数据不再从服务器渲染到HTML网页中,而是浏览器通过单独的API接口拿到后再动态加载出来,难怪我拿到的只是一个空壳子。

一个爬虫的故事:这是人干的事儿?

 

为了拿到数据,我只好也学着去请求这些数据接口,不过因为这些网站都有API网关,会检查请求的Token或者Authorization之类的认证字段,再加上我不知道他们的接口参数格式,导致我经常拿不到数据。

到了最近两年,我拿到的网页HTML越来越简单了,在浏览器中丰富多彩的页面,一查看源代码竟然只有简单几行,真是见了鬼了!

终于有一天,一个前辈告诉我,现在流行单页应用SPA了,页面全都是在前端动态生成的,拿到的HTML根本没有价值。

一个爬虫的故事:这是人干的事儿?

 

这简直欺人太甚了!

一不做二不休,我决定弄一个真正的浏览器进来,这个内嵌的浏览器没有界面,专门为我服务,嵌入到我的程序中,让他去真正的渲染网页,渲染完成后我再去取数据!

这是真正意义上模拟人类去访问网站了,再也不用模拟繁琐的数据接口访问,也不用担心单页应用,前端渲染就前端渲染,我再也不怕了!

验证码

到后来,不知道是谁发明的,网站们纷纷用上了一种叫验证码的技术,给我们出了难题。

开始的验证码还算比较简单,一般都是些简单的数字、英文字符做了些变形,就像这样:

一个爬虫的故事:这是人干的事儿?

 

圈子里很快有大佬教我们用文字识别技术OCR来自动识别这种验证码,我也折腾了一下,费了老大劲终于可以识别出来,准确率不敢说100%,99%还是有的。

不过没多久,这验证码就变得越来越复杂,什么汉字识别,物体识别,滑动解锁,一个比一个难,根本超出了我的理解范围,你瞧瞧下面这些验证码,这是人干的事儿吗?

一个爬虫的故事:这是人干的事儿?

 

哎,这还真是人才能干的事,不是我们爬虫能干的~

如今,这些网站的反爬虫技术越来越先进,我们能发挥的空间被一步步挤压。

前段时间,有个愣头青爬虫把一家公司的服务器给爬崩溃了,把人家正常业务都弄停掉了,他还被抓了起来,现在监管越来越严,搞得大家人心惶惶。

内忧外患不断,不少爬虫兄弟失业的失业,转行的转行,爬虫这碗饭,真是越来越不好吃了。。。

作者:轩辕之风

来源:编程技术宇宙(ID:xuanyuancoding)



Tags:爬虫   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
利用Python实现中国地铁数据可视化。废话不多说。让我们愉快地开始吧~开发工具Python版本:3.6.4相关模块:requests模块;wordcloud模块;pandas模块;numpy模块;jieba模块;pyecharts模...【详细内容】
2021-12-08  Tags: 爬虫  点击:(34)  评论:(0)  加入收藏
这个开源项目程序可以持续爬取一个或多个新浪微博用户(如李文di、无疫烦)的数据,并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。...【详细内容】
2021-10-27  Tags: 爬虫  点击:(43)  评论:(0)  加入收藏
今天我们仍旧利用scrapy框架实现自动翻页爬取数据,爬取诗词胖排行榜( https://www.shicimingju.com/paiming)中的标题。1.新建文件夹scrapy starproject 文件名(wallpaper)2.新建...【详细内容】
2021-10-21  Tags: 爬虫  点击:(62)  评论:(0)  加入收藏
回顾python学习历程,感慨良多,这门语言实在是太强了,当然,分支也很多,有的在做安全,有的在做数据,有的在做爬虫,本文就笔者本身的爬虫入门的小经验分享给读者,期待各位在学习python的...【详细内容】
2021-08-11  Tags: 爬虫  点击:(81)  评论:(0)  加入收藏
来源:Python数据之道作者:Peter整理:阳哥大家好,我是阳哥。今天来跟大家分享用 BeautifulSoup 获取信息的一些知识点,文章内容由公众号读者 Peter 创作。欢迎各位童鞋向公众号投...【详细内容】
2021-06-23  Tags: 爬虫  点击:(134)  评论:(0)  加入收藏
上次写的如何给小孩约马术课过程,见这里 Python 约课[1], 本想一劳永逸,但是好景不长,预约系统升级了,而且还换了服务商,从之前的公众号 H5 应用,换成了小程序,之前编写的方式直接失...【详细内容】
2021-05-07  Tags: 爬虫  点击:(261)  评论:(0)  加入收藏
众所周知,代理IP可以助力爬虫工作更好的进行,很多人认为:如果没有代理IP,爬虫工作寸步难行。那么,如果爬虫不使用代理IP会出现什么情况呢? 一、小型爬虫:可有可无爬几百篇文章,几百...【详细内容】
2021-05-07  Tags: 爬虫  点击:(157)  评论:(0)  加入收藏
前言 将爬虫的爬取过程分为网络请求,文本获取和数据提取3个部分。 信息校验型反爬虫主要出现在网络请求阶段,这个阶段的反爬虫理念以预防为主要目的,尽可能拒绝反爬虫程序的请...【详细内容】
2021-04-20  Tags: 爬虫  点击:(451)  评论:(0)  加入收藏
导读:Scrapy由Python语言编写,是一个快速、高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取出结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试...【详细内容】
2021-04-13  Tags: 爬虫  点击:(333)  评论:(0)  加入收藏
在了解爬虫基础、请求库和正则匹配库以及一个具体豆瓣电影爬虫实例之后,可能大家还对超长的正则表达式记忆犹新,设想如果想要匹配的条目更加多那表达式长度将会更加恐怖,这显然...【详细内容】
2021-04-12  Tags: 爬虫  点击:(262)  评论:(0)  加入收藏
▌简易百科推荐
回答这个问题前首先要了解一度电的定义一度电= 1000W&middot;h ,是一个能量单位,一个功率为1000w的设备持续运作一小时就会消耗1度电。所以台式机多少时间一度电完全取决于台...【详细内容】
2021-12-20  数码榜    Tags:台式电脑   点击:(5)  评论:(0)  加入收藏
你是不是很多时候都会紧急冲向电源插座以拯救笔记本电脑的电量?很多时候由于附近没有方便的插座,一是会误事,二是会导致尴尬。幸运的是,现代笔记本电脑比前辈高效得多。如今,即...【详细内容】
2021-12-16  趣玩公社    Tags:电池   点击:(17)  评论:(0)  加入收藏
电脑在我们生活中的重要性不言而喻。如何保证自己的电脑流畅好用,对于很多用户来说都非常重要。作为一个理科男和IT从业者,对于自己的电脑还是非常在意的,会定期的进行整理,保持...【详细内容】
2021-12-09  小伊评科技    Tags:电脑   点击:(13)  评论:(0)  加入收藏
大家好,我是良许。不管我们使用什么操作系统,无论是 Windows、macOS 还是 Linux ,里面都安装了许多软件、驱动程序和固件。但是,这三者概念有区别呢?我在朋友圈做了个小调查,发现...【详细内容】
2021-11-30  良许Linux    Tags:固件   点击:(10)  评论:(0)  加入收藏
澎湃问吧世界著名密码史学家戴维&middot;卡恩曾说:“人类使用密码的历史几乎与使用文字的时间一样长”,这意味着人类密码领域的较量已近五千年。提及“密码”一词,大多数人会想...【详细内容】
2021-11-24    澎湃新闻  Tags:密码   点击:(16)  评论:(0)  加入收藏
由于去中心化域名和账户体系可以承载应用、网站和用户身份,因此有理由相信,这是 Web3 世界中不可或缺的一环。撰文:潘致雄如果回忆一下初次进行的加密货币转账时的体验,特别是在...【详细内容】
2021-11-03  链闻ChainNews    Tags:ENS   点击:(26)  评论:(0)  加入收藏
 文件系统(File System)是计算机系统必不可少的组成部分,可以说除了部分结构简单的单片机系统之外,文件系统是支撑每一个计算机系统运行的最重要的支撑,无论是操作系统、应用程...【详细内容】
2021-11-01  欧工玩转嵌入式  CSDN  Tags:FAT32   点击:(30)  评论:(0)  加入收藏
SDS 2.0时代进化达尔文的《进化论》认为,地球上现存的所有生物都是自然选择的结果,生物只有适应环境的变化,才能得到生存和进化。回望到企业存储,一个常做常新的行业,从上古结绳...【详细内容】
2021-10-28  ExponTech   企鹅号  Tags:SDS   点击:(35)  评论:(0)  加入收藏
在昨天的微信《远程办公危机四伏,到底该pick谁给你保驾护航?》中介绍了远程员工应该具备的四大安全工具,今天继续分享干货:05 双因子令牌在理想的情况下,每个人都会对所有的关键...【详细内容】
2021-10-26    计算机世界  Tags:远程办公   点击:(32)  评论:(0)  加入收藏
今天几乎所有的数字显示设备都基于某种类型的 RGB(红、绿、蓝)颜色模型。RGB 是表示人类可以看到的大多数颜色的最有效方式(有一些颜色不能很好地产生,但这是另一个讨论)。相机...【详细内容】
2021-10-09  懒懒散散的程序员    Tags:RGB   点击:(49)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条