您当前的位置:首页 > 电脑百科 > 网络技术 > 网络技术

Power Query 网络抓取概括性总结

时间:2020-08-12 10:24:16  来源:  作者:

这一段时间写了很多篇网络抓取方面的文章,很多网友可能对网络抓取还有疑虑,是不是游走法律边缘,担心跨省。其实我们用Power Query进行的网络抓取行为,大部分都是正常的数据收集工作,我们并没有突破防御从后台下载数据,那些都是黑客做的事情。Power Query网络抓取,都是通过正常的网页访问来获取数据,只是比起手工翻页稍微自动化了一些。

数据类型

如果从抓取的数据类型的角度来区分,我们分为两大类:

Power Query 网络抓取概括性总结

 

  • 网页:文本格式的页面内容,从中提取表格或文本
  • 数据:主要是json格式的数据,如果你有数据库的账户和密码,Power Query也有对应的数据库接口,获取数据也是很方便的。

抓取步骤

如果从抓取步骤来分类也是两步:

Power Query 网络抓取概括性总结

 

为什么不是我们经常说的四步变成两步了?

这里所说的步骤单指我们M函数在网络抓取中的步骤。

第一步:抓取网页内容,都是Contents,结尾的M函数

第二步:分析网页内容,对第一步抓取过来的网页内容进行解析,文本、json、xml、csv、表格等等。

我们在之前的网络抓取文章中很少提到具体的函数,因为大部分的网络抓取函数应用,都是Power Query自动给我们生成,回过头来看看,就是我们现在看到的这个样子。

所以说,网络抓取两大核心工作:

  • 内容抓取是建立在网站分析的基础之上;
  • 内容呈现是选择合适的方式对网页内容解析,并作适当的格式处理。

M函数

我们常用到的函数组合:

Power Query 网络抓取概括性总结

 

这里简单说一下:

  • Web.BrowserContents返回的是文本格式,可以直接用Text类函数来处理,也可以用其他几种数据格式来解析。
  • Web.Contents返回的是二进制格式,用数据格式解析
  • AzureStorage.BlobContents返回的也是二进制格式,BLOB(binary large object)这个我也是在做COVID-19数据抓取时才注意到的,我们就理解为附件吧,图中的url直接就是一个文件的地址,在网络抓取需要直接读取附件内容时可以考虑使用这个函数。
Power Query 网络抓取概括性总结

 

综上所诉,Power Query网络抓取并不是很复杂,复杂的是网站千奇百怪,各有各的不同,所以我们要做好网站分析,不断尝试,总会找到办法的。



Tags:Power Query   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
前面我们讲过东方财富网获取全部实时股票数据,今天来做一个个股的K线数据获取。获取个股数据首先要有股票代码,然后根据代码来获取,这个和我们浏览网页的顺序差不多,比如我们先...【详细内容】
2021-05-12  Tags: Power Query  点击:(403)  评论:(0)  加入收藏
这一段时间写了很多篇网络抓取方面的文章,很多网友可能对网络抓取还有疑虑,是不是游走法律边缘,担心跨省。其实我们用Power Query进行的网络抓取行为,大部分都是正常的数据收集...【详细内容】
2020-08-12  Tags: Power Query  点击:(117)  评论:(0)  加入收藏
▌简易百科推荐
写一个shell获取本机ip地址、网关地址以及dns信息。经常会遇到取本机ip、网关、dns地址,windows一个命令ipconfig /all全部获取到,但linux系统却并非如此。linux系统都自带ifc...【详细内容】
2021-12-27  K佬食古    Tags:shell   点击:(1)  评论:(0)  加入收藏
步骤1、配置 /etc/sysconfig/network-scripts/ifcfg-eth0 里的文件。it动力的CentOS下的ifcfg-eth0的配置详情:[root@localhost ~]# vim /etc/sysconfig/network-scripts/ifc...【详细内容】
2021-12-24  忆梦如风    Tags:网卡   点击:(9)  评论:(0)  加入收藏
1、查找当前目录下所有以.tar结尾的文件然后移动到指定目录find . -name “*.tar” -execmv {}./backup/ ;注解:find –name 主要用于查找某个文件名字,-exec 、xargs可...【详细内容】
2021-12-17  郭主任    Tags:运维   点击:(19)  评论:(0)  加入收藏
对于经常上网的朋友来说,除了手机购物上网,pc端玩网页游戏还是很多小伙伴首选的,但是有时候明明宽带链接上了,打开浏览器却出现上不了网的现象,下面小编要来跟大家说说电脑有网络...【详细内容】
2021-12-16  小白系统    Tags:网页无法打开   点击:(28)  评论:(0)  加入收藏
在访问像github、gitlab这样的外国网站时,很有可能会出现页面加载不出来或找不到页面的错误。这时候有的朋友就会以为是网络的问题,于是把Wifi断掉连上自己手机的热点,结果却还...【详细内容】
2021-12-15  启施技术IT狼叔    Tags:外网   点击:(14)  评论:(0)  加入收藏
网络地址来源:获取公网IP地址 https://ipip.yy.com/get_ip_info.phphttp://pv.sohu.com/cityjson?ie=utf-8http://www.ip168.com/json.do?view=myipaddress...【详细内容】
2021-12-15  韦廷华12    Tags:外网ip   点击:(14)  评论:(0)  加入收藏
准备好软件IPOP、用ENSP模拟一下华为交换机 启动交换机 <Huawei>sysEnter system view, return user view with Ctrl+Z.[Huawei]sysname FTPClient[FTPClient]interface vla...【详细内容】
2021-12-15  思源Edward    Tags:交换机   点击:(22)  评论:(0)  加入收藏
我们经常用到netstat命令查看主机连接状况,包括连接ip、端口、状态等,今天就练习下shell分析netsat结果。描述假设netstat命令运行的结果我们存储在nowcoder.txt里,格式如下:Pro...【详细内容】
2021-12-14  K佬食古    Tags:netstat   点击:(19)  评论:(0)  加入收藏
什么是滑动窗口?窗口是操作系统开辟的一块缓存空间,发送方在收到接收方ACK应答之前,必须在缓冲区保留已发送的数据,如果按期收到确认应答,数据就可以从缓冲区移除。什么是滑动窗...【详细内容】
2021-12-14  DifferentJava    Tags:TCP   点击:(28)  评论:(0)  加入收藏
概述日常管理华为路由设备过程中,难为会忘记设备登录密码,那么该如何重置设备登录密码吗?本期文章将全面向各位小伙伴总结分享。重置华为设备登录密码思路先行 采用console登录...【详细内容】
2021-12-10  onme0    Tags:   点击:(27)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条