您当前的位置:首页 > 电脑百科 > 软件技术 > 应用软件

全网最简单的数据采集自动化工具——Instant Data Scraper

时间:2022-09-13 12:39:12  来源:今日头条  作者:APP发现者
大家都知道“网络爬虫”这个词,知道的朋友都听过一句话”爬虫学的好,监狱进的早“,其实任何工具如果合理利用,会大大帮助使用者提高效率,而使用过度了,就会造成负面影响,在这里。本身“网络爬虫”实际意思是“代替人们自动地在互联网中进行数据信息的采集与整理”,说白了“网络爬虫”的核心其实就是“数据收集自动化”技术,如果说我们认识中的“爬虫”是一个不好的词的话,在这里,我希望通过“数据收集自动化”来代替,通过简单的方式实现大家在工作生活中根据自身的需求收集网络公开数据,并实现自动化收集的技术。

 

今天给大家带来的是我认为全网最简单的爬虫工具——Instant Data Scraper

这是一个浏览器插件,主要运行环境是有Chome内核的浏览器,比如Chrome浏览器、

Edge浏览器、360极速浏览器等,之所以说这个工具是最简单的数据采集自动化工具,它有以下几个优点:

 

  • 不需要任何代码
  • 可视化选择想要的数据
  • 无需重开窗口,不用登录操作
  • 多种分页采集方式选择
  • 表格实现显示采集结果
  • 后台操作,不影响前台操作其他动作
  • 延迟和最大等待时间自定义所需的抓取速度
  • 数据导出保存方式可选择XLSX、XLS、CSV格式文档,适用不同场景
  • 免费!免费!免费!
安装方式一:应用市场安装

 

以Edge浏览器为例,教大家如何安装Instant Data Scraper

 

  1. 打开Microsoft Edge浏览器扩展市场Microsoft Edge Addons
  2. 搜索Instant Data Scraper

 

Edge浏览器扩展搜索Instant Data Scraper结果

3.获取Instant Data Scraper 并添加扩展

 

通过Instant Data Scraper在Edge扩展市场的网页也可以直接安装,省区上面两个搜索步骤,链接如下:Microsoft Edge Addons
安装方式二:crx扩展文件离线安装
  1. 最新版的Instant Data Scraper我已经上传到了蓝奏网盘,大家可以通过Instant_Data_Scraper_v1.0.8.crx - 蓝奏云获取到
  2. 打开Edge浏览器管理扩展页面(本地链接edge://extentsions)
  3. 打开开发人员模式

 

打开edge浏览器开发人员模式

4.将Instant_Data_Scraper_v1.0.8.crx文件拖放到Edge浏览器管理扩展页面并进行安装扩展即可

 

以上方式不仅仅适用于Edge浏览器,Chrome浏览器以及国产其他Chrome内核的浏览器均适用,不过关于扩展应用市场是否能搜索到没有确定,特别是Chrome浏览器需要特殊方式才能访问扩展应用市场,所以建议无法在应用市场安装的通过方式二进行安装。

 

最终安装后的效果,会在浏览器扩展管理页面看到,有的浏览器默认会显示在扩展栏处,有如下标志显示

Instant Data Scraper扩展栏展示

Instant Data Scraper使用方法

关于Instant Data Scraper 的使用方法,我会通过几个不同的使用场景来去介绍,不仅仅是教会大家如果使用Instant Data Scraper,同时通过不同场景的使用,可以融会贯通与类似的数据获取方法。

通过Instant Data Scraper采集【豆瓣电影 Top250】数据并保存本地表格

学过Python/ target=_blank class=infotextkey>Python爬虫的小伙伴都知道,初学python爬虫技术,基本上都会拿豆瓣电影 Top250作为实例测试,而python要获取豆瓣电影 Top250的数据可能对于初学者是一个敲门砖,我们看看通过Instant Data Scraper获取豆瓣电影 Top250会有多么的简单。

 

  1. 打开豆瓣定影Top250页面「链接」

 

2.点击Instant Data Scraper扩展程序,自动识别并以表格实时展现当前页面的数据,同时可以直接进行相关编辑,比如修改首行标题、删除不想要的数据列等等,由此获取豆瓣电影Top250的第一页内容已经完美得到

Instant Data Scraper获取豆瓣电影250数据

 

第一次打开Instant Data Scraper页面,由于界面都是英文的,其实页没什么内容,在此我通过一个截图翻译一下整个Instant Data Scraper界面的大致意思和功能。

 

Instant Data Scraper页面介绍

3.定位“下一页”元素进行分页获取数据操作:点击“Locate 'Next' button", 进入元素选择模式(鼠标所在会显示绿色阴影),鼠标选择“后页”元素(这个网页是选择“后页”,但其他的网站不一定,通过观察看点击那个会自动跳到下一页即可)

Instant Data Scraper选择下一页

4.当选择“下一页”元素之后原来的"Location 'Next' button"会显示成"Start crawling"标志,代表已选择分页选择模式,点击"Start crawling"即可开始爬取。如果“下一页”元素选择错误可以直接再重新点击“下一页”元素标记即可。

Instant Data Scraper开始获取数据

 

不同网站会设定连续翻页时间间隔限制防爬,Instant Data Scraper默认的时间间隔是1-20秒随机时间延迟,针对于后期使用过程中,可根据需求自定义,没有时间限制的可以减少最大延迟时间,以加快获取数据速度。

 

5.当出现上面截图显示时代表了爬取数据结束,选择合适的格式下载结果,如没有特殊需求建议下载XLSX的常用office表格格式,方便进行进一步数据筛选编辑等操作。

Instant Data Scraper数据获取结束页面

数据下载完成打开即可看到全部250条影视信息详情列表了,可以进行相关的其他操作,比如设定第一行改为需要的标题,删除不需要的内容等,同时有其他需求的还可以进行数据筛查、数据透视表等操作。

通过实际操作,小伙伴应该会发现,通过Instant Data Scraper 进行数据获取时多么简单的一个事情,拿获取豆瓣250数据为例,及时通过Python写爬虫脚本,也需要不断时间,而通过Instant Data Scraper 获取数据,仅需要点击几下就可以,是不是最简单的数据获取工具呢?

当然,Instant Data Scraper一定不是万能的,面对于有更高要求的用户,或者获取到的内容不一定是自己需要的,Instant Data Scraper暂时就做不到了,最大的局限性应该就在于不可自定义,纯傻瓜式操作,而Instant Data Scraper最大的优点也同样是傻瓜式操作,即可自动化获取数据,基本满足大部分人日常办公生活等场景需要。

关注我,下一期带你去看Instant Data Scraper在其他场景下的使用方法,比如电商平台,比如图片网站等,同时后期我也会带来更多其他“数据收集自动化”技术,针对人群是广大没有编程基础或者仅在日常工作场景使用的简单的数据收集的人。



Tags:数据采集   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
城市发展建设中,高层建筑越来越多,同时楼宇地下室也成为了人们生活中很重要的区域;生活中常用到的一些电表、水表、气表、水泵等都安装在地下室,需要在地下室对这类能耗数据进行...【详细内容】
2022-10-31  Tags: 数据采集  点击:(7)  评论:(0)  加入收藏
1、安装oblogproxyyum install -y yum-utils yum-config-manager --add-repo https://mirrors.aliyun.com/oceanbase/OceanBase.repo yum install -y oblogproxy # oblogp...【详细内容】
2022-10-24  Tags: 数据采集  点击:(10)  评论:(0)  加入收藏
大家都知道“网络爬虫”这个词,知道的朋友都听过一句话”爬虫学的好,监狱进的早“,其实任何工具如果合理利用,会大大帮助使用者提高效率,而使用过度了,就会造成负面影响,在这里。本...【详细内容】
2022-09-13  Tags: 数据采集  点击:(84)  评论:(0)  加入收藏
随着信息技术发展和工业自动化水平的提高,各种现代化监测设备及数据采集器被广泛应用于水文水利、气象环保、工业控制等领域,用于户外、工业现场进行数据采集、存储和传输。...【详细内容】
2022-08-19  Tags: 数据采集  点击:(63)  评论:(0)  加入收藏
导读:工业物联网感知层作为物理世界与数字世界的桥梁,是数据的第一入口。现实情况下,由于感知层数据来源非常多样,来自各种多源异构设备和系统,因此如何从这些设备和系统中获取数...【详细内容】
2022-05-24  Tags: 数据采集  点击:(171)  评论:(0)  加入收藏
一、HS-1002G/DTU 数据传输终端概述:无需布线,即可解决野外数据传输。☞ 只需4G/3G/2G 网络,即可提供数据采集与无线传输☞ SIM卡接口:1.8V/3V☞ 天线接口:SMA/50Ω☞ 7 模...【详细内容】
2021-05-14  Tags: 数据采集  点击:(277)  评论:(0)  加入收藏
导读:数字化转型要从根本上加强数据的可获得性,围绕我们构建的数据主题和对象丰富数据感知渠道。要追求更加实时、全面、有效、安全的数据获取。作者:华为公司数据管理部来源:华...【详细内容】
2020-12-15  Tags: 数据采集  点击:(197)  评论:(0)  加入收藏
1. 工欲善其事必先利其器做下载的爬虫工程师在开工之前,都是人手必备自己熟练使用的一套工具,最基本的工具包括以下几点:1.1资源展示介质由于资源展示介质多样性,导致爬虫身边必...【详细内容】
2020-12-07  Tags: 数据采集  点击:(212)  评论:(0)  加入收藏
本文由百度智能云音视频SDK产品技术负责人李明路在LiveVideoStack线上分享的演讲内容整理而成,内容从音视频数据角度出发,梳理了音视频SDK的发展和技术演进。详细分析数据在常...【详细内容】
2020-07-31  Tags: 数据采集  点击:(191)  评论:(0)  加入收藏
目标:在中国的股票市场上盈利,每周都有单个股票盈利2%,月总盈利超过2%计划实现方式:Pycharm + Anaconda3 + Python3 + Django + AKShare + MongoDB目前采用的实现方式:Pycharm +...【详细内容】
2020-07-10  Tags: 数据采集  点击:(672)  评论:(0)  加入收藏
▌简易百科推荐
来源:财经E法9月15日起,使用腾讯会议部分功能需至少支付1个月的费用。该行为是否涉嫌垄断?是否涉嫌损害消费者权益?腾讯会议开始对个人用户收费,你怎么看?腾讯会议用户王棠(化名)最...【详细内容】
2022-10-31    《财经》新媒体  Tags:腾讯会议   点击:(12)  评论:(0)  加入收藏
丰色 羿阁 发自 凹非寺 量子位 | 公众号 QbitAI 细到每根头发丝里的抠图: 一键删除举着冲浪板的小人,并迅速填充好被抠后的海浪背景: 是的,熟悉的味道~一年一度的Adobe Max大会...【详细内容】
2022-10-22  量子位     Tags:Adobe   点击:(11)  评论:(0)  加入收藏
Flutter 作为火热的跨端工具包,在 github 上超过 120k 的关注量,可见一斑。基于目前本人正在学习 Flutter 的路上,会将整个学习的过程记录下来。本博文主要讲解环境的搭建,先把...【详细内容】
2022-10-18  吉米庞  今日头条  Tags:Flutter   点击:(13)  评论:(0)  加入收藏
二维码怎么制作?现如今二维码无处不在,我们在外买东西支付,或者二维码名片等等。二维码作为我们日常工作和学习中重要的沟通桥梁,我们除了保存页面自带的二维码之外,还需要学会自...【详细内容】
2022-10-12  蚂蚁讲软件  搜狐号  Tags:二维码   点击:(48)  评论:(0)  加入收藏
Parallels Desktop 18可以在 Mac 计算机上下载并安装 Windows 操作系统。在 Mac 与 Windows 之间无缝复制和粘贴文本或拖放对象。在 Mac 虚拟机中跨多个操作系统开发和测试...【详细内容】
2022-10-05  皮西歪  网易号  Tags:虚拟机   点击:(52)  评论:(0)  加入收藏
如果现在打开Google地图那么用户可能会用传统的2D地图来搜索自己想去的地方。但Google有一些想法可以帮助用户以更沉静感的方式发现用户周围的世界,它在周三的Search On活动...【详细内容】
2022-09-30    cnBeta.COM  Tags:Google   点击:(32)  评论:(0)  加入收藏
Chromium for linux,以放射性元素90号命名。Windows/MacOS/RasPi/其他版本见下文。 始终使用Chromium的最新x64 tip-o-tree "Trunk "构建。旨在使其具有谷歌浏览器的行为和功...【详细内容】
2022-09-29  锋哥爱学习  今日头条  Tags:Thorium浏览器   点击:(367)  评论:(0)  加入收藏
 七月末的一次更新中,Chrome浏览器在新标签页加入了广告链接,且无法直接进行关闭,引起了不少网友的口诛笔伐。  在最新更新的Chrome 106版本中,这一广告终于可以移除了。  ...【详细内容】
2022-09-22  快科技2018  新浪网  Tags:Chrome   点击:(32)  评论:(0)  加入收藏
1.DataStage(收费)IBM公司的商业软件,很专业的ETL工具,可跨多个企业系统集成数据,能帮助企业从散布在各个系统中的复杂异构信息中获得更多价值,但技术支持比较少,使用难度较大,尤其...【详细内容】
2022-09-22  播鹰科技     Tags:ETL工具   点击:(73)  评论:(0)  加入收藏
如果你是后端程序员,我想你一定见过*.tar.gz、*.zip、*.jar后缀的文件吧,这些都是压缩文件,那这些文件都是怎么生成的,又有哪些关键区别呢?本文将带你一起了解这些文件和配套的操作命令,以及其经常使用的场景。 tar与gzip...【详细内容】
2022-09-19  扣钉日记  微信公众号  Tags:tar   点击:(101)  评论:(0)  加入收藏
站内最新
站内热门
站内头条