您当前的位置:首页 > 电脑百科 > 程序开发 > 语言 > Python

凭借这5步,我30分钟学会了Python爬虫

时间:2020-12-10 10:57:59  来源:  作者:

专注Python、AI、大数据,请关注公众号七步编程!

在不同公司的许多人可能出于各种原因需要从Internet收集外部数据:分析竞争,汇总新闻摘要、跟踪特定市场的趋势,或者收集每日股票价格以建立预测模型……

无论你是数据科学家还是业务分析师,都可能时不时遇到这种情况,并问自己一个永恒的问题:我如何才能提取该网站的数据以进行市场分析?

提取网站数据及其结构的一种可能的免费方法是爬虫

在本文中,你将了解如何通过Python轻松的完成数据爬虫任务。

凭借这5步,我30分钟学会了Python爬虫

 

什么是爬虫?

广义上讲,数据爬虫是指以编程方式提取网站数据并根据其需求进行结构化的过程。

许多公司正在使用数据爬虫来收集外部数据并支持其业务运营:这是当前在多个领域中普遍的做法。

我需要了解什么才能学习python中的数据抓取?

很简单,但是需要首先具备一些Pythonhtml知识。

另外,需要了解两个非常有效的框架,例如,Scrapy或Selenium。

详细介绍

接下来,让我们学习如何将网站变成结构化数据!

为此,首先需要安装以下库:

  • requests:模拟HTTP请求(例如GET和POST), 我们将主要使用它来访问任何给定网站的源代码
  • BeautifulSoup:轻松解析HTML和XML数据
  • lxml:提高XML文件的解析速度
  • pandas:将数据构造为Dataframes并以您选择的格式(JSON,Excel,CSV等)导出

如果你使用的是Anaconda,配置起来会非常简单,这些软件包都已预先安装。

如果不是使用Anaconda,需要通过如下命令安装工具包:

pip install requests
pip install beautifulsoup4
pip install lxml
pip install pandas

我们要抓取哪些网站和数据?

这是爬虫过程中首先需要回答的问题。

本文就以爬取Premium Beauty News为例进行演示。

该以优质美容新闻为主,它发布了美容市场的最新趋势。

查看首页,你会看到我们要抓取的文章以网格形式组织。

凭借这5步,我30分钟学会了Python爬虫

 

多页面的组织如下:

凭借这5步,我30分钟学会了Python爬虫

 

当然,我们仅要提取出现在这些页面上的每篇文章的标题,我们将深入每个帖子并获取我们需要的详细内容,例如:

  • 标题
  • 日期
  • 摘要
  • 全文
凭借这5步,我30分钟学会了Python爬虫

 

编码实践

前面,已经介绍了基本的内容以及需要用到的工具包。

接下来,就是正式编码实践的步骤。

首先,需要导入基础工具包:

import requests 
from bs4 import BeautifulSoup 
import pandas as pd 
from tqdm import tqdm_notebook

我通常定义一个函数来解析给定URL的每个页面的内容。

该函数将被多次调用,这里将他命名为parse_url:

def parse_url(url):
    response = requests.get(url)
    content = response.content     
    parsed_response = BeautifulSoup(content, "lxml")     
    return parsed_response

提取每个帖子数据和元数据

首先,我将定义一个函数,该函数提取给定URL的每个帖子的数据(标题,日期,摘要等)。

然后,我们将遍历所有页面的for循环内调用此函数。

要构建我们的爬虫工具,我们首先必须了解页面的基本HTML逻辑和结构。以提取帖子的标题为例,讲解一下。

通过在Chrome检查器中检查此元素:

凭借这5步,我30分钟学会了Python爬虫

 

我们注意到标题出现在 article-title类的h1内。

使用BeautifulSoup提取页面内容后,可以使用find方法提取标题。

title = soup_post.find("h1", {"class": "article-title"}).text

接下来,看一下日期

凭借这5步,我30分钟学会了Python爬虫

 

该日期显示在一个span内,该范围本身显示在row sub-header类的标题内。

使用BeautifulSoup将其转换为代码非常容易:

datetime = soup_post.find("header", {"class": "row sub-  header"}).find("span")["datetime"]

下一步就是摘要

凭借这5步,我30分钟学会了Python爬虫

 

它在article-intro的h2标签下:

abstract = soup_post.find("h2", {"class": "article-intro"}).text

现在,需要爬取帖子的全文内容。如果已经理解了前面的内容,那么这部分会非常容易。

该内容在article-text类的div内的多个段落(p标签)中。

凭借这5步,我30分钟学会了Python爬虫

 

BeautifulSoup可以通过以下一种方式提取完整的文本。而不是遍历每个每个p标签、提取文本、然后将所有文本连接在一起。

content = soup_post.find("div", {"class": "article-text"}).text

下面,让我们把它们放在同一个函数内看一下:

def extract_post_data(post_url):
    soup_post = parse_url(post_url)
    
    title = soup_post.find("h1", {"class": "article-title"}).text
    datetime = soup_post.find("header", {"class": "row sub-header"}).find("span")["datetime"]
    abstract = soup_post.find("h2", {"class": "article-intro"}).text
    content = soup_post.find("div", {"class": "article-text"}).text
    
    data = {
        "title": title,
        "datetime": datetime,
        "abstract": abstract,
        "content": content,
        "url": post_url
    }
    
    return data

提取多个页面上的帖子URL

如果我们检查主页的源代码,会看到每个页面文章的标题:

凭借这5步,我30分钟学会了Python爬虫

 

可以看到,每10篇文章出现在1个post-style1 col-md-6标签下:

下面,提取每个页面的文章就很容易了:

url = "https://www.premiumbeautynews.com/fr/marches-tendances/"
soup = parse_url(url)
section = soup.find("section", {"class": "content"})
posts = section.findAll("div", {"class": "post-style1 col-md-6"})

然后,对于每个单独的帖子,我们可以提取URL,该URL出现在h4标签内部。

我们将使用此URL调用我们先前定义的函数extract_post_data。

uri = post.find("h4").find("a")["href"]

分页

在给定页面上提取帖子后,需要转到下一页并重复相同的操作。

如果查看分页,需要点击“下一个”按钮:

凭借这5步,我30分钟学会了Python爬虫

 

到达最后一页后,此按钮变为无效。

换句话说,当下一个按钮处于有效状态时,就需要执行爬虫操作,移至下一页并重复该操作。当按钮变为无效状态时,该过程应停止。

总结此逻辑,这将转换为以下代码:

next_button = ""
posts_data = []
count = 1
base_url = 'https://www.premiumbeautynews.com/'

while next_button isnotNone:
    print(f"page number : {count}")

    soup = parse_url(url)
    section = soup.find("section", {"class": "content"})
    posts = section.findAll("div", {"class": "post-style1 col-md-6"})

    for post in tqdm_notebook(posts, leave=False):
        uri = post.find("h4").find("a")["href"]
        post_url = base_url + uri
        data = extract_post_data(post_url)
        posts_data.Append(data)
    
    next_button = soup.find("p", {"class": "pagination"}).find("span", {"class": "next"})
    if next_button isnotNone:
        url = base_url + next_button.find("a")["href"]
        count += 1

此循环完成后,将所有数据保存在posts_data中,可以将其转换为漂亮的DataFrames并导出为CSV或Excel文件。

df = pd.DataFrame(posts_data)
df.head()
凭借这5步,我30分钟学会了Python爬虫

 

到这里,就把一个非结构化的网页转化成结构化的数据了!



Tags:Python爬虫   点击:()  评论:()
声明:本站部分内容来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除,谢谢。
▌相关评论
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
▌相关推荐
专注Python、AI、大数据,请关注公众号七步编程!在不同公司的许多人可能出于各种原因需要从Internet收集外部数据:分析竞争,汇总新闻摘要、跟踪特定市场的趋势,或者收集每日股票价...【详细内容】
2020-12-10   Python爬虫  点击:(0)  评论:(0)  加入收藏
我们在写爬虫代码时,常常需要各种分析调试,而且每次直接用代码调试都很麻烦所以今天给大家分享一个工具,不仅能方便模拟发送各种http请求,还能轻松调试,最重要的是,可以将调试最终...【详细内容】
2020-12-07   Python爬虫  点击:(7)  评论:(0)  加入收藏
本篇文章介绍了爬虫中验证码的处理方式, 并把这些功能封装起来,供我们使用, 涉及到百度AIP的调用方式, 以及一个最新的开源库muggle识别库的使用,欢迎阅读,点赞,收藏! 目录: 学会调用...【详细内容】
2020-10-29   Python爬虫  点击:(5)  评论:(0)  加入收藏
大家好,今天我们来讲点Selenium自动化,你是否有特别喜欢的公众号?你有想过如何将一个公众号历史文章全部文章爬下来学习吗?现在我们就演示用Selenium实现这个功能。...【详细内容】
2020-09-25   Python爬虫  点击:(10)  评论:(0)  加入收藏
在开始之前,请确保你的电脑上已经安装好了BeautifulSoup库,可以通过在命令行中输入pip install beautifulsoup4来进行安装。一、数据解析在爬取之前,我们需要检测下响应状态码...【详细内容】
2020-08-25   Python爬虫  点击:(2)  评论:(0)  加入收藏
此教程需要有一定的HTML基础,了解HTML结构和标签即可,先写一个简单的 HTML通过编写和修改 HTML,可以更好地理解 HTML。首先打开一个记事本,然后输入下面的内容:<html><head><titl...【详细内容】
2020-08-12   Python爬虫  点击:(7)  评论:(0)  加入收藏
一、使用的工具单独使用完成 pycharms 完成实验,在分析的时候使用 Jupyter Notebook在爬虫所需要lxml和bs4这两个库已经确认安装后,确保自己的已经安装了pandas和matplotlib这...【详细内容】
2020-08-05   Python爬虫  点击:(8)  评论:(0)  加入收藏
互联网的数据爆炸式的增长,而利用 Python 爬虫我们可以获取大量有价值的数据:1.爬取数据,进行市场调研和商业分析爬取知乎优质答案,筛选各话题下最优质的内容; 抓取房产网站买卖...【详细内容】
2020-07-24   Python爬虫  点击:(8)  评论:(0)  加入收藏
最近有些朋友看完小帅b的文章之后把小帅b的表情包都偷了还在我的微信疯狂发表情包嘚瑟我就呵呵了 只能说一句盘他还有一些朋友看完文章不点好看还来催更小帅b也只能说一句继...【详细内容】
2020-06-21   Python爬虫  点击:(7)  评论:(0)  加入收藏
用python从网页爬取数据,网上相关文章很多,但能让零基础初学者轻松上手的却很少。可能是有的作者觉得有些知识点太简单不值得花费精力讲,结果是难者不会会者不难,初学者常常因此...【详细内容】
2020-02-17   Python爬虫  点击:(2)  评论:(0)  加入收藏
Python学习网络爬虫主要分3个大的版块:抓取,分析,存储。另外,比较常用的爬虫框架Scrapy,这里最后也详细介绍一下。 当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输...【详细内容】
2019-11-28   Python爬虫  点击:(46)  评论:(0)  加入收藏
通用爬虫和聚焦爬虫根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.通用爬虫通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是...【详细内容】
2019-11-27   Python爬虫  点击:(29)  评论:(0)  加入收藏
今天要给大家介绍的是验证码的爬取和识别,不过只涉及到最简单的图形验证码,也是现在比较常见的一种类型。运行平台:WindowsPython版本:Python3.6IDE: Sublime Text其他:Chrome浏...【详细内容】
2019-11-19   Python爬虫  点击:(26)  评论:(0)  加入收藏
很多时候我们需要使用Selenium库来执行python爬虫或自动测试,但是我们经常会在登录时因为验证代码而卡住,特别头疼。尤其是现在的图形认证代码和移动滑块验证码,连最简单的文本...【详细内容】
2019-11-06   Python爬虫  点击:(56)  评论:(0)  加入收藏
如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得简单、容易...【详细内容】
2019-10-29   Python爬虫  点击:(56)  评论:(0)  加入收藏
当我们对某些网站进行爬去的时候,我们经常会换IP来避免爬虫程序被封锁。代理ip地址如何获取?其实也是一个比较简单的操作,目前网络上有很多IP代理商,例如西刺,芝麻,犀牛等等。这些...【详细内容】
2019-10-10   Python爬虫  点击:(35)  评论:(0)  加入收藏
创建项目scrapy startproject tencent编写items.py写class TencentItemimport scrapyclass TencentItem(scrapy.Item):# define the fields for your item here like:# 职...【详细内容】
2019-08-16   Python爬虫  点击:(143)  评论:(0)  加入收藏
这是最简单的Python爬虫案例,如果你能看懂,那么请你保持信心,因为你已经入门Python爬虫,只要带着信心和努力,你的技术能力在日后必定价值15K月薪。 这次是要爬取网易新闻,包括新闻...【详细内容】
2019-08-09   Python爬虫  点击:(97)  评论:(0)  加入收藏
很多时候我们做 Python 爬虫时或者自动化测试时需要用到 selenium 库,我们经常会卡在登录的时候,登录验证码是最头疼的事情,特别是如今的文字验证码和图形验证码。文字和图形验证码还加了干扰线,本文就来讲讲怎么绕过登录...【详细内容】
2019-08-05   Python爬虫  点击:(84)  评论:(0)  加入收藏
经常写爬虫的都知道,有些页面在登录之前是被禁止抓取的,比如知乎的话题页面就要求用户登录才能访问,而 “登录” 离不开 HTTP 中的 Cookie 技术。登录原理Cookie 的原理非常简...【详细内容】
2019-07-02   Python爬虫  点击:(206)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条