您当前的位置:首页 > 电脑百科 > 程序开发 > 语言 > Python

Python爬虫+数据分析实战–爬取并分析中国天气网的温度信息

时间:2020-08-05 11:17:38  来源:  作者:

一、使用的工具

单独使用完成 pycharms 完成实验,在分析的时候使用 Jupyter Notebook

在爬虫所需要lxml和bs4这两个库已经确认安装后,确保自己的已经安装了pandas和matplotlib这两个库

1.安装方式:

# 推荐使用清华镜像下载速度较快
pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple

2.简介

Pandas可以对数据进行导入、清洗、处理、统计和输出Matplotlib能够生成各种格式的图形(诸如折线图,散点图,直方图等等),界面可交互

二、基本思路

1.目的

爬取中国天气网的温度数据画出温度最高前10名的数据展示图画出温度最低前10名的数据展示图

2.步骤

2.1 爬取数据

分析网址

满足http://www.weather.com.cn/textFC/{}.shtml的格式

定位于东北的网址:http://www.weather.com.cn/textFC/db.shtml
定位于华北的网址:http://www.weather.com.cn/textFC/hb.shtml
定位于华中的网址:http://www.weather.com.cn/textFC/hz.shtml


zone = ['db', 'hb', 'hd', 'hz', 'hn', 'xb', 'xn', 'gat'] for z in zone: url = "http://www.weather.com.cn/textFC/{}.shtml".format(z)

爬取数据

使用bs4库来爬取中国天气网的最高气温,存储到一个列表HIGH_DATA中

具体分析可以看小编之前的数据分析的三种方法,在文章后面附加链接

HIGH_DATA = []
response = requests.get(url, headers=headers)
text = response.content.decode("utf-8")
soup = BeautifulSoup(text,'html5lib')
conMidtab = soup.find('div',class_='conMidtab')
tables = conMidtab.find_all('table')
for table in tables:
    trs = table.find_all('tr')[2:]
    for index,tr in enumerate(trs):   # ebumerate能够取出对应的下标和值
        tds = tr.find_all('td')
        if index == 0:
            city_td = tds[1]
        else:
            city_td = tds[0]
            city = list(city_td.stripped_strings)[0]
            temp_td = tds[-5]
            max_temp = list(temp_td.stripped_strings)[0]
            HIGH_DATA.Append({"city": city, 'high_temp': int(max_temp)})

使用lxml库来爬取中国天气网的最低气温数据,存储到一个列表LOW_DATA中

response = requests.get(url, headers=headers)
text = response.text.encode('ISO-8859-1')
trees = etree.HTML(text)
citys = trees.xpath('//div[@class="hanml"]/div[1]//td[@width="83"][@height="23"]/a/text()')
lows = trees.xpath('//div[@class="hanml"]/div[1]//td[@width="86"]/text()')
while True:
	if '最低气温' not in lows:
		break
	else:
		lows.remove('最低气温')
for i in zip(citys, lows):
	city, low = i
	LOW_DATA.append({"city": city, "low_temp": int(low)})

2.2 数据清洗

使用pandas的DataFrame对象来获取前十名的数据

# 将取出的数据转为DataFrame对象,相当于一个表格
i = pd.DataFrame(LOW_DATA)
j = pd.DataFrame(HIGH_DATA)
# 经过排序来取出前十名的数据,分别放在ten_low和ten_high中
ten_low = i.sort_values(by="low_temp", ascending=True)[0:10]
ten_high = j.sort_values(by="high_temp", ascending=True)[-10:]

2.3 绘制图形

使用Matplotlib来绘制图案,需要解决的问题为文本显示问题还有符号显示问题

具体的方法在代码都已经说明

# 分区域绘图subplot(行,列,第()个)
plt.subplot(2, 1, 1)
# 逆序排序取前面十个然后放在ten_low中
ten_low = i.sort_values(by="low_temp", ascending=True)[0:10]
# 设置x和y轴的字体为黑体(SimHei)/解决轴不能显示字体的问题
plt.rcParams['font.sans-serif'] = ['SimHei']
# 解决不能显示负号的问题
plt.rcParams['axes.unicode_minus'] = False
# 取出ten_low中的城市和气温
x1 = list(ten_low['city'])
y1 = list(ten_low['low_temp'])
# 画出bar图
plt.bar(x1, y1)
# 定义x和y轴的名称
plt.xlabel('城市', fontproperties='SimHei')
plt.ylabel("温度", fontproperties='SimHei')
# 定义图表的名称
plt.title("中国各个城市的今日温度最低前十名", fontproperties='SimHei')
# 显示bar图上的数值
for x, y in zip(x1, y1):
	plt.text(x, y, '%s' % y, ha='center', va='bottom')

# 画出第二个子图
plt.subplot(2, 1, 2)
# 取出最低气温的后面十个数值
ten_high = j.sort_values(by="high_temp", ascending=True)[-10:]
x2 = list(ten_high['city'])
y2 = list(ten_high['high_temp'])
# plt.rcParams['font.sans-serif'] = ['SimHei']
# plt.rcParams['axes.unicode_minus'] = False
plt.bar(x2, y2)
plt.xlabel('城市', fontproperties='SimHei')
plt.ylabel("温度", fontproperties='SimHei')
plt.title("中国各个城市的今日温度最高前十名", fontproperties='SimHei')
for x, y in zip(x2, y2):
	plt.text(x, y, '%s' % y, ha='center', va='bottom')
# 调整每隔子图之间的距离(默认)
plt.tight_layout()
plt.show()

2.3 实验结果

Python爬虫+数据分析实战–爬取并分析中国天气网的温度信息

 

注:5月25日的数据(以实战当天为准)

三、源代码

用函数进行封装

import requests
import pandas as pd
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
from lxml import etree
import matplotlib.pyplot as plt
'''
爬取中国天气网的温度数据并汇总
画出温度最高前10名的数据展示图
画出温度最低前10名的数据展示图
'''
headers = {
    "user-agent": UserAgent().random
}
HIGH_DATA = []
LOW_DATA = []

# 使用bs4库的BeautifSoup对象来获取最高温度的数据,使用HIGH_DATA来存放数据
def get_high_temperature(url):
    response = requests.get(url, headers=headers)
    text = response.content.decode("utf-8")
    soup = BeautifulSoup(text,'html5lib')
    conMidtab = soup.find('div',class_='conMidtab')
    tables = conMidtab.find_all('table')
    for table in tables:
        trs = table.find_all('tr')[2:]
        for index,tr in enumerate(trs):   # ebumerate能够取出对应的下标和值
            tds = tr.find_all('td')
            if index == 0:
                city_td = tds[1]
            else:
                city_td = tds[0]
            city = list(city_td.stripped_strings)[0]
            temp_td = tds[-5]
            max_temp = list(temp_td.stripped_strings)[0]
            HIGH_DATA.append({"city": city, 'high_temp': int(max_temp)})

# 使用lxml库的xpath方法来获取最低温度的数据,使用LOW_DATA来存储数据
def get_low_temperature(url):
    response = requests.get(url, headers=headers)
    text = response.text.encode('ISO-8859-1')
    trees = etree.HTML(text)
    citys = trees.xpath('//div[@class="hanml"]/div[1]//td[@width="83"][@height="23"]/a/text()')
    lows = trees.xpath('//div[@class="hanml"]/div[1]//td[@width="86"]/text()')
    while True:
        if '最低气温' not in lows:
            break
        else:
            lows.remove('最低气温')
    for i in zip(citys, lows):
        city, low = i
        LOW_DATA.append({"city": city, "low_temp": int(low)})

# 使用pandas来格式化数据,使用matplotlib.pyplot 画图
def draw_picture(LOW,HIGH):
    i = pd.DataFrame(LOW)
    j = pd.DataFrame(HIGH)
    # 分区域绘图subplot(行,列,第()个)
    plt.subplot(2, 1, 1)
    # 逆序排序取前面十个然后放在ten_low中
    ten_low = i.sort_values(by="low_temp", ascending=True)[0:10]
    # 设置x和y轴的字体为黑体(SimHei)/解决轴不能显示字体的问题
    plt.rcParams['font.sans-serif'] = ['SimHei']
    # 解决不能显示负号的问题
    plt.rcParams['axes.unicode_minus'] = False
    # 取出ten_low中的城市和气温
    x1 = list(ten_low['city'])
    y1 = list(ten_low['low_temp'])
    # 画出bar图
    plt.bar(x1, y1)
    # 定义x和y轴的名称
    plt.xlabel('城市', fontproperties='SimHei')
    plt.ylabel("温度", fontproperties='SimHei')
    # 定义图表的名称
    plt.title("中国各个城市的今日温度最低前十名", fontproperties='SimHei')
    # 显示bar图上的数值
    for x, y in zip(x1, y1):
        plt.text(x, y, '%s' % y, ha='center', va='bottom')

    # 画出第二个子图
    plt.subplot(2, 1, 2)
    # 取出最低气温的后面十个数值
    ten_high = j.sort_values(by="high_temp", ascending=True)[-10:]
    x2 = list(ten_high['city'])
    y2 = list(ten_high['high_temp'])
    # plt.rcParams['font.sans-serif'] = ['SimHei']
    # plt.rcParams['axes.unicode_minus'] = False
    plt.bar(x2, y2)
    plt.xlabel('城市', fontproperties='SimHei')
    plt.ylabel("温度", fontproperties='SimHei')
    plt.title("中国各个城市的今日温度最高前十名", fontproperties='SimHei')
    for x, y in zip(x2, y2):
        plt.text(x, y, '%s' % y, ha='center', va='bottom')
    # 调整每隔子图之间的距离(默认)
    plt.tight_layout()
    plt.show()


def main():
    zone = ['db', 'hb', 'hd', 'hz', 'hn', 'xb', 'xn', 'gat']
    for z in zone:
        url = "http://www.weather.com.cn/textFC/{}.shtml".format(z)
        get_high_temperature(url)
        get_low_temperature(url)
    draw_picture(LOW_DATA,HIGH_DATA)


if __name__ == '__main__':
    main()

写在最后

在实战出现l什么问题可以随时留言告诉小编,另外附加一个bug,在每天晚上中国天气网当天的最高气温可能会发生变化,数据会被清除变成‘-’,导致实验失败,注意自己的实战时间

Python爬虫+数据分析实战–爬取并分析中国天气网的温度信息

 

我发现湖南长沙这边才是最热的 一个南方城市 居然能达到39 40 ° 太可怕了呀 对了 源码获取记得加后台私信小编 源码 获取



Tags:Python爬虫   点击:()  评论:()
声明:本站部分内容来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除,谢谢。
▌相关评论
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
▌相关推荐
本篇文章介绍了爬虫中验证码的处理方式, 并把这些功能封装起来,供我们使用, 涉及到百度AIP的调用方式, 以及一个最新的开源库muggle识别库的使用,欢迎阅读,点赞,收藏! 目录: 学会调用...【详细内容】
2020-10-29   Python爬虫  点击:(4)  评论:(0)  加入收藏
大家好,今天我们来讲点Selenium自动化,你是否有特别喜欢的公众号?你有想过如何将一个公众号历史文章全部文章爬下来学习吗?现在我们就演示用Selenium实现这个功能。...【详细内容】
2020-09-25   Python爬虫  点击:(7)  评论:(0)  加入收藏
在开始之前,请确保你的电脑上已经安装好了BeautifulSoup库,可以通过在命令行中输入pip install beautifulsoup4来进行安装。一、数据解析在爬取之前,我们需要检测下响应状态码...【详细内容】
2020-08-25   Python爬虫  点击:(2)  评论:(0)  加入收藏
此教程需要有一定的HTML基础,了解HTML结构和标签即可,先写一个简单的 HTML通过编写和修改 HTML,可以更好地理解 HTML。首先打开一个记事本,然后输入下面的内容:<html><head><titl...【详细内容】
2020-08-12   Python爬虫  点击:(6)  评论:(0)  加入收藏
一、使用的工具单独使用完成 pycharms 完成实验,在分析的时候使用 Jupyter Notebook在爬虫所需要lxml和bs4这两个库已经确认安装后,确保自己的已经安装了pandas和matplotlib这...【详细内容】
2020-08-05   Python爬虫  点击:(6)  评论:(0)  加入收藏
互联网的数据爆炸式的增长,而利用 Python 爬虫我们可以获取大量有价值的数据:1.爬取数据,进行市场调研和商业分析爬取知乎优质答案,筛选各话题下最优质的内容; 抓取房产网站买卖...【详细内容】
2020-07-24   Python爬虫  点击:(8)  评论:(0)  加入收藏
最近有些朋友看完小帅b的文章之后把小帅b的表情包都偷了还在我的微信疯狂发表情包嘚瑟我就呵呵了 只能说一句盘他还有一些朋友看完文章不点好看还来催更小帅b也只能说一句继...【详细内容】
2020-06-21   Python爬虫  点击:(7)  评论:(0)  加入收藏
用python从网页爬取数据,网上相关文章很多,但能让零基础初学者轻松上手的却很少。可能是有的作者觉得有些知识点太简单不值得花费精力讲,结果是难者不会会者不难,初学者常常因此...【详细内容】
2020-02-17   Python爬虫  点击:(2)  评论:(0)  加入收藏
Python学习网络爬虫主要分3个大的版块:抓取,分析,存储。另外,比较常用的爬虫框架Scrapy,这里最后也详细介绍一下。 当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输...【详细内容】
2019-11-28   Python爬虫  点击:(46)  评论:(0)  加入收藏
通用爬虫和聚焦爬虫根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.通用爬虫通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是...【详细内容】
2019-11-27   Python爬虫  点击:(29)  评论:(0)  加入收藏
今天要给大家介绍的是验证码的爬取和识别,不过只涉及到最简单的图形验证码,也是现在比较常见的一种类型。运行平台:WindowsPython版本:Python3.6IDE: Sublime Text其他:Chrome浏...【详细内容】
2019-11-19   Python爬虫  点击:(25)  评论:(0)  加入收藏
很多时候我们需要使用Selenium库来执行python爬虫或自动测试,但是我们经常会在登录时因为验证代码而卡住,特别头疼。尤其是现在的图形认证代码和移动滑块验证码,连最简单的文本...【详细内容】
2019-11-06   Python爬虫  点击:(54)  评论:(0)  加入收藏
如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得简单、容易...【详细内容】
2019-10-29   Python爬虫  点击:(56)  评论:(0)  加入收藏
当我们对某些网站进行爬去的时候,我们经常会换IP来避免爬虫程序被封锁。代理ip地址如何获取?其实也是一个比较简单的操作,目前网络上有很多IP代理商,例如西刺,芝麻,犀牛等等。这些...【详细内容】
2019-10-10   Python爬虫  点击:(35)  评论:(0)  加入收藏
创建项目scrapy startproject tencent编写items.py写class TencentItemimport scrapyclass TencentItem(scrapy.Item):# define the fields for your item here like:# 职...【详细内容】
2019-08-16   Python爬虫  点击:(143)  评论:(0)  加入收藏
这是最简单的Python爬虫案例,如果你能看懂,那么请你保持信心,因为你已经入门Python爬虫,只要带着信心和努力,你的技术能力在日后必定价值15K月薪。 这次是要爬取网易新闻,包括新闻...【详细内容】
2019-08-09   Python爬虫  点击:(97)  评论:(0)  加入收藏
很多时候我们做 Python 爬虫时或者自动化测试时需要用到 selenium 库,我们经常会卡在登录的时候,登录验证码是最头疼的事情,特别是如今的文字验证码和图形验证码。文字和图形验证码还加了干扰线,本文就来讲讲怎么绕过登录...【详细内容】
2019-08-05   Python爬虫  点击:(84)  评论:(0)  加入收藏
经常写爬虫的都知道,有些页面在登录之前是被禁止抓取的,比如知乎的话题页面就要求用户登录才能访问,而 “登录” 离不开 HTTP 中的 Cookie 技术。登录原理Cookie 的原理非常简...【详细内容】
2019-07-02   Python爬虫  点击:(206)  评论:(0)  加入收藏
关于cookie和session估计很多程序员面试的时候都会被问到,这两个概念在写web以及爬虫中都会涉及,并且两者可能很多人直接回答也不好说的特别清楚,所以整理这样一篇文章,也帮助自...【详细内容】
2019-06-06   Python爬虫  点击:(444)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条