让你的Pandas代码快得离谱的两个技巧

时间：2024-01-19 16:27:58 来源：微信公众号作者：郭小喵玩AI

如果你曾经使用过Pandas处理表格数据，你可能会熟悉导入数据、清洗和转换的过程，然后将其用作模型的输入。然而，当你需要扩展和将代码投入生产时，你的Pandas管道很可能开始崩溃并运行缓慢。在这篇文章中，笔者将分享2个技巧，帮助你让Pandas代码快得离谱，提升数据处理效率并避免常见的陷阱。

技巧1：矢量化操作

在Pandas中，矢量化操作是一种强大的工具，它可以用一种更简洁和高效的方式处理整个数据框的列，而不是逐行循环。

它是如何工作的？

广播是矢量化操作的一个关键要素，它允许您直观地操作具有不同形状的对象。

eg1: 具有3个元素的数组a与标量b相乘，得到与Source形状相同的数组。

eg2: 在进行加法运算时，将形状为(4,1)的数组a与形状为(3,)的数组b相加，结果会得到一个形状为(4,3)的数组。

关于这一点已经有很多文章，并且在深度学习中，大规模的矩阵乘法是非常常见的。在本文中，我们将利用两个简短的例子上进行讨论。

首先，假设您想要计算给定整数在列中出现的次数。以下是 2 种可能的方法。

"""
计算DataFrame X 中 "column_1" 列中等于目标值 target 的元素个数。

参数：
X: DataFrame，包含要计算的列 "column_1"。
target: int，目标值。

返回值：
int，等于目标值 target 的元素个数。
"""
# 使用循环计数
def count_loop(X, target: int) -> int:
    return sum(x == target for x in X["column_1"])

# 使用矢量化操作计数
def count_vectorized(X, target: int) -> int:
    return (X["column_1"] == target).sum()

现在假设有一个DataFrame带有日期列并希望将其偏移给定的天数。使用矢量化操作计算如下：

def offset_loop(X, days: int) -> pd.DataFrame:
        d = pd.Timedelta(days=days)
    X["column_const"] = [x + d for x in X["column_10"]]
    return X

def offset_vectorized(X, days: int) -> pd.DataFrame:
    X["column_const"] = X["column_10"] + pd.Timedelta(days=days)
    return X

技巧2：迭代

「for循环」

第一个也是最直观的迭代方法是使用Python/ target=_blank class=infotextkey>Python for循环。

def loop(df: pd.DataFrame, remove_col: str, words_to_remove_col: str) -> list[str]:
    res = []
    i_remove_col = df.columns.get_loc(remove_col)
    i_words_to_remove_col = df.columns.get_loc(words_to_remove_col)
    for i_row in range(df.shape[0]):
        res.Append(
            remove_words(
                df.iat[i_row, i_remove_col], df.iat[i_row, i_words_to_remove_col]
            )
        )
    return result

「apply」

def apply(df: pd.DataFrame, remove_col: str, words_to_remove_col: str) -> list[str]:
    return df.apply(
        func=lambda x: remove_words(x[remove_col], x[words_to_remove_col]), axis=1
    ).tolist()

在 df.apply 的每次迭代中，提供的可调用函数获取一个 Series，其索引为 df.columns，其值是行的。这意味着 pandas 必须在每个循环中生成该序列，这是昂贵的。为了降低成本，最好对您知道将使用的 df 子集调用 apply，如下所示：

def apply_only_used_cols(df: pd.DataFrame, remove_col: str, words_to_remove_col: str) -> list[str]:
    return df[[remove_col, words_to_remove_col]].apply(
        func=lambda x: remove_words(x[remove_col], x[words_to_remove_col]), axis=1
    )

「列表组合+itertuples」

使用itertuples与列表相结合进行迭代肯定会更好。itertuples生成带有行数据的（命名）元组。

def itertuples_only_used_cols(df: pd.DataFrame, remove_col: str, words_to_remove_col: str) -> list[str]:
    return [
        remove_words(x[0], x[1])
        for x in df[[remove_col, words_to_remove_col]].itertuples(
            index=False, name=None
        )
    ]

「列表组合+zip」

zip接受可迭代对象并生成元组，其中第i个元组按顺序包含所有给定可迭代对象的第i个元素。

def zip_only_used_cols(df: pd.DataFrame, remove_col: str, words_to_remove_col: str) -> list[str]:
    return [remove_words(x, y) for x, y in zip(df[remove_col], df[words_to_remove_col])]

「列表组合+to_dict」

def to_dict_only_used_columns(df: pd.DataFrame) -> list[str]:
        return [
            remove_words(row[remove_col], row[words_to_remove_col])
            for row in df[[remove_col, words_to_remove_col]].to_dict(orient="records")
        ]

「缓存」

除了我们讨论的迭代技术之外，另外两种方法可以帮助提高代码的性能：缓存和并行化。如果使用相同的参数多次调用 pandas 函数，缓存会特别有用。例如，如果remove_words应用于具有许多重复值的数据集，您可以使用它functools.lru_cache来存储函数的结果并避免每次都重新计算它们。要使用lru_cache，只需将@lru_cache装饰器添加到的声明中remove_words，然后使用您首选的迭代方法将该函数应用于您的数据集。这可以显着提高代码的速度和效率。以下面的代码为例：

@lru_cache
def remove_words(...):
    ... # Same implementation as before

def zip_only_used_cols_cached(df: pd.DataFrame, remove_col: str, words_to_remove_col: str) -> list[str]:
    return [remove_words(x, y) for x, y in zip(df[remove_col], df[words_to_remove_col])]

添加此装饰器会生成一个函数，该函数会“记住”之前遇到的输入的输出，从而无需再次运行所有代码。

「并行化」

最后一张王牌是使用 pandarallel 跨多个独立的 df 块并行化我们的函数调用。该工具易于使用：您只需导入并初始化它，然后将所有 .applys 更改为 .parallel_applys。

from pandarallel import pandarallel
pandarallel.initialize(nb_workers=min(os.cpu_count(), 12))

def parapply_only_used_cols(df: pd.DataFrame, remove_col: str, words_to_remove_col: str) -> list[str]:
    return df[[remove_col, words_to_remove_col]].parallel_apply(
        lambda x: remove_words(x[remove_col], x[words_to_remove_col]), axis=1
    )

Tags：Pandas 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

让你的Pandas代码快得离谱的两个技巧

如果你曾经使用过Pandas处理表格数据，你可能会熟悉导入数据、清洗和转换的过程，然后将其用作模型的输入。然而，当你需要扩展和将代码投入生产时，你的Pandas管道很可能开始崩溃并...【详细内容】

2024-01-19　　Search: Pandas 点击:(78)　　评论:(0)　　加入收藏

Pandas的魅力：从数据处理到机器学习

Part 01、 Series和DataFrame：Pandas的核心Pandas的两个主要数据结构是Series和DataFrame。Series是一维标记数组，类似于Python中的列表。而DataFrame是二维标记数据结构，类似...【详细内容】

2023-12-18　　Search: Pandas 点击:(126)　　评论:(0)　　加入收藏

Python 数据处理，Pandas 使用方式的变局

前段时间在公司技术分享会上，同事介绍了目前市面上关于自动生成 pandas 代码的工具库。我们也尝试把这些工具库引入到工作流程中。经过一段时间的实践，最终还是觉得不适合，不再...【详细内容】

2023-12-12　　Search: Pandas 点击:(156)　　评论:(0)　　加入收藏

一个闪电般快速的 DataFrame 处理库，完美替代 Pandas

众所周知，SQL和Pandas是数据科学领域常用工具，精通这两大工具对数据科学家来说极有价值。而最近，又有一个新的工具库——「Polars」也开始受到青睐。Polars简介Polar...【详细内容】

2023-12-11　　Search: Pandas 点击:(155)　　评论:(0)　　加入收藏

四个解决特定的任务的Pandas高效代码

在本文中，我将分享4个在一行代码中完成的Pandas操作。这些操作可以有效地解决特定的任务，并以一种好的方式给出结果。从列表中创建字典我有一份商品清单，我想看看它们的分布情...【详细内容】

2023-12-06　　Search: Pandas 点击:(176)　　评论:(0)　　加入收藏

Python Pandas数据预处理：你知道数据标准化吗？

数据预处理包括以下几个方面: 缺失值处理数据格式化数据规范化数据标准化数据分箱（分组）标准化经常容易与规范化混淆，但它们指的是不同的东西。规范化涉及将不同比例的度量...【详细内容】

2023-11-27　　Search: Pandas 点击:(147)　　评论:(0)　　加入收藏

如何用Python的pandas库函数重命名列名

题目DataFrame students+-------------+--------+| Column Name | Type |+-------------+--------+| id | int || first | object || last | ob...【详细内容】

2023-10-31　　Search: Pandas 点击:(304)　　评论:(0)　　加入收藏

Python数据分析库 Pandas，数据处理与分析的得力助手！

Python的Pandas库（Python Data Analysis Library）是数据科学家和分析师的得力助手，它提供了强大的数据处理和分析工具，使得数据的导入、清洗、转换和分析变得更加高效和便捷。本...【详细内容】

2023-10-20　　Search: Pandas 点击:(130)　　评论:(0)　　加入收藏

使用Pandas进行时间重采样，充分挖掘数据价值

一、简介时间序列数据蕴含着很大价值，通过重采样技术可以提升原始数据的表现形式。无论你是数据科学家、分析师，还是对数据挖掘感兴趣，都可以从本文学习方法和工具，提升数据可视...【详细内容】

2023-10-17　　Search: Pandas 点击:(315)　　评论:(0)　　加入收藏

向量化操作简介和Pandas、Numpy示例

Pandas是一种流行的用于数据操作的Python库，它提供了一种称为“向量化”的强大技术可以有效地将操作应用于整个列或数据系列，从而消除了显式循环的需要。在本文中，我们将探讨什...【详细内容】

2023-10-16　　Search: Pandas 点击:(263)　　评论:(0)　　加入收藏

▌简易百科推荐

即将过时的 5 种软件开发技能！

作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）时至今日，AI编码工具已经进化到足够强大了吗？这未必好回答，但从2023 年 Stack Overflow 上的调查数据来看，44%...【详细内容】

2024-04-03　　　　51CTO　　Tags:软件开发　点击:(5)　　评论:(0)　　加入收藏

跳转链接代码怎么写？

在网页开发中，跳转链接是一项常见的功能。然而，对于非技术人员来说，编写跳转链接代码可能会显得有些困难。不用担心！我们可以借助外链平台来简化操作，即使没有编程经验，也能轻松实...【详细内容】

2024-03-27　　蓝色天纪　　　　Tags:跳转链接　点击:(12)　　评论:(0)　　加入收藏

中台亡了，问题到底出在哪里？

曾几何时，中台一度被当做“变革灵药”，嫁接在“前台作战单元”和“后台资源部门”之间，实现企业各业务线的“打通”和全域业务能力集成，提高开发和服务效率。但在中台如火如荼之...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:中台　点击:(8)　　评论:(0)　　加入收藏

员工写了个比删库更可怕的Bug！

想必大家都听说过删库跑路吧，我之前一直把它当一个段子来看。可万万没想到，就在昨天，我们公司的某位员工，竟然写了一个比删库更可怕的 Bug！给大家分享一下（不是公开处刑），希望朋友们...【详细内容】

2024-03-26　　dbaplus社群　　　　Tags:Bug 　点击:(5)　　评论:(0)　　加入收藏

我们一起聊聊什么是正向代理和反向代理

从字面意思上看，代理就是代替处理的意思，一个对象有能力代替另一个对象处理某一件事。代理，这个词在我们的日常生活中也不陌生，比如在购物、旅游等场景中，我们经常会委托别人代替...【详细内容】

2024-03-26　　萤火架构　　微信公众号　　Tags:正向代理　点击:(10)　　评论:(0)　　加入收藏

看一遍就理解：IO模型详解

前言大家好，我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢，先问问大家几个问题哈~什么是IO呢？什么是阻塞非阻塞IO？什么是同步异步IO？什么是IO多路复用？select/epoll...【详细内容】

2024-03-26　　捡田螺的小男孩　　微信公众号　　Tags:IO模型　点击:(8)　　评论:(0)　　加入收藏

为什么都说 HashMap 是线程不安全的？

做Java开发的人，应该都用过 HashMap 这种集合。今天就和大家来聊聊，为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说，HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】

2024-03-22　　Java技术指北　　微信公众号　　Tags:HashMap 　点击:(11)　　评论:(0)　　加入收藏

如何从头开始编写LoRA代码，这有一份教程

选自 lightning.ai作者：Sebastian Raschka机器之心编译编辑：陈萍作者表示：在各种有效的 LLM 微调方法中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大...【详细内容】

2024-03-21　　机器之心Pro　　　　Tags:LoRA 　点击:(12)　　评论:(0)　　加入收藏

这样搭建日志中心，传统的ELK就扔了吧！

最近客户有个新需求，就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的...【详细内容】

2024-03-20　　dbaplus社群　　　　Tags:日志　点击:(4)　　评论:(0)　　加入收藏

Kubernetes 究竟有没有 LTS？

从一个有趣的问题引出很多人都在关注的 Kubernetes LTS 的问题。有趣的问题2019 年，一个名为 apiserver LoopbackClient Server cert expired after 1 year[1] 的 issue 中提...【详细内容】

2024-03-15　　云原生散修　　微信公众号　　Tags:Kubernetes 　点击:(5)　　评论:(0)　　加入收藏

推荐资讯

访问网站显示不安全是	掌握独立站SEO策略，提
快手蓝色小钥匙跳转微	微信朋友圈如何置顶
Facebook新用户扩展怎	详解微信里面的分期可
微信表情包更新：原创设	微信朋友圈功能大改版