您现在的位置是：网站首页> 编程资料编程资料

Pandas 多进程处理数据提高速度_python_

2023-05-26 445人已围观

简介 Pandas 多进程处理数据提高速度_python_

1、单进程

在交互式环境中输入如下命令：

'''单进程''' import jieba import re import time import pandas as pd def filter_emoji(desstr, restr=''):     if (desstr is None) or str(desstr) == 'nan':         return ''     # 过滤表情     try:         co = re.compile(u'[\U00010000-\U0010ffff]')     except:         co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')     return co.sub(restr, desstr) if __name__ == '__main__':     start = time.time()     data = pd.read_csv('feike.csv',encoding='gbk')     data['comment'] = data['comment'].map(filter_emoji)     data['title'] = data['title'].map(filter_emoji)     data['comment'] = data['comment'].map(lambda s: jieba.lcut(s))     data['title'] = data['title'].map(lambda s: jieba.lcut(s))     end = time.time()     print(end - start)

输出：

在单进程的情况下，可以看到用时 294s，接近 5min 了。

2、多进程

multiprocessing多进程写法，这种写法网上一搜一大把，代码没有错，多进程任务可以执行。

例如run_task 函数中的任务是爬虫代码时，没有什么问题，但如果是数据清洗的代码，我测试就很久都跑不出来：

接下来换成Pandas多进程 pandarallel 的写法就可以：

'''pandarallel 多进程''' import jieba import re import time import pandas as pd from pandarallel import pandarallel pandarallel.initialize(nb_workers=4) def filter_emoji(desstr, restr=''):     if (desstr is None) or str(desstr) == 'nan':         return ''     # 过滤表情     try:         co = re.compile(u'[\U00010000-\U0010ffff]')     except:         co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')     return co.sub(restr, desstr) if __name__ == '__main__':     start = time.time()     data = data = pd.read_csv('feike.csv',encoding='gbk')      data['comment'] = data['comment'].parallel_apply(filter_emoji)     data['title'] = data['title'].parallel_apply(filter_emoji)     data['comment'] = data['comment'].parallel_apply(lambda s: jieba.lcut(s))     data['title'] = data['title'].parallel_apply(lambda s: jieba.lcut(s))     end = time.time()     print(end - start)

输出：