今天遇到的Python多线程、多进程中的几个坑

2015-07-03

今天在写oj的判题端的时候犯了一个低级错误，就是为了加快判题速度，我就采用了多线程多组用例同时运行的方法，但是后来不经意的发现，明明跑的很快的程序到了我这实际运行时间就变成了好几倍，而cpu时间并没有太大的变化。

我开始怀疑是runner的问题，因为以前使用ptrace的runner的时候，ptrace会在进程用户态和内核态之间反复的检查，导致程序运行缓慢。但是我手动的使用命令行启动runner运行的时候，发现并没有问题，cpu时间和实际运行时间几乎一样的。我就开始怀疑是我的Python代码的问题，后来恍然大悟，为了能让cpu时间更长一些，方便测试，我写了一个时间复杂度很高的c程序，这是在运行一个cpu密集型的应用啊，而由于GIL的存在，Python多线程并不适合干这个，这个场景应该使用多进程。更详细的解释参考 http://www.oschina.net/translate/pythons-hardest-problem

下面是我的测试数据，

1//多线程
2//两组用例同时运行
3{'cpu_time': 3543.0, 'real_time': 13384.0, 'test_case_id': 2}
4{'cpu_time': 3592.0, 'real_time': 13688.0, 'test_case_id': 1}
5
6//只有一组测试用例
7{'cpu_time': 3612.0, 'real_time': 6856.0, 'test_case_id': 1}

很明显的结果，下面是采用了多进程之后的测试数据

1//多进程
2//两组用例同时运行
3{'cpu_time': 4110.0, 'real_time': 4250.0, 'test_case_id': 2}
4{'cpu_time': 4121.0, 'real_time': 4298.0, 'test_case_id': 1}
5
6//一组用例
7{'cpu_time': 3861.0, 'real_time': 4040.0, 'test_case_id': 1}

好了，其实我不是专门想说这个的了，因为这是一个愚蠢的问题。我要记录一下今天遇到的三个多进程中的问题:

第一个问题

PicklingError: Can't pickle <type 'instancemethod'>: attribute lookup __builtin__.instancemethod failed

poc如下

 1from multiprocessing import Pool
 2
 3
 4class Runner(object):
 5    def func(self, i):
 6        print i
 7        return i
 8
 9
10runner = Runner()
11pool = Pool(processes=5)
12for i in range(5):
13    pool.apply_async(runner.func, (i, ))
14pool.close()
15pool.join()

这个问题只出现在Python2上，Python3没有问题。这是因为多进程之间要使用pickle来序列化并传递一些数据，但是实例方法并不能被pickle，参见Python文档，可以被pickle的类型列表，还有在Python3中实例方法可以被pickle了，见Python bug list

最简单的解决办法就是写一个可以被pickle的函数代理一下

 1from multiprocessing import Pool
 2
 3
 4def run(cls_instance, i):
 5    return cls_instance.func(i)
 6
 7
 8class Runner(object):
 9    def func(self, i):
10        print i
11        return i
12
13
14runner = Runner()
15pool = Pool(processes=5)
16for i in range(5):
17    pool.apply_async(run, (runner, i))
18pool.close()
19pool.join()

还有一个方法已经被指出可能存在缺陷了，就是这个人第一个例子，但是我不知道为什么一个类可以被析构多次呢？是不是这个类实例化一次以后就被复制到了各个进程上，然后再单独进行的析构呢。这个人第二个例子是反驳的__call__方法的，我没法运行，总是提示 Can't pickle <type 'instancemethod'>: attribute lookup __builtin__.instancemethod failed，估计是一样的原因。

第二个问题

pool作为实例变量的时候出错 pool objects cannot be passed between processes or pickled

把上面的例子稍微的改造了一下，

 1from multiprocessing import Pool
 2
 3
 4def run(cls_instance, i):
 5    return cls_instance.func(i)
 6
 7
 8class Runner(object):
 9    def __init__(self):
10        pool = Pool(processes=5)
11        for i in range(5):
12            pool.apply_async(run, (self, i))
13        pool.close()
14        pool.join()
15
16    def func(self, i):
17        print i
18        return i
19
20
21runner = Runner()

把pool放在实例内部了，使用外部函数代理，运行正常。但是如果把里面的pool都换成self.pool的话，就会出现上面的错误。原因是在pickle传递给pool的对象的时候，这个对象就包含pool这个实例变量，它不能被pickle，造成错误。而不使用self的话，那就是__init__方法的一个局部变量，不受影响。解决方法就是自己实现__getstate__方法，它是决定什么需要pickle的函数，我们删除掉pool，不让它pickle就好了。__setstate__作用是相反的，是用来增加实例变量的。

看例子

 1from multiprocessing import Pool
 2
 3
 4def run(cls_instance, i):
 5    return cls_instance.func(i)
 6
 7
 8class Runner(object):
 9    def __init__(self):
10        self.pool = Pool(processes=2)
11        self.var = 10
12        for i in range(2):
13            self.pool.apply_async(run, (self, i))
14        self.pool.close()
15        self.pool.join()
16
17    def func(self, i):
18        print i
19        return i
20
21    def __getstate__(self):
22        self_dict = self.__dict__.copy()
23        print self.__dict__
24        del self_dict['pool']
25        return self_dict
26
27    def __setstate__(self, state):
28        print state
29        self.__dict__.update(state)
30
31
32runner = Runner()

输出是

1{'var': 10, 'pool': <multiprocessing.pool.Pool object at 0x102e99790>}
2{'var': 10, 'pool': <multiprocessing.pool.Pool object at 0x102e99790>}
3{'var': 10}
40
5{'var': 10}
61

也就是实例在unpickle的时候丢了pool这个变量，但是我们也不需要了，所以可以这样解决问题。

第三个问题

子进程引发的异常怎么消失了？

 1from multiprocessing import Pool
 2
 3
 4def run(cls_instance, i):
 5    return cls_instance.func(i)
 6
 7
 8class Runner(object):
 9    def __init__(self):
10        self.pool = Pool(processes=2)
11        self.var = 10
12        for i in range(2):
13            self.pool.apply_async(run, (self, i))
14        self.pool.close()
15        self.pool.join()
16
17    def func(self, i):
18        if i == 1:
19            raise ValueError("xxx")
20        print i
21        return i
22
23    def __getstate__(self):
24        self_dict = self.__dict__.copy()
25        del self_dict['pool']
26        return self_dict
27
28    def __setstate__(self, state):
29        self.__dict__.update(state)
30
31
32runner = Runner()

只能打印出一个0来，当i为1的时候有一个异常啊，怎么没显示出来。在文档中这么说的

get([timeout]) Return the result when it arrives. If timeout is not None and the result does not arrive within timeout seconds then multiprocessing.TimeoutError is raised. If the remote call raised an exception then that exception will be reraised by get().

apply_async返回的是AsyncResult，其中出现的异常只有在调用AsyncResult.get()的时候才会被重新引发。

 1from multiprocessing import Pool
 2
 3
 4def run(cls_instance, i):
 5    return cls_instance.func(i)
 6
 7
 8class Runner(object):
 9    def __init__(self):
10        self.pool = Pool(processes=2)
11        results = []
12        for i in range(2):
13            results.append(self.pool.apply_async(run, (self, i)))
14        self.pool.close()
15        self.pool.join()
16        for i in range(2):
17            print results[i].get()
18
19    def func(self, i):
20        if i == 1:
21            raise ValueError("xxx")
22        return i
23
24    def __getstate__(self):
25        self_dict = self.__dict__.copy()
26        del self_dict['pool']
27        return self_dict
28
29    def __setstate__(self, state):
30        self.__dict__.update(state)
31
32
33runner = Runner()

这样就能看到异常了。

#Python | 微信打赏 | 转载必须注明原文链接

欢迎评论

ᕦʕ •ᴥ•ʔᕤ

提交中...