Python 多核并行计算在海量星表交叉证认中的应用

时间:2019-10-30 07:43来源:计算机教程
Python 多核并行计算在海量星表交叉证认中的应用 在讨论进程和线程之前,我们先讨论一下cpu的核心数的概念 那我的电脑举例,cpu的型号是:i53317u,这是一颗双核心四线程的处理器。一

Python 多核并行计算在海量星表交叉证认中的应用

在讨论进程和线程之前,我们先讨论一下cpu的核心数的概念

那我的电脑举例,cpu的型号是:i5 3317u,这是一颗双核心四线程的处理器。一般来说,都是一个核心,运行一个线程,那为什么这个两核的处理器,可以运行四个线程?

找到一个解释:

vnsc5858威尼斯城官网,现在的cpu都利用特殊的硬件指令,把两个物理内核模拟为四个逻辑内核,让单个处理器都能使用线程级并行计算。进而兼容多线程操作系统和软件,减少了CPU的闲置时间,提高的CPU的运行效率。

也就是说,从硬件的角度来看,他是两个核心,从操作系统的角度看,他是四个核心。

当然这一点也很方便的可以从操作系统的层面上证实:
打开任务管理器>性能>右键 将图形更改为 >逻辑处理器

vnsc5858威尼斯城官网 1

image.png

通过python也可以的到,机器的核心数。
这个要import multiprocessing

vnsc5858威尼斯城官网 2

image.png

vnsc5858威尼斯城官网 3

image.png

这是我的虚拟机,只给它分配了一个核。

vnsc5858威尼斯城官网 4

这是我的虚拟机的情况 它只有一个核.png

本文在高丹等人的工作基础上, 选用Python和C 语言改写了交叉证认程序, 采用HTM 划分方法分割星表数据, 并利用Python 的subprocess 模块发起多个子进程来实现并行计算, 在获得较高灵活性的同时, 大幅提升了程序性能.

现在我们来讨论进程和线程

进程
那么对于计算量比较大的程序,我们可以使用多进程的模型来开发。多个进程分别运行在cpu的多个核上面,可以成倍的提高效率。但如果同时运行进程大于CPU核心数,则至少有个核心要同时运行2个或以上的任务,这样的并发执行中会带来任务的切换开销,降低效率。

线程

因为Python的线程虽然是真正的线程,但解释器执行代码时,有一个GIL锁:Global Interpreter Lock,任何Python线程执行前,必须先获得GIL锁,然后,每执行100条字节码,解释器就自动释放GIL锁,让别的线程有机会执行。这个GIL全局锁实际上把所有线程的执行代码都给上了锁,所以,多线程在Python中只能交替执行,即使100个线程跑在100核CPU上,也只能用到1个核。
GIL是Python解释器设计的历史遗留问题,通常我们用的解释器是官方实现的CPython,要真正利用多核,除非重写一个不带GIL的解释器。
所以,在Python中,可以使用多线程,但不要指望能有效利用多核。如果一定要通过多线程利用多核,那只能通过C扩展来实现,不过这样就失去了Python简单易用的特点。
不过,也不用过于担心,Python虽然不能利用多线程实现多核任务,但可以通过多进程实现多核任务。多个Python进程有各自独立的GIL锁,互不影响。

所以,多线程(cpu密集型的任务)在python下面其实很鸡肋,因为无论创建多少线程,这些线程只会运行在一个核心上面。

举一个例子

#对于一个cpu密集型的任务,计算斐波那契数列。
#类别一:分别用两个线程 ,每一个各自计算一个fib(35)
#类别二:用一个单线程,计算两次fib(35)
#比较一下 他们两个谁更快?

import time 
import threading 

def profile(func):
    def wrapper(* args ,**kwargs):
        start =time.time()
        func(*args,**kwargs)
        end =time.time()
        print ("COST : {}".format(end-start))
    return wrapper 

def fib(n):
    if n <=2:
        return 1
    else:
        return fib(n-1) fib(n-2)

@profile
def has_thread():
    threadlist=[]
    threadlist.append(threading.Thread(target=fib,args=(35,)))
    threadlist.append(threading.Thread(target=fib,args=(35,)))

    for i in threadlist:
        i.start()

    for i in threadlist:
        i.join()

@profile
def no_thread():
    fib(35)
    fib(35)

if __name__ == "__main__":
    has_thread()
    no_thread()

结果是,单线程比多线程还快:

vnsc5858威尼斯城官网 5

2018-01-24 22-06-28屏幕截图.png

原因是多线程以为gil的限制,并没有办法真正的并行,只是交替的占用cpu,同时在加上线程切换的开销。导致结果比单线程还差。

1 编程语言的选择

Python是一种面向对象的、解释型的程序设计语言, 开源、免费, 语法简明,功能强大, 运行稳定, 既可用来快速编写脚本程序,也可用来开发大规模的应用软件, 应用十分广泛.

Python 拥有极其丰富的类库, 使开发变得容易. 针对运行速度慢的问题, Python 提供了面向C/C 语言的应用程序编程接口, 程序员可使用C/C 编写扩展模块, 从而提升Python 程序的执行性能. 由于诸多优点, 越来越多的科研项目开始使用Python 来开发应用程序.

因此, 我们选用Python 语言来编写程序主体,以提升开发效率; 核心计算部分用C 语言写成Python 模块, 以提高程序的计算性能.

2 Python 并行计算方法

编辑:计算机教程 本文来源:Python 多核并行计算在海量星表交叉证认中的应用

关键词: