从头开始进行CUDA编程：流和事件

前两篇文章我们介绍了如何使用GPU编程执行简单的任务，比如令人难以理解的并行任务、使用共享内存归并（reduce）和设备函数。为了提高我们的并行处理能力，本文介绍CUDA事件和如何使用它们。但是在深入研究之前，我们将首先讨论CUDA流。, 20230306131225746a53c76f903ef362c53882fdb9a4b939836c645 ,导入和加载库，确保有一个GPU。,当我们启动内核（函数）时，它会在 GPU 中排队等待执行，GPU 会顺序按照启动时间执行我们的内核。设备中启动的许多任务可能依赖于之前的任务，所以“将它们放在同一个队列中”是有道理的。例如，如果将数据异步复制到 GPU 以使用某个内核处理它，则复制的步骤本必须在内核运行之前完成。,但是如果有两个相互独立的内核，将它们放在同一个队列中有意义吗？不一定！因为对于这种情况，CUDA通过流的机制来进行处理。我们可以将流视为独立的队列，它们彼此独立运行，也可以同时运行。这样在运行许多独立任务时，这可以大大加快总运行时间。, 202303061314406607c94116274066aa0987a10fc994112b0ab6317 ,我们这里演示一个简单的任务。给定一个数组 a，然后将用规范化版本覆盖它：,解决这个简单的任务需要使用三个内核。第一个内核 partial_reduce 将是上一篇文章中进行的归并操作的代码。它将返回一个 threads_per_block 大小的数组，把它传递给另一个内核 single_thread_sum，single_thread_sum将进一步将其缩减为单例数组（大小为 1）。这个内核将在单个线程的单个块上运行。最后还使用 divide_by 将原始数组除以我们计算的总和最后得到我们的结果。所有这些操作都将在 GPU 中进行，并且应该一个接一个地运行。,当内核调用和其他操作没有指定流时，它们会在默认流中运行。默认流是一个特殊的流，它的行为取决于运行的参数是legacy 还是per-thread。对于我们来说，在非默认流中运行任务就足够了。下面我们看看如何运行我们的三个内核：,这里还有一个需要强调的内容：cuda.pinned。这是上下文管理器创建一种特殊类型的内存，称为页面锁定或固定内存，CUDA 在将内存从主机传输到设备时使用它会提高速度。,位于主机 RAM 中的内存可以随时进行分页，也就是说操作系统可以偷偷地将对象从 RAM 移动到硬盘。这样做是为了将不经常使用的对象移动到较慢的内存位置，从而将快速的 RAM 内存留给更需要的对象。而是 CUDA 不允许从可分页对象到 GPU 的异步传输。这是因为磁盘（分页）→ RAM → GPU是非常缓慢的传输流。,要异步传输数据，我们必须通过某种方式防止操作系统偷偷将数据隐藏在磁盘中的某个地方，这样可以保证数据始终位于 RAM 中。这就是cuda.pinned的作用，它创建了一个上下文，在该上下文中参数将被“锁定”，即强制位于 RAM 中。见图 3.2。, 20230306131227a77682201a1e15636954891784e1ca84ff3349381 ,这样代码就非常简单了。创建一个流，然后将其传递给要对该流进行操作的每个 CUDA 函数。Numba中CUDA 内核配置（方括号）要求流位于块维度大小之后的第三个参数中。,一般情况下，将流传递给 Numba CUDA API 函数不会改变它的行为，只会改变它在其中运行的流。一个例外是从设备到主机的复制。但是有一个例外，当调用 device_array.copy_to_host()（不带参数）时复制是同步进行的。当调用 device_array.copy_to_host(stream=stream)（使用流）时，如果 device_array 没有pinned，复制也会同步进行。如果pinned并传递了流，则复制只会异步进行。,一个有用的提示：Numba 提供了一个有用的上下文管理器，可以在其上下文中排队所有操作；退出上下文时，操作将被同步，包括内存传输。所以例3.1也可以写成：,假设我们要normalize的是多个数组。每一个单独数组的归一化操作是完全相互独立的。但是GPU会等到一个标准化结束后才开始下一个标准化，这样不会享受到并行化带来的提升。所以我们可以把这些任务分成不同的流。,让我们看一个规范化10个数组的例子——每个数组都使用自己的流。,下面代码与单个流进行比较：,哪一个更快呢?当使用多个流时并没有看到总时间改进。这可能有很多原因。例如，对于并发运行的流，本地内存中必须有足够的空间。英伟达提供了几个工具来调试CUDA，包括调试CUDA流。请查看他们的Nsight Systems了解更多信息。,CPU 的运行流程的问题之一是它会比 GPU 的包含更多的操作。,所以可以使用 CUDA 直接从 GPU 对事件进行操作时间的记录。事件只是 GPU 中发生某事的时间寄存器。在某种程度上，它类似于 time.time 和 time.perf_counter，但与它们不同的是，我们需要处理的是：从 CPU进行编程，从 GPU 为事件计时。,所以除了创建时间戳（“记录”事件）之外，我们还需要确保事件与 CPU 同步，这样才能对其进行访问。让我们检查一个简单的例子。,为GPU操作计时的一个有用方法是使用上下文管理器:,我们将计时器和CUDA中的流进行结合，完成本文的最终目标：,CUDA是高性能的。在本教程中，介绍了如何使用事件准确地测量内核的执行时间，这种方法可用于分析代码。还介绍了流以及如何使用它们始终保持gpu的占用，以及映射数组如何改善内存访问。以下是本文的源代码：,https://colab.research.google.com/drive/1iRUQUiHUVdl3jlKzKucxQHQdDPElPb3M?usp=sharing