图像处理的GPU加速技术研究与评价

资源ID：51173156 资源大小：149.00KB 全文页数：5页
资源格式： DOC 下载权限：游客/注册会员 下载费用：10积分【人民币10元】

快捷注册下载

会员登录下载

三方登录下载：

下载资源需要10积分【人民币10元】

邮箱/手机：
温馨提示：	支付成功后，系统会自动生成账号（用户名和密码都是您填写的邮箱或者手机号），方便下次登录下载和查询订单；
支付方式：
验证码：	换一换

下载资源需要10积分【人民币10元】

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，既可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰

网站客服

侵权投诉

图像处理的GPU加速技术研究与评价

图像处理的GPU加速技术研究与评价刘伟峰蒋楠宋付英孟凡密陈芳莉（中国石油化工股份有限公司石油勘探开发研究院信息技术研究所，北京，100083, ）摘要针对大多数图像处理问题的计算密集性，提出了图像处理的GPU加速技术。首先，描述了相对于CPU,采用GPU能够带来计算效率提升的体系结构基础。其次，将直方图生成和快速伸里叶变换计算二维卷积两个具有代表性的图像处理算法移植至GPU。最后，利用同样市场价格组合的CPU和GPU进行实验，利用多分辨率图像作为测试数据，比对CPU和GPU方案的计算效率。结果显示，与相同算法的CPU实现相比，其GPU实现分别将计算效率最高提高到了 17倍和40倍。关键词图形处理器；直方图快速伸里叶变换二维卷积统一计算设备架构 uation and Comparative Research of GPU Acceleration Techniques of Image Processing LIU Wei-feng, JIANG Nan, SONG Fu-ying, MENG Fan-mi, CHEN Fang-1 i Ination and Technology Station, SINOPEC Exploration Production Research Insiituie, Beijing 100083 Abstract For 由e compute-intensive character o「image processing, we propose GPU acceleration techniques of image processing. In this paper, first, we describe the efiicienl architecture of* GPU. Second, we implement two representative image processing algorithms, histogram generation and Fast Fourier Transation-based two-dimensional convolution, on GPU. Finally, using the same market price CPU and GPU as hardware plat, and using multi-rcsolution images as test datasets, we compare the computational efficiency of GPU with CPU. The results show the speed of the two algori由ms implemented on GPU can be improved by up to 17 times and 40 times compared to CPU-based implementations. Keywords GPU； histogram； FFT； 2D convolution CUDA 1引言随肴科学技术的迅猛发展，图像处理技术巳经成为了近代信息处理领域一项非常重要的技术，并 2在遥感、医学、生物特征鉴别、运动分析等领域得到了广泛应用。由于大多数图像处理问题是计算密集型的，所以许多串行处理方法在应用中遇到了难以实时计算的困难。随看并行计算机及并行处理技术的发展，并行图像处理技术应运而生，但这些技术往往要么运行于大型集群上，要么还在被作为测试并行机性能的辅助技术使用，其推广完全受制于硬件环境的推广。本文利用已被广泛接受并使用的 GPU （graphics processing unit,图形处理器）作为硬件载体，在其上并行地实现了两个图像处理的常用算法一一直方图生成和快速傅里叶变换计算二维卷积，并对其执行性能数据与CPU上的相同算法执行性能数据进行了比对。实验结果显示，同样的图像处理算法，GPU组合对比于同样市场价格的CPU,其计算效率是后者的17-40倍。可得出结论，将原有CPU执行的算法移植至GPU执行能够获得很高的效率提升，而且是经济、可行的。 2 GPU介绍过去的二十年间，中央处理器遵循摩尔定律发展，在不断提升性能的同时降低价格，为高性能计算提供了有效的支持。然而，自2003年以来，这种趋势发生了变化，不断提高的CPU频率带来了高功耗和高发热量，使得CPU频率止步于4 GHz, 并向提高频率以外的方向发展。从那时起，以游戏加速和图形处理为初衷设计的GPU以超出摩尔定律的速度发展，并开始在高性能计算领域被大量使用。图1为近年来CPU和GPU的浮点运算速度对图1 GPU和CPU的FLOPS理论峰值 Fig.l Theoretical peak FLOPS on GPUs and CPUs 带来这种数据处理能力差别的主要原因在于 GPU是典型的关注于计算而不太在乎如何访问存储器的流处理机，流式编程模型的约束使得GPU 以并行的方式证行高运算强度arithmetic intensity, 即算法运算时间开销和存储器操作时间开销的比率的应用，因此可以同时处理很多数据元素。一般来讲，能够在GPU上高效执行的算法都是可将问题分割为高度独立单元且每个单元都具有高运算强度的算法。高度重复且仅局部相关的图像处理属于这一类算法，例如，滤波运算对所有像素执行同样的运算，而且是处理顺序无关的，这样的运算可以通过对每个像素执行相同的指令在GPU上并行实现。 2.1体系结构 GPU的流式数据并行模型保证在多数据流上执行相同指令，以nVidia G80核心为代表的GPU 包含1・16个多处理器multiprocessors,每个多处理揣包含8个流处理揣stream processors和2个专用于执行如平方根倒数等标量运算的特殊功能单元special functional unitso其中一个多处理器内部的所有流处理器以SIMD 单指令多数据的结构执行同样指令，而不同的多处理器可以以 MIMD 多指令多数据结构执行不同的指令。从线程角度讲，每个多处理嘴可并行运行768个活动线程，即包含16个多处理器的GPU可并行运行 12288个活动线程。从存储器角度讲，每个多处理器有16 KB可读写共享内存shared memory8 KB 只读常量内存constant memory8 KB只读纹理内存texture memory和 8192 个寄存器Registers0 图2表示了这种架构。在图像处理的GPU加速算法设计中，如何针对这种架构分割像素或图像块以映射到并行线程进行处理，再经由多级存储器将被处理的像素或图像块重新组合成结果图像是高效算法设计的关键。图2 nVidia G80 GPU架构简图N 1,2, 4, 8, 12, 14,

注意事项

本文（图像处理的GPU加速技术研究与评价）为本站会员（aaakkpc）主动上传，蚂蚁文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知蚂蚁文库（发送邮件至2303240369@qq.com或直接QQ联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。