五月激情天,日一区二区三区,国产福利在线永久视频,2020国产成人精品视频网站,国产网站在线免费观看,善良的嫂子3在线观看

樹人論文網(wǎng)一個專業(yè)的學(xué)術(shù)咨詢網(wǎng)站!!!
樹人論文網(wǎng)

基于FTM算法的GPU加速分析

來源: 樹人論文網(wǎng)發(fā)表時間:2020-12-15
簡要:摘要:為保障GPU加速方案的可行性,提升GPU的計算效率。本文結(jié)合FTM算法的應(yīng)用參數(shù),提出將FIM算法應(yīng)用在GPU加速中的運行試驗方案。借此在CUDA程序支撐下,控制FIM算法的計算時限,優(yōu)

  摘要:為保障GPU加速方案的可行性,提升GPU的計算效率。本文結(jié)合FTM算法的應(yīng)用參數(shù),提出將FIM算法應(yīng)用在GPU加速中的運行試驗方案。借此在CUDA程序支撐下,控制FIM算法的計算時限,優(yōu)化GPU的加速設(shè)計,為我國數(shù)值模擬技術(shù)的創(chuàng)新發(fā)展奠定基礎(chǔ)。

科學(xué)與技術(shù)

  本文源自科學(xué)與技術(shù)【2020年第23期】《科學(xué)與技術(shù)》雜志堅持以科學(xué)技術(shù)是第一生產(chǎn)力的思想為宗旨。以馬克思列寧主義、毛澤東思想、鄧小平理論和“三個代表”重要思想為指導(dǎo),促進科學(xué)技術(shù)的繁榮和發(fā)展,促進科學(xué)技術(shù)的普及和推廣,促進科學(xué)技術(shù)人才的成長和提高,促進科學(xué)技術(shù)與經(jīng)濟的結(jié)合,致力為讀者打造成一份學(xué)術(shù)性、知識性和動態(tài)性的雜志。

  關(guān)鍵詞:FTM算法;GPU加速;計算;CUDA

  引言:FIM算法在實際運用中,存在較為突出的計算耗時、并行性能薄弱等問題,而GPU運算能力的開發(fā)為FIM算法帶來更多可能性。因此,文章以GPU加速為思路,對FTM算法提升GPU計算效率的可行性展開分析,旨在通過GPU加速目標的實現(xiàn),驗證FTM算法與圖像處理器運算功能的融合價值。

  一、FTM算法的應(yīng)用參數(shù)

  現(xiàn)代社會中,圖像處理器GPU在各領(lǐng)域的實踐價值不斷凸顯,其運算能力在浮點運算技術(shù)開發(fā)中明顯增強。在GPU利用過程中,CUDA是支撐GPU的核心軟件,能夠簡化GPU運算流程,增強GPU計算能力[1]。FTM算法與GPU聯(lián)合運用,是利用該算法的數(shù)學(xué)方程特性,高精度的捕捉GPU運動界面的數(shù)據(jù),優(yōu)化計算資源配置,其在GPU加速中的應(yīng)用參數(shù),主要體現(xiàn)在FTM算法中的N-S控制方程中。在將N-S控制方程滲透在GPU加速計算中時,運動界面的表面張力可集中在同一界面中,需要將其作為體積力乘δ函數(shù),并給出GPU加速界面中的動量方程(1)。

  

5fd0713f64932_html_fc500d30a62ac3c2.gif

 

  (1)

  公式(1)中,Xf表示GPU界面的實際位置,ρ為圖像數(shù)據(jù)運算中的密度場,μ為粘度場,k為計算界面的平均曲率。在利用該公式,計算出界面上的“表面張力”后,可對應(yīng)的完善FTM算法應(yīng)用中的函數(shù)迭代精度、擴散項、流項的最小值,為GPU加速打好基礎(chǔ)。

  二、GPU加速中的CUDA架構(gòu)

  GPU中含有的CUDA組分為該程序的主機、核心設(shè)備。當(dāng)CUDA主機通過內(nèi)核函數(shù),將CPU轉(zhuǎn)換為GPU時,程序中的CPU的主要功能在于輔助GPU的海量運算任務(wù),比如建立計算邏輯模型、支撐數(shù)據(jù)串行計算與并行計算等[2]。另外,GPU加速中的CUDA程序,其在內(nèi)核函數(shù)運行期間,其任務(wù)執(zhí)行的最小單位通常為線程,可在GPU計算中讀取共享內(nèi)存。但是由于CUDA架構(gòu)中緩存器的存儲空間有限,使得該程序中常量、共享、紋理等存儲器儲存大小無法滿足GPU加速要求,所以在應(yīng)用FTM算法時,需要結(jié)合各類存儲器的功能優(yōu)勢,靈活的完善GPU的運行性能。

  三、基于FTM算法的GPU加速方法

  (一)引入共享內(nèi)存,劃分計算區(qū)域

  FIM算法在將N-S控制方程中的表面張力單項提取后,可利用差分將擴散項、計算臨時速度、對流項等數(shù)值引入GPU加速運算中[3]。具體來說,首先,運用速度離散方程,緩解海量數(shù)據(jù)的計算壓力,并將該方程中的數(shù)據(jù)量轉(zhuǎn)移至計算網(wǎng)格內(nèi)完成計算工作。在此期間,為實現(xiàn)GPU的并行加速計算目標,需將CUDA架構(gòu)中的最小單位線程作為計算節(jié)點。從而在計算網(wǎng)格過大后,以線程為節(jié)點對計算區(qū)域進行劃分。相關(guān)人員在CUDA程序運行中,利用線程將FIM算法中的計算區(qū)域構(gòu)建為線程塊,分解GPU計算數(shù)據(jù),有效改善著GPU的計算性能。

  比如在使用“五點差分”時,GPU加速過程中計算節(jié)點(x,y)時,需要同時訪問該節(jié)點周邊計算區(qū)域的各個元素(x,y-1)、(x,y+1)、(x+1y),且節(jié)點中的數(shù)據(jù)訪問次數(shù)要求較高,平均訪問次數(shù)為5次。但是利用五點差分直接訪問全局內(nèi)存中的計算數(shù)據(jù)時,GPU的整體計算效率較低,原因在于全局內(nèi)存中數(shù)據(jù)讀寫速度受限,使得GPU計算速度難以提升,制約著FIM算法的合并訪存。若引入共享內(nèi)存,GPU運算時的訪問速度明顯加快,其在FIM算法的作用下,可一次性讀取計算節(jié)點中的各個元素,并以多個線程為單位,同步訪問各節(jié)點的共享內(nèi)存,提升GPU計算效率。

  在此期間,若計算區(qū)域中,共享內(nèi)存內(nèi)所存儲的節(jié)點數(shù)據(jù)僅與CUDA程序中的線程塊相對應(yīng),GPU加速計算時,同樣需要方位線程周邊數(shù)據(jù)。然而由于各線程塊未能建立通信渠道,其數(shù)據(jù)共享功能不足時,GPU加速時依然需要訪問“全局內(nèi)存”,并根據(jù)FIM算法中的邏輯語句,評估各節(jié)點與線程塊的位置關(guān)系,明確計算區(qū)域的分支[4]。但是在GPU具體運算時,線程為執(zhí)行單位時,F(xiàn)IM算法中計算區(qū)域多由線程束組成,而線程束是由程序中的32個最小單位線程構(gòu)成。之后,GPU可利用線程束控制對應(yīng)的線程,計算各節(jié)點的實際數(shù)據(jù)。通常情況下,F(xiàn)IM算法應(yīng)用中,線程束、線程接收到同一執(zhí)行指令后,CUDA程序在完成各分支的計算工作時,各節(jié)點數(shù)據(jù)計算效率不佳,需要在線程設(shè)定時,提前利用共享內(nèi)存劃分計算區(qū)域,從而提高該程序運行效率,為FIM算法、GPU運算速度的有效提升創(chuàng)造條件。

  (二)應(yīng)用迭代處理,提升訪存效率

  在利用FIM算法,對GPU進行加速處理時,該算法在數(shù)據(jù)加速計算中所用的壓力泊松方程,以及粘度場、密度場分析中,均需利用SOR迭代處理完成求解工作。然而FIM算法中,其迭代處理并行性不佳,需要將原有的SOR迭代法轉(zhuǎn)變?yōu)榧t黑迭代法,提升FIM算法在GPU加速中的并行性。

  具體來說,實現(xiàn)CPU加速時,紅黑迭代法可在計算區(qū)域中,直接將運算數(shù)據(jù)劃分為紅黑兩組。計算過程中,紅黑兩組數(shù)據(jù)會在計算網(wǎng)格中處于相互環(huán)繞的狀態(tài),并且在黑色組中的數(shù)據(jù)Q1更新后,周圍紅色組在計算中其物理參數(shù)可逐漸修正。基于此種迭代處理模式,計算Q1、Q2等數(shù)據(jù)時,紅色組、黑色組的數(shù)據(jù)計算可并行完成,便于GPU在FIM算法的壓力數(shù)值求解中快速完成計算任務(wù)。

  另外,在GPU加速中提升FIM算法訪存效率時,同樣可通過迭代處理將數(shù)據(jù)分組,從而使紅色組、黑色組的數(shù)據(jù)存儲地址具有連續(xù)性,并在提升GPU訪存效率的基礎(chǔ)上,避免CUDA程序的存儲空間增大[5]。同時在GPU利用FIM算法完成黑色組、紅色組的數(shù)據(jù)計算后,可根據(jù)數(shù)據(jù)運算精確度分析迭代處理需求。在迭代處理后評估迭代處理需求時,GPU、CPU在數(shù)據(jù)處理中的通信頻次會逐漸減少,GPU計算效率相應(yīng)提升。但是在GPU、CPU通信次數(shù)設(shè)定值較大時,其通信頻次的改變對計算效率的影響較弱,會導(dǎo)致FIM算法的數(shù)據(jù)計算時間延長,改變GPU的加速效果。因此,為實現(xiàn)GPU加速目標,提升訪存效率,應(yīng)根據(jù)圖像處理中的數(shù)據(jù)計算要求,準確分析數(shù)據(jù)節(jié)點的迭代處理次數(shù),避免因迭代次數(shù)過多而影響GPU加速效果。

  四、結(jié)語

  綜上所述,計算機在各領(lǐng)域中的滲透,數(shù)值模擬、運算技術(shù)優(yōu)勢愈發(fā)突出。GPU在實際運行中所涉方程數(shù)量較多,利用FIM算法實現(xiàn)GPU的加速,是為進一步提升GPU運行速度,保證GPU在串行、并聯(lián)計算中的數(shù)據(jù)計算精度。因此,相關(guān)人員在GPU的加速處理中,應(yīng)深度挖掘FIM算法在計算密集場景中對數(shù)據(jù)的并行處理價值,提升GPU的計算效率。

  作者簡介:李登科,男,漢族,河南駐馬店,在讀碩士,華北水利水電大學(xué)

  研究方向:GPU并行加速

  參考文獻:

  [1]李貝貝,李志華,班曉征.GPU加速卷積反投影算法的濾波并行化方法[J].傳感器與微系統(tǒng),2019(05):75-78.

  [2]任衍青,逯志宇,王大鳴.基于GPU加速遺傳算法的直接定位研究[J].計算機應(yīng)用研究,2019(005):1084-1087.

  [3]李國昌.基于LoRa技術(shù)和GPU加速的臺區(qū)拓撲辨識方法[J].電測與儀表,2019(21):96-103.

  [4]叢敏章.可視化算法的GPU加速研究[D].2018(01):1-6.

  [5]李聰,郭大波,劉小文.基于GPU加速的一種新圖像特征匹配算法[J].計算機科學(xué)與應(yīng)用,2019(1):9-18.

主站蜘蛛池模板: 久免费视频 | 国产一级在线视频 | 欧美写真视频一区 | www.自拍| 久久久99精品免费观看 | 成 人 黄 色 视频免费播放 | 第一页在线观看 | 国产精品午夜免费观看网站 | 国产日韩欧美久久久 | 色综合久久中文字幕 | 午夜毛片电影 | 国产高清在线精品一区二区 | 久久机热综合久久国产 | 青青草色久综合网 | 免费看成人播放毛片 | 99久久免费国产特黄 | 福利入口在线观看 | 久久精品久久久久观看99水蜜桃 | 国产一区二区三区高清 | 香蕉欧美 | 国产精品久久久久久久久久久久 | 色偷偷网站 | 四虎激情 | 日本高清中文 | 久久精品中文字幕不卡一二区 | 亚洲国产日韩成人综合天堂 | 91亚洲精品国产自在现线 | 国产精品亚洲天堂 | 日韩色综合| 丁香九月婷 | 国产看片在线 | 欧美不卡精品中文字幕日韩 | 久久久久国产精品免费网站 | 天天干天天干天天干天天干天天干 | 乱人伦视频69 | 久久久久久久国产免费看 | 国产一级毛片网站 | 国产片欧美片亚洲片久久综合 | 久久精品国产一区二区三区不卡 | 91精品国产综合久久精品 | 播五月婷婷 |