ForceWare 185.66、Graphics Plus Power Pack #3 & nVidia CUDA 2.2 封測?


ForceWare 185.66

首先呢,nVidia 官方放出了新的顯示卡測試版驅動程式 ForceWare 185.66,主要是針對 GeForce 9、100、200 系列(Heresy 的 GeForce 8800 GT 也可以裝成功就是了)。而更新呢?除了入了對新的 GeForce GTX 275 的支援外,還包含了對 CUDA 2.2 的支援!

檔案下載:Windows XPWindows XP 64Windows Vista 32Windows Vista 64

至於驅動程式的其他變化,可以參考 Anandtach 的《ATI Radeon HD 4890 vs. NVIDIA GeForce GTX 275》一文,裡面有對 185 的驅動程式作一些描述。

附註:實際上,nVidia 是先釋放出 185.65 的驅動程式,但是沒多久就更新為 185.66 了;兩者之間只差了 0.01 的版本,在目前還沒有 release note 的現在,還真不知道這個緊急修改的原因是啥?如果想抓 185.65 的話,可以用以下的聯結下載:Windows XPWindows XP 64Windows Vista 32Windows Vista 64

Graphics Plus Power Pack #3

另外,nVidia Graphics Plus Power Pack 也追加了第三代,加入了:

  • Star Tales – Benchmark Demo
  • Sacred 2: Fallen Angel – PhysX Game Patch
  • PhysX Screensaver(之前也有,不過這次好像有給 Source code?)
  • Motion DSP’s vReveal – Try-and-Buy Demo
  • SETI@home

這幾項;不過目前只有英文網站上有,而且大部分的東西也都儘只是 demo 版。

CUDA 2.2 Beta

接下來,就是 CUDA 2.2 了~CUDA 2.1 是在今年一月發布的,而現在又發布了新的 2.2 的 Beta 版!只不過,和以往都是公開測試不同,這次的 2.2 版,則是要註冊的開發者(免費註冊頁面)才能下載了…(2.2 封測?歡迎加入 CUDA online!(誤很大)

關於 CUDA 2.2 Beta 的詳細資料,可以參考官方論壇的《CUDA 2.2 features》一文,裡面也有提供 2.2 Beta 的 programmin guide 的下載。而功能更新的部分,大致如下:

  • 支援 Zero-copy
    細節可以參考《Cuda 2.2 / Zero-copy access》一文,沒理解錯的話,就是以後 CUDA 可以直接透過 PCI-Express 存取 host 的 memory 了!不過,似乎只有 MCP7x 和 GT200 系列可以這樣玩。

  • 在 Linux 下,一個 GPU 可以支援多個 contexts;不過 Windows 要等到 final 版才有。詳細請參考官方論壇的另一篇文章

  • Vista 部分

    • 支援 CUDA profiler
    • 在 Vista 和 Server 2008 上支援 Asynchronous memcpy(雖然本來就有,但是在 Vista 下本來沒用) 
  • CUDA profiler 支援更多在 GT200 上的計算~包括了記憶體頻寬(counters for each transaction size) 和指令計算。這樣應該會更容易判斷出程式效能是卡在頻寬,還是卡在計算速度。

  • 允許單一的 allocation 有 4GB 以上的 pinned memory(應該是指 page-locked memory)。不過 Vista 例外,他還是有 256MB 的限制,不過應該會在最終版的時候有所提升。

  • 所有平台的 blocking sync。
    這是一個 context creation 的 flag,可以用來取代 spinlocking 或 spinlocking+yielding(這邊的名詞 Heresy 幾乎沒聽過了… @@);當 thread 在等 GPU 的時候,這個 thread 會 sleep,直到完成後 driver 才會把他叫醒。這不是預設值,因為他可能會因為 OS 的排程而增加 latency,但是如果想要減少 CPU 使用量的話是很好用的。

  • 一些新的 function

    • __brev(), __brevll() 32-bit and 64-bit bit reversal
    • __frcp_r{n,z,u,d}() single-precision reciprocal with IEEE rounding
    • __fsqrt_r{n,z,u,d}() single-precision square root with IEEE rounding
    • __fdiv_r{n,z,u,d}() single-precision division with IEEE rounding
    • __fadd_r{u,d}() single-precision addition with directed rounding
    • __fmul_r{u,d}() single-precision multiplication with directed rounding
    • __threadfence(): I’m not sure if there are docs for this yet–it’s kind of hard to explain, so I’m not going to comment too much about it here because I forget what its exact behavior is. (囧…這該說啥啊?)
  • Texturing from pitchlinear memory
  • 增進 OGL interop 的效能。
  • Context creation flags 可以在 CUDART 中設定。
  • 正式支援 Ubuntu 8.10、RHEL 5.3、Fedora 10
  • 64-bit Linux 的 cuda-gdb

nVidia CUDA 學習紀錄

對「ForceWare 185.66、Graphics Plus Power Pack #3 & nVidia CUDA 2.2 封測?」的想法

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.