庞大的SMX以及更快速的cache

作者: 发布时间:2012年03月23日 来源:中关村在线
 

  ● 庞大的SMX以及更快速的cache

  SM是 GPU的ALU团簇基本单元,在中SM部分的改进可谓翻天覆地,NVIDIA采用的全新的SMX单元彻底改变了传统的SM单元的内涵。

  GTX680所采用的SMX单元与Fermi的SM单元在逻辑结构上十分近似,都拥有完整的几何前端,线程仲裁机制,ALU团簇,Texture Array以及unified cache/shared和Register。除了没有后端之外,可以说一个SM/SMX单元在结构上已经趋近等同于一颗标准GPU了。


性能颠覆显卡规律 GTX680首发测试报告
GTX680逻辑构架

  与Fermi的SM单元规模对应线程粒度单位warp(32 ALU VS 32 Thread)不同,GTX680的SMX单元急剧放大了ALU团簇的整体规模,其ALU总量从过去的32个增加到了192个。与此同时,SMX单元的线程仲裁管理机制也得到了放大。负责线程分派和发放管理的Warp Scheduler从过去的两个增加到了4个,与之对应的Dispatch Unit从过去的2个增加到了8个,Warp Scheduler与Dispatch Unit的比例提升到了1:2,这些举措可以有效的改善单元规模增大带来的线程分派及管理压力。


SMX单元结构
 

  在放大ALU团簇以及线程仲裁机制的同时,NVIDIA还进一步放大了与ALU团簇对应的Register。根据NV提供的资料,GTX680中每个SMX的Register较之Fermi的SM放大了一倍,达到了65536X32bit的规模。

  在Unified Cache体系方面,GTX680与传统的Fermi在结构上没有多大的差异,其L1/shared以及L2 cache的大小和比例均未发生变化,仍旧维持64K的L1/Shared以及128K/MC的L2尺寸。整个体系中最值得关注的变动来自L2 cache速度以及带宽的提升,NVIDIA称GTX680的L2 cache目前运行在分频状态下,默认运行频率是核心频率的一倍,这为GTX680提供了比过去大得多的L2带宽,这为通用计算性能以及Texture性能的提升创造了有利的条件。


更为强劲的SMX性能

  更大的ALU规模、更多的线程仲裁机制以及更大的寄存器缓冲为SMX带来了全新的性能表现,新的逻辑设计让GTX680的运算单元拥有了2倍于Fermi的性能功耗比。但我们同时注意到NVIDIA公布的诸多数据与其极高的实际性能很难直接对应,包括线程粒度是否发生变化、寄存器是否充足以及Instruction cache是否已经从L1中独立出来等问题NVIDIA均未予以正面回答,因此我们会保持对SMX单元以及整个GTX680 ISA细节的持续关注,并在后续为你带来更多专门的分析文章。

哈维IT交流互动群,正式开通,期待您的加入
哈维数码群:158383938;哈维DIY群:210262975210263418
哈维手机交流群:167843588 哈维笔记本交流群:216175503 商家交流群:40463948

已经有 0 条评论发表评论

ZOL合肥笔记本报价: 戴尔笔记本 联想笔记本 惠普笔记本 ThinkPad笔记本 神舟笔记本 索尼笔记本 华硕笔记本 三星笔记本 东芝笔记本 苹果笔记本
ZOL合肥手机报价: 诺基亚手机 MOTO手机 三星手机 索爱手机 黑莓手机 联想手机 HTC手机 IPHONE手机 魅族手机 OPPO手机 LG手机
ZOL合肥数码相机报价: 佳能数码相机 索尼数码相机 三星数码相机 尼康数码相机 松下数码相机 理光数码相机 奥林巴斯数码相机 柯达数码相机