谁是微软架构师认证忠实随从 A/N统一架构历史回顾

点击联系发帖人 时间：2017-02-07 07:46

微软组织架构图

> 第三代统一构架硬件综述
谁是微软忠实随从 A/N统一架构历史回顾作者：责任编辑：林光楠【原创】
（共18页）
&&&&&&&● 第三代统一构架硬件综述
&&&&&& 微软自DirectX 10开始不断地向业界强调着效率的重要性，通过DirectX 11的改进我们更加明确的认识到只有效率才是符合微软要求以及其所规划的图形技术发展路线的重中之重。功能单元效率，shader效率，ALU效率，甚至kernel和Thread效率，这些强调都会被当做硬件设计者的指导思想予以贯彻。但是在第三代统一构架硬件中，我们看到的却并不都是这种贯彻的结果。
&&&&&& 作为长期战略的延续和忠实执行者，GF100的到来充分表明了的态度——紧跟微软的脚步，第一时间推出符合其API要求的硬件，借以达到在其API环境下最高的图形执行效率。在GF100中，我们看到了具有划时代意义的多级cache体系，完全针对执行效率而生的多级线程管理和仲裁机制，对应并行kernel和多线程渲染的并行GPC结构，基于CTA（线程块）级别的分支论断和乱序执行功能等等。这些功能对DirectX 11的灵魂——Compute Shader和并行kernel都助益匪浅。虽然GF100构架还包含了大规模的DP单元以及统一定址这类与现阶段图形API关系不大的设计，并且继续为由此导致的晶体管规模问题付出了不小的代价，但是整体来讲GF100依旧是一个极为贴近API要求的硬件构架。我们在GF100身上依旧看得到高效、高针对性、贴近需求的理念。
GF100与RV870的运算单元细部差异
&&&&&& 反观RV870，单纯以构架和DirectX 11针对性的角度出发，我发现只能用“堆砌”和“凑活”这两个词来形容。外挂在整个核心最外围的单一的UTDP，好像是用钉子和胶水贴在setup之后的TS单元，不论操作方式还是比例甚至是绝对大小都没有变化的shared设计，结构完全没有任何改进仅仅是单纯翻倍的运算单元，还有跟着一起放大的纹理和后端部分……在RV870的身上我没有看到任何改进或者锐意进取的痕迹，除了做出了最基本的一些补完之后，在shader的灵活度和通用计算领域终于达到了对手上代的GT200的水准，另外在功耗和发热端表现突出之外，这个几乎可以说仅能做到“支持DirectX 11”而已的构架完全没有任何值得称道的地方。这竟然是AMD放弃了一次tick过程所推出的应对重大API升级的构架，对于当前API的第一代来说几乎就是一场灾难。我甚至想说服自己认为这款构架根本就不是AMD的全新构架，他只是RV770的一次tick过程而已。
&&&&&& 以构架设计来看，RV870已经不能用失败来形容了，他甚至连失败的资格都不具备。与对手GF100相比，他的整个核心构架甚至不如对手一个SM设计的复杂精巧，这意味着两者的设计根本就没有处在一个水平上。不论NV30和R300还是R600和G80的对决都不曾出现过这种代差级别的落后。
RV870不变的运算单元设计
&&&&&& 但是，第三次统一构架之战的结局显然不是RV870的惨败，不仅没有惨败，甚至从某种意义上来讲，连失败都没有发生。双方所处的格局最终与GT200对RV770时代没有多少变化，依旧是在实际游戏测试中互有胜负，NVIDIA透过更好的构架设计取得了单芯方面的胜利，而AMD则通过多芯互联方案取得了单卡性能的桂冠。NVIDIA继续透过设计积累着自己对图形业界发展的认识并不断的拓展新的领域，而AMD则仍旧不时得对NVIDIA的市占率发起冲击并博得玩家的好评声浪。
&&&&&& 其实这个问题早在第二次统一构架之战的时候就已经显现出来了——当时GT200在实际游戏测试中并没有对RV770取得对应构架设计程度的领先。
&&&&&& 为什么一款贴近API需求的构架在实际的游戏测试中，甚至是最新的最贴近要求的DirectX 版本游戏中仍旧无法取得性能优势呢？
&&&&&& 统一构架的5年间游戏界以及我们周围的生活都发生了哪些变化呢？
&&&&&& 在随后两期的CBS探索与发现节目中我们将会为大家继续揭晓答案。
&相关阅读：
·GPU架构师升任院士 AMD变身显卡企业？
&&·NVIDIA下代GPU核心首曝 GP100系列核心
&&·PowerVR 8系GPU正式发布 iPhone7或搭载
&&·NVIDIA承认高刷新率GPU功耗过高问题
&&·显卡神器GPU-Z更新支持Surface Book
给文章打分 5分为满分（共0人参与）
&&...&&&&&
频道热词：&&&&&&
精彩内容推荐
显卡评测热点
排行文章标题
显卡论坛精选谁是微软忠实随从 A/N统一架构历史回顾
第5页：统一构架DirectX 10的特点
&&&　　● 统一构架DirectX 10
&&&　　所谓统一，指的是将Vertex Shader和Pixel Shader单元合并成一个具有完整执行能力的US（Unified Shader）单元，指令可以直接面向底层的ALU而非过去的特定单元，所以在硬件层面US可以同时吞吐一切shader指令，同时并不会对指令进行任何的修改，也不会对shader program的编写模式提出任何的强迫性的改变要求。以这个简单但是直接的手段为核心，微软推出了全新的API——DirectX 10。遵循DirectX 10规范设计的硬件在理论上可以达到100%的shader效率。
高效率的shader所带来的效果
&&&　　统一构架由此开始……
&&&　　● 第一代统一构架硬件
&&&　　DirectX 10的出现有很多积极地意义，它标志着微软正式开始将注意力转向了shader效率而非功能的增强方面。 shader效率的提升可以提高对应设计的运算单元的整体运作效率，效率的提升则可以折算成最终幁数的提升。幁数达到一定的程度比如60甚至100之后便没有了意义，因为肉眼已经无法分辨更高幁数的区别，所以提升的效率又可以被拿来进行更加复杂和灵活的操作。可以说从DirectX 10开始，微软正式进入了提倡以效率换效果的时代。
&&&　　效率换效果有很多种手段，其中之一便是指令格式的改变。
新指令格式shader实例：GS
&&&　　传统的DirectX 9硬件中的shader格式是非常固定的，Vertex Shader指令天生就是4D（X,Y,Z,A），而因为硬件单元设计通常都是3D+1D 结构的缘故，Pixel Shader指令一般情况下也会写成4D。这种情况导致了DirectX 9环境下的Pixel Shader指令无论属于何种应用，哪怕仅包含一条Z-buffer或者一条texture load，也要在指令结构上找齐成4D格式。这种格式的刻板要求极大的限制了程序员对shader尤其是Pixel Shader的发挥。
传统shader指令结构
&&&　　我们前面提到过，DirectX 10不会对shader program的编写模式提出任何的强迫性的改变要求。但是因为US直接面向ALU的特点，程序员面前的可用资源不再是一个个带有条条框框的固定功能单元，而是更加底层的运算单元。这使得DirectX 10环境下编程中的程序员可以大胆的直接使用更加灵活的1D、2D指令以及各种算数函数，而不用担心任何来自硬件方面的限制。我们甚至认为衡量一款游戏是否属于DirectX 10游戏并不是看它是否使用了US，而是看它是否大量使用了1D、2D指令以及算数函数。更加灵活的shader让程序员在无限接近实现视觉虚拟现实的道路上又向前前进了一大步。
更加灵活的shader所带来的细腻效果
&&&　　我们说过，生活在这个时代真幸福。
&&&　　微软在API层面提出了要求，硬件厂商就要跟进，于是第一代满足统一构架要求的DirectX 10硬件应运而生。
(本文来源：中关村在线网站
相关微博推荐
alt="果宝儿" src="/image?w=48&h=48&url=http%3A%2F%%2Fimage%3Fw%3D80%26h%3D80%26url%3Dhttp%253A%252F%252Fos.%252Fcommon%252Ftinyava.s%253Fhost%253Dpoppyaileen%2526type%253D1%2526rnd%253D0.3907">
alt="燕子" src="/image?w=48&h=48&url=http%3A%2F%%2Fimage%3Fw%3D80%26h%3D80%26url%3Dhttp%253A%252F%252Fos.%252Fcommon%252Ftinyava.s%253Fhost%253Dyanzivision%2526type%253D1%2526rnd%253D0.407">
alt="刘言菲" src="/image?w=48&h=48&url=http%3A%2F%%2Fimage%3Fw%3D80%26h%3D80%26url%3Dhttp%253A%252F%252Fos.%252Fcommon%252Ftinyava.s%253Fhost%253Dw-m-j520%2526type%253D1%2526rnd%253D0.69783">
alt="二手艺" src="/image?w=48&h=48&url=http%3A%2F%%2Fimage%3Fw%3D80%26h%3D80%26url%3Dhttp%253A%252F%252Fos.%252Fcommon%252Ftinyava.s%253Fhost%253D874qq%2526type%253D1%2526rnd%253D0.4277">
alt="漫雪狂" src="/image?w=48&h=48&url=http%3A%2F%%2Fimage%3Fw%3D80%26h%3D80%26url%3Dhttp%253A%252F%252Fos.%252Fcommon%252Ftinyava.s%253Fhost%253Dgasbie%2526type%253D1%2526rnd%253D0.642976">
跟贴读取中...
网易通行证：
跟贴昵称修改后，论坛昵称也会变哦
网易通行证：
复制成功，按CTRL+V发送给好友、论坛或博客。
浏览器限制，请复制链接和标题给好友、论坛或博客。
网易数码48小时评论排行
评论9326条
评论1336条
网易数码产品图片推荐
网易公司版权所有前言：在上周的ZOL显卡探索与发现节目中，我们已经初步了解了Tegra2的Geforce ULP以及SGX Series5系列构架的基本特点，并且进行了采用上述构架的iPad，iPad2以及Xoom三者的基本3D**能测试，相信大家对这两款构架的基本3D**能和特点已经有了一个大致的概念。　　本期探索与发现节目中，我们除了要深入Geforce ULP和SGX Series5的构架细节，了解他们的弱点和缺陷，针对3D及flash**能等其他移动设备敏感应用进行讨论之外，还会根据这些细节深入的探讨一些关于他们背后更加核心的问题，比如说伴随着iPad2的发布，我们是不是正在踏进另外一个比特效画质更加惊悚的无底陷阱呢？　　绑好你的安全带吧，请相信我，这又将是一次头脑风暴般的阅读之旅。　　Flash拥有占用空间小、因为面向对象编程而产生的极大的使用便利**以及广泛的浏览器支持度等特点，因此被广泛的使用在在线播放器，嵌入式网页广告以及动画播放领域。现代网页上大量采用Flash动画，有时一个网页上甚至可能会同时出现大大小小十几个Flash窗口。　　由于Flash大量采用Vector（向量数据）进行图像处理，因此对硬件的运算能力，尤其是向量吞吐能力有不小的压迫。acfun或者bilibili之类在线视频类**所播放的视频允许通过Flash加载玩家评论，实现与视频同步播放的“弹幕”效果，这类对向量**作使用到极致的Flash应用经常会将台式电脑的CPU，甚至是I7都“逼疯掉”，难怪有好事的玩家会将很多弹幕密集的bilibili视频作为测试CPU**能的一种手段。　　这种对向量**能的压榨即便放在桌面平台的通用处理器上都已经难以承受了，如果把它交给需要时刻注意功耗问题而不得不牺牲**能的SoC CPU，这可以说根本就是一个不可能完成的任务。因此，摆在手机及平板电脑面前唯一的选择，就是放弃通用**的原则，将这些向量运算任务交给专门的单元来完成。　　顾杰所写过的技术分析类文章索引（持续更新） 1、谁是微软忠实随从 A/N统一构架历史回顾 2、忠实微软是否有用 A/N统一构架细节分析 3、揪出幕后罪魁祸首是谁拖累了统一架构 4、曝你不知道的DX11 解析GPU通用计算妙用 5、融聚的未来在哪里 APU构架方向发展分析 6、特效消耗是无尽陷阱?游戏画质现状解析 7、NV也玩融合探GTX700核心CPU+GPU构架 8、**帝国的统一之路 Intel融合构架探秘 9、上错花轿嫁对郎 CrossFireX超高效率揭秘 10、口袋里的战争移动世界3D芯片构架演义 ● Tegra2的软肋　　采用Tegra2的诸多手机及平板电脑刚出现的时候，最让用户关心的便是这些平板电脑的Flash硬件加速**能。从NVIDIA公布的构架细节来看，Tegra2是拥有硬件加速Flash的能力的，异构设计的Geforce ULP将传统桌面Geforce构架的ROP单元进行了拆解，从中分离出了独立的可编程混合单元PBU（Programmable Blend Unit），通过他来完成硬件Flash加速的工作。由于安卓系统运行在JAVA Dalvik虚拟机环境下，NVIDIA甚至利用JAVA Dalvik先天的多线程优势为Flash应用开辟了独立的线程，这样Geforce ULP的异构构架可以更好的配合CPU，充分发挥并行处理能力。Tegra2的硬件Flash加速　　然而，在实际应用过程中，大部分用户发现使用Tegra2的手机和平板电脑产品都没有达到NVIDIA官方宣称的流畅无压力的硬解Flash水平，某些场合下Tegra2平台的手机似乎可以完美流畅播放甚至是bilibili弹幕级得Flash应用，但大多数时候采用Tegra2的手机和平板电脑在遇到多Flash应用时或多或少的都会存在拖帧等不流畅的问题。这是为什么呢？　　答案其实并不复杂因为Flash player 10需要处理器提供支持neon指令集。含有neon指令集的A8处理器　　neon指令集是ARM构架下的一组SIMD浮点指令集，主要用于Vector指令的并行吞吐及加速执行，简单地说neon就是ARM CPU的SSE指令集。根据Adobe及NVIDIA公布的细节，Flash的硬件加速需要CPU对Vector指令进行吞吐以及解析，在完成编**、滤镜、对象以及材质确定等基本风格处理之后才能交由Geforce ULP进行处理。如果没有neon指令集的加速，ARM CPU以纯通用处理的形式完成上述指令的吞吐不仅极其缓慢，而且会极大地增加系统的功耗。Tegra2的Flash处理流程　　不巧，Tegra2构架的Cortex A9处理器，忘记把neon指令集带在身上了。Flash Player10.2的要求　　失去了neon指令集的支持，不仅Flash的硬解会受到影响，其他需要大量Vector吞吐的场合，比如高清视频的播放等都会受到极大地影响，这使得Geforce ULP的异构设计所产生的优势被极大的削弱甚至完全抵消。PBU可以高效同时低耗的解决Flash加速问题，VDP和VEP芯片也可以很好的完成视频加速，但如果没有neon指令集，这些单元的特**基本上都无法得到完全的发挥。而一般用户并不知道也无需知道这些细节，他们只会埋怨NVIDIA没有提供最为优秀的产品，这使得Geforce ULP乃至整个Tegra2构架的最终**能都蒙上了一层**影，　　neon指令集的缺失让Geforce ULP的最终**能受到了很大的影响，那么作为竞争对手的SGX Series5系列构架就完美无瑕无懈可击了么？显然不是。作为GPU构架，SGX Series5系列的缺陷不仅比Geforce ULP更加致命，而且甚至还可能会导致一场波及整个手机及平板电脑界得巨大灾厄。Z culling过程　　这还不是最恐怖的事情，更加惊悚的是，SGX Series5系列的缺陷，竟然就是Power VR构架最引以为傲的技术特色TBDR。TBDR技术说明　　TBDR全称Tile-based Deferred Rendering，它是Power VR独特的TBR技术的一种延伸实现手段。TBR/TBDR通过将每一帧画面划分成多个矩形区域，并对区域内的所有像素分别进行Z值检查，在任务进入渲染阶段之前就将被遮挡的不可见像素剔除掉。由于在渲染之前进行Z-culling**作，这种充满想象力的做法极大地，甚至可以说海量的削减了最终被渲染像素的数量，不仅大幅降低了系统对像素的处理压力，更极大的节约了显存带宽及空间的开销。TBR技术对显存的节约　　也许屏幕前的你可能会问我这不是个好技术么？又是削减工作压力又是降低显存开销的，你怎么危言耸听说它是个致命缺陷啊？　　对于常规的光栅化过程来说，TBR/TBDR会带来诸多的问题。包括深度检查耗损、频繁的Z读取、Tiles划分带来的纹理重复读取、多边形数量上升之后的scene buffer溢出等等。Z Occalusion检测软件VillageMark　　尽管TBDR不再像传统的TBR那样需要通过CPU来进行Z值检查，但是TBDR过程需要多画面内所有的像素进行一次“额外”的load过程，这个过程本身无论从哪个角度来讲都是与节约显存带宽背道而驰的，尤其是在复杂度极高但Z-Occlusion（Z闭塞）并不严重的场景中更是如此。另外，尽管对画面的矩形划分越细密，GPU对像素进行Z判断的效率和准确率越高，但TBDR过程对画面的矩形切割非常机械，这种划分经常会导致很多多边形和纹理被Tiles所切割，这些多边形和纹理都必须经过2次甚至4次读取才能保持自身形态的“完整”，这无疑加重了几何和纹理处理过程的负担。如果场景的多边形数量较多，这种切割还会导致scene buffer被快速的消耗殆尽，scene buffer的溢出会直接导致Z判断延迟的急剧增大，这对整个处理过程的影响是巨大的。割裂多变**过程　　通俗的说，TBDR需要在屏幕上画很多很多的小格子，然后把格子里的所有像素都拿出来做某种检查，没通过检查的“坏”像素就会被丢掉。尽管丢掉这些没通过检查的像素可以让后面的工作量减小，但这个检查本身对渲染没有任何意义，所以没有被丢掉的像素就相当于走了一遍无用的过场。与此同时，划分小格子的过程会切坏很多多边形和纹理，想要让这些多边形和纹理能够从“误伤”中幸存下来，你切了它们多少刀就要重新读取它们多少次。如果多边形本身就很多，被误伤的概率就更大，这会使得系统的某种缓存被快速消耗干净，缓存没了，系统干什么都不可能快得起来。scene buffer溢出导致的错误图像　　在这些环环相扣的问题的综合影响之下，拥有极高理论**能的SGX Series5系列在实际表现中却并不亮眼，我们上一篇探索与发现节目的测试环节实际上已经将问题表现出来了尽管SGX543MP2拥有吞吐shader更加高效的USSE单元，4倍于Geforce ULP的理论**能以及双倍的显存带宽，但实际表现却远远未能达到这一数值，如果SGX543MP以单芯片的形式登场，最终的**能甚至可能会负于竞争对手。在大多数常规场合中，SGX Series5系列的理论**能都要除以一个2左右甚至是3的“景深系数”才能得到最终的真实**能，换句话说，正常情况下的SGX Series5系列只能表现出理论**能一半左右的实际**能。拥有如此强悍的理论**能以及更大的显存带宽的“能够节约显存带宽”的构架最终却只能有这样的表现，我想包括Imagination自己在内的大多数人此时此刻都不知道该用怎样的表情去面对了。　　既然效率有问题，而且这种问题在短时间以内甚至可以说永远都没办法解决，那该怎么办呢？神创造的伊甸园　　神在伊甸立了一个园子，使各样的树从园子的土里长出来，树华贵美丽，其上结满了可以作为食物的甘美果子，伊甸园中有一棵名为善恶树，所结的果实名为智慧果，智慧果可以让人与神一样获得智慧，神对伊甸园中的居民说，你们不可以吃这果子，它会为你们带来灾厄。偷吃善恶树上的智慧果的夏娃　　一个名叫Imagination的孩子行走在伊甸园中，他想获得智慧，他看善恶树上的智慧果比其他果实都漂亮，也便没有多想，将智慧果摘了下来，但又畏惧神的话，因此不敢吃它。善恶树的名字，叫桌面领域，而这颗智慧果的名字，叫multi-core。SGX543MP构架　　从SGX543开始，SGX Series5系列系列构架均支持多核心并联扩展模式，以SGX543为例，它支持2至16核的弹**扩展，我们可以方便地将之理解成为桌面的SLI/CrossFire，这种方式会将所有流水线任务平均发放给扩展的每一个核心，已达到**能快速提升的目的。这么做看上去很美，通过简单的多核互联，我们能够轻松的获得更强劲的**能，TBDR纵使效率再差，也可以轻松的通过多核倍增的**能提升掩盖过去。但实际上呢？果A5处理器集成了SGX543MP2　　相对于移动领域来说，桌面领域的绝对**能以及**能增长速度一直都是甜美的**，能够贴近摩尔定律的实现**能提升对任何应用来说都是梦寐以求的事情。但问题是移动领域的应用环境不同于桌面，我们曾经提到过，只要有电，桌面GPU不考虑成本甚至可以做到脸盆大，所以我们可以见到注入HD6990或者GTX590之类的拥有惊人功耗的**能怪兽，但手机和平板电脑可以么？GTX590显卡　　因为设备体积以及电源的**，手机及笔记本显示芯片显然需要极其小巧和低功耗的设计才能满足需求。通过简单粗暴的堆叠方式来进行**能延展，用桌面的方式去思考移动领域的问题，显然是很愚蠢的。依旧以SGX543MP2为例，这颗GPU的芯片面积甚至超过了Tegra2整颗SoC芯片面积的两倍。简单延展会导致构架最终向巨型化方向发展，在获得**能的同时彻底丧失体积以及功耗等SoC领域非常敏感的特**。换句话说，这种将桌面的思维和解决问题的方式盲目的引入到移动领域的做法，只能带来灾厄和诅咒。移动设备对功耗和体积的特殊要求　　不对啊，如果这种方式真的有错，那受到惩戒的自然是Imagination自己，手机及移动厂商又不是傻子，如果Imagination的产品有问题，不选它不就完了，它怎么可能是灾厄或者诅咒呢？　　因为这个名叫Imagination的孩子，把智慧果塞给了另一个名叫Apple的傻孩子，Apple见果实悦目，便毫不犹豫的吃了下去，接着便生下了一个名叫iPad2的子孙，灾厄也便就此开始了蔓延。　　　iPad2在硬件方面选择了SGX543MP2，这使得iPad2成了目前为止显示**能最强的平板电脑产品。在绝对3D**能方面，无论是呼声最高的Xoom还是其他已经发售的Tegra2产品都无法与之相提并论。　　凭借IOS的封闭**所带来的针对**极强的优化，Imagination长期在SoC领域积累的优秀的电源管理经验以及苹果对Flash不支持所带来的先天“优势”，iPad2不仅没有在常规应用中将SGX543MP2的芯片尺寸过大以及相对较高能耗的问题暴露出来，相反还经常能够在各种续航环境测试中击败经验并不丰富的NVIDIA。iPad2的待机**能非常强悍　　安卓平台为开放**而不得不采用的JAVA Dalvik虚拟机环境在这个时候也不失时机的跳出来拖NVIDIA的后腿，JAVA Dalvik虚拟机环境最大的特点就是其硬件无关**，这使得安卓系统能够最大限度的对各种形式的硬件进行兼容以保持其“完美的开放**”，当然代价也就是几乎所有硬件的**能都无法得到充分发挥。在非针对**的环境下，任何硬件都无法取得最高的**能功耗比，这进一步影响了NVIDIA在SoC GPU竞争中的表现，同时甚至还在一定程度上影响了采用安卓搭配Tegra2方案产品的用户体验度。JAVA Dalvik虚拟机环境　　绝对3D**能输，常规续航输，用户体验也赢不了，还因为自己的原因把至关重要的neon也落在家里了，尽管更小的芯片面积能够为NVIDIA带来更加丰厚的利润，但Tegra2在实际**能领域的表现肯定会对厂商的选择产生影响。如果NVIDIA想要获得更多厂商的青睐，或者说不想被清理出这个领域的话，它就只剩下一种表达方式可供选择了愤怒的反击。　　●快看那几头红眼的公牛　　受了刺激的NVIDIA对包括Imagination在内的竞争对手们做出了最符合其锐意进取形象的回应在公布的roadmap上，计划中的Tegra3拥有了极其恐怖的硬件规格。代号KAL-EL的Tegra3拥有4核心CPU，支持neon指令集，12ALU的GPU能够达到Geforce ULP**能的3倍，甚至可以输出最高至的屏幕。这份充满了火药味的roadmap仿佛就是吹响的号角，NVIDIA希望通过Tegra3向所有竞争对手及厂商表明自己的态度我的产品才是世界上最快的手机及平板电脑显示解决方案。Tegra发展路线图　　而Imagination也不示弱，除了继续升级现有的SGX Series5系列构架，在NVIDIA面前摆出SGX544MP1~16以及SGX554MP1~16这些怪物级的多重互联芯片之外，还积极准备着下一代的SGX Series6系列构架，通过对TBDR以及USSE单元的进一步升级来扩大自己在理论**能方面的领先优势。Imagination的PDF显示，其未来USSE单元的浮点吞吐能力将两倍于现在的USSE2，而TBDR也通过结合复杂的分割管理改进等手段提升到了翻倍的水准。PDF同时还显示，Imagination在未来依旧会将multi-core和multi-thread作为发展的重要方向，换句话说，SGX6XXMP1~16这种怪物在未来依旧会充斥在市场上。SGX发展路线　　甚至连沉寂了一段时间的高通也通过新一代Adreno来凑一份热闹了，根据高通密集的roadmap显示，其28nm的Adreno 305将提供第一代Adreno六倍以上的**能，而四核版的Adreno 320更是能够将这一数值提升至15倍之多。尽管我们尚不知道新一代Adreno构架的具体细节，但从数字上来看，新一代Adreno构架将同样会是一个理论**能异常强劲的图形构架。　　的体积和功耗要求，我们甚至还联合**作系统供应商推出了全新的改善用户体验的3D界面，3D界面啊！”Imagination公司logo　　Imagination则会说:“一切都是NVIDIA的错，是它首先裹挟着大量火力凶残的桌面3D显示技术，声势浩大的大举入侵手机及平板电脑领域的，不信你看Tegra1代的GPU，连调整都没有就直接放出来四处开炮了。再看它对Tegra2的宣传，那里面的Geforce ULP被说成了**能超越我们前代产品一大截的大规模杀伤**武器，我们出多核心高功耗的大芯片也是万般无奈啊。它来之前一切都很好，我们自家的SGX发展一直都很节制，充分照顾了移动设备的各种特殊需求，TBDR这种极度节约显存带宽和容量的技术就是明证。可是NVIDIA来了，并且气势汹汹的要吃掉我们，我们不得已才**放弃了自己的发展轨迹，转而跑去跟它在纯硬件规模领域血拼的啊。麻烦你转告NVIDIA，当年在桌面领域输给它也就算了，现在它竟然又跑到移动领域来找我们的麻烦，为了生存，我们一定会血战到底的，甚至推出个SGX745MP128也绝对在所不惜！”　　体验度尚可，但那却又是建立在极高的系统封闭**基础之上的，而且从IOS最近更新中修正BUG的层次以及程度，比如耗电量急剧变化的IOS4.3.3来看，高速硬件更新使得IOS同样缺乏针对**硬件优化的时间，即便是封闭状态下的苹果，也已经处在了所能够承受的极限上了。这就是恶果，无比残酷却又真实的恶果。　　想要放缓这一节奏，让硬件厂商根据实际需要“适度”的推出硬件，这显然也不是一条可行的道路。只有激烈的竞争才是厂商生存以及技术进步的第一要务，如果通过过多的**让厂商大幅放缓进步的脚步，不仅图形界的发展会因此而矫枉过正，厂商自身的生存环境也将受到极大的影响，这无疑于杀鸡取卵。Open GL ES很难成为强大的约束**标准　　在有限的可选方案中，制定强大、先进且具有约束力的行业规范和标准似乎可以在一定程度上缓解问题的发展。但最终，我们实际上只能期待硬件厂商和软件厂商再次将提升用户的最终体验度作为研发硬件的第一要务，只有厂商自身的自律以及自我修正才能真正的解决问题的根源。也许只有到了厂商自己平衡好用户需求以及竞争需要这两者之间的关系，并以用户为基础来提供产品的时候，我们才能够重返伊甸园吧。}

淘宝游戏网