如何辨别自己在战地2叛逆连队队2是否有开dx11

AMD有Intel没有!AMD APU交火战i5+独显
来源:pconline 原创&
作者:芝麻&
责任编辑:fanjunhui&
1前言:AMD APU交火战对比评测  【PConline 横评】AMD A系列APU的发布,让融合处理器第一次走进了主流DIY玩家的视野。我们记忆犹新的是,A8-3850 APU独显核心HD6550D强大的3D性能,秒杀入门级别独显()。其中A系列APU的一项功能更让人充满期待,就是其独显核心具备与特定型号的独立显卡组建混合交火的能力,图形性能即刻得到二次提升。  当然这仅仅是AMD对混合交火的官方说法,实际上混合交火是否真的有用?对实际3D游戏的支持程度如何呢?带着以上问题,进入我们今天的APU混合交火挑战二代i5+独显的评测。  在并购ATI之后,AMD除了进一步扩展了其图形业务,当然就是发挥CPU与GPU融合的优势了。一直以来AMD的CPU性能没有太大优势,但是A8 APU处理器内置的Radeon HD6550D显示核心确实让第二代酷睿i系列处理器汗颜了一把,除了在性能上大大超越后者顶级的HD3000核芯显卡,尤其是对DirectX 11 API的支持刚好正中后者的短板。AMD A系列APU平台支持与部分A卡组建混合交火   在今天的测试中,我们将会组建一个A8 3850 + HD6670混合交火平台,并与Core i5 2300 + HD6670独显(不支持混交)、A8 3850 + HD6750(不支持混交的更高端独显平台)以及A8 3850的融合平台来进行对比。APU平台组建混合交火的条件:可进行混合交火的APU与独立显卡  APU平台的混合交火条件,处理器方面当然要AMD A系列APU,主板是A75或A55,显卡只支持HD 6670、HD 6570和HD 6450这三款。处理器:AMD A系列APU
  处理器方面,所以AMD A系列APU都可以组建混合交火。这次我们采用的是旗舰型号AMD A8-3850,采用最新的32nm制作工艺,其中CPU部分采用原生四核设计,基于Husky微架构(K10的改进版),默认主频为2.9GHz,每个核心拥有1MB二级缓存;GPU核心为Radeon HD 6550D,具备400个流处理单元,默认频率为600MHz。热设计功耗为100W,最高可支持DDR3-1866内存,接口为全新的FM1。主板:A75或A55主板技嘉 A75主板  A75和A55主板都支持混合交火,这次我们采用高端的A75,最大特点是原生支持4个USB 3.0接口。目前很多主板厂商都推出A75芯片组的主板,价格从500元~1000元不等。显卡:HD 6670 / HD 6570 / HD 6450HD 6670、HD 6570和HD 6450支持混合交火  目前支持APU混合交火的显卡仅限于入门级的AMD Radeon HD 6670、HD 6570以及HD 6450这三款。其实即使高端显卡组建混交后的性能提升也是不明显的,毕竟差距太大,所以入门显卡组建混交才能实现性能提升最大化效果,明显地AMD想到了这点。今天我们进行混合交火的显卡为相对高端的HD 6670显卡。2理论测试:3DMark Vantage、3DMark 112、评测平台介绍及方法说明
AMD FM1(APU)平台
AMD A8-3850(4核/4线程)
华擎 A75-PRO4(A75)
宇瞻 DDR3-1333 2G x 2(8-8-8-24)
Radeon HD 6550D(APU内置)
Radeon HD 6670 混合交火
Radeon HD 6750
Intel LGA1155平台
Intel Core i5 2300(4核/4线程)
技嘉 Z68XP-UD3(Z68)
宇瞻 DDR3-1333 2G x 2(8-8-8-24)
Radeon HD 6670 非混合交火
Windows 7 Ultimate X64 SP1
AMD Catalyst 11.6b
游戏相关:
3DMark Vantage(DX10)
鹰击长空(DX10.1)
星际争霸2(DX9)
3DMark 11(DX11)
异形大战铁血战士(DX11)
战地:叛逆连队2(DX11)
尘埃3(DX11)
  本次评测,通过组建混合交火的A8 3850与HD6670平台与非混合交火平台的Core i5 2300与HD6670平台对比,从而看出混合交火的支持程度与提升程度。并且加入了非交火平台的但较高端的HD6750独显APU平台作为对比,来看看混交平台的性能能否超越较高端的独显。最后我们给出哪些游戏对混合交火支持较好以及提升的幅度。  至于测试项目的选择,我们选用了主流基准测试软件与游戏,包括DX9到DX11游戏与网络游戏。游戏的分辨率统一为AA,画质全部为最高的水平。-----------------------------------------------------------------------------  关于游戏帧数(FPS)的意义  游戏帧数是反映游戏是否流畅运行的标准,大多数情况下可这样归类,没有可玩性:帧数低于30FPS;可以接受:帧数30-50;流畅运行:帧数50-60;完美运行:帧数大于等于60。也就是说一般情况下帧数大于60意义不大,这时可以调高游戏画质以获得更好的视觉效果。----------------------------------------------------------------------------3、混合交火组建方法组建混合交火的方法&  AMD Dual Graphics技术可由独立显卡与APU内建显示核心进行协同工作,要组建混交平台,需要符合以下的条件:系统要求:  1、Windows7操作系统;  2、支持AMD Dual Graphics技术的主板及显示卡驱动;  3、选择APU和HD6000系列显卡相互匹配的产品。安装显卡及BIOS设置:  1、开机进入BIOS后,设置A75/A55集成显示核心HD6550D的显示缓存为1024MB;  2、不安装独立显示卡,使用A75/A55主板的DVI或者其他输出口安装驱动程序;  3、在关机的情况下,安装HD6670(需2GB&2内存,并开启双通道)或者HD6570(需1GB&2内存,并开启双通道)后,进入操作系统,让系统自动安装驱动程序;  4、重新启动系统并成功识别独立显示卡后,再次重新启动计算机进入BIOS设置模式,把&Advanced BIOS Features&里面的&Init Display First&选项设置为&Onboard&模式,保存BIOS设定后关机;  5、关机后,把独立显示卡的接头取下,连接至主板内建的显卡插座后开机。  设置显卡驱动程序:  如果操作成功,进入系统后,会有&CrossFire&选项出现,确保在&启用 CrossFire&前已经打勾。4、理论测试:3DMark Vantage、3DMark 11  我们选取了权威的3D测试软件3DMark Vantage和3DMark 11,它们分别是DX10和DX11两个时代的测试软件。DX10测试软件3DMark Vantage:3DMark Vantage  3DMark Vantage是一款基于DirectX 10的3D性能基准测试软件,主要包括了显卡测试和CPU测试两个部分,其中显卡测试主要针对显卡的3D图形渲染性能,而CPU测试主要测试CPU的AI运算和物理运算性能。值得一提的是,用NVIDIA显卡测试时,我们会关闭显卡的物理加速,这样更能反映各CPU的性能差距。3DMark Vantage测试成绩DX11测试软件3DMark 11:3DMark 11  3DMark 11是一款基于DirectX 11的3D性能基准测试软件,款内置了三大测试项目:图形性能测试、物理性能测试和综合测试,分别测试显卡性能、CPU性能和CPU/显卡的综合性能。3DMark 11的物理性能测试(CPU性能测试)改用了免费的Bullet物理引擎。我们采用最新的1.02版,改进部分CPU的效能。3DMark 11测试成绩  测试小结:由于3D基准测试的总分得分与GPU性能有关,如果要对比交火性能的效果,那么GPU分数更具参考价值。明显看出,无论是Vantage版本还是11版本,APU混合交火能够在理论3D软件很好支持,尤其在3DMark 11中分数比HD6750独显平台还要高出不少。3DX11游戏测试:尘埃3、战地2、A.V.P5、DX11游戏测试:《尘埃3》、《战地2:叛逆连队》、《异形大战铁血战士》DX11游戏《尘埃3》:尘埃3  《尘埃3》是一款DX11游戏,也是著名的赛车类游戏,在玩家群体中有很好的口碑,呈现出真实、绚丽的赛车竞赛场景。我们采用测试采用而来游戏自带的Benchmark Test。《尘埃3》测试成绩DX11游戏《战地:叛逆连队2》:战地:叛逆连队2  《战地:叛逆连2》(Battlefield: Bad Company 2),是EA DICE开发的一款第一人称射击游戏。该作是EA DICE开发的第9款&战地&系列作品,使用加强版的寒霜引擎,加入了建筑物框架破坏和物体分块破坏的支持,还有部分DX11特效,测试前我们在Setting文件中手动开启DX11,测试场景为第一关开头。《战地:叛逆连队2》测试成绩DX11游戏《异形大战铁血战士》:异形大战铁血战士  《异形大战铁血战士》是早期的DX11游戏之一,而Rebellion推出了Benchmark 1.03,不过设置比较麻烦,需要修改快捷方式并添加命令行,且要修改文本文档来改变测试环境设置,希望以后的Benchmark版本能够改进。《异形大战铁血战士》测试成绩  测试小结:混合交火对于DX11游戏的支撑较好,支持DX11游戏的数目也更多,毕竟DX11游戏均为最新游戏,针对多卡优化较为充足。三款游戏均能很好地支持混合交火,并能达到流畅水平。4DX10/9游戏测试:鹰击长空、星际争霸26、DX10/9游戏测试:《鹰击长空》、《星际争霸2》DX10.1游戏《鹰击长空》:鹰击长空  《鹰击长空》是一款飞行类游戏,支持DX10.1特效。我们选择手动测试方法,用Fraps记下平均帧数。在游戏测试中我们选择巴西里约热内卢作为测试场景,从游戏开始即飞机出现时用Fraps记录帧数,直到飞机直线撞击城市爆炸结束止。测试过程开启DX10.1技术。《鹰击长空》测试成绩DX9游戏《2》:星际争霸2  《星际争霸2》是今年最受欢迎的PC游戏,虽然只支持DX9特效,但画面毫不逊色,游戏加入了大量AI运算,对性能提出更高的要求。我们采用测试录像Verschollener Tempel四人图进行测试,对战种族人族对神族,录像从第13分35秒双方出现交战情况到14分35秒交战结束,测试耗时1分钟。《星际争霸2》测试成绩  测试小结:《星际争霸2》游戏的测试成绩受到CPU的因素影响较大,不支持APU混合交火,所以A8-3850+HD6670混交平台的成绩要稍逊于Core i5 2300 + HD 6670独显平台。不过在《鹰击长空》中体现了对混合交火的更好支持,成绩领先i5 2300 + HD 6670独显平台,不过整体3D性能还是略不及HD6750平台。5PConline评测室总结7、PConline评测室总结一、混合交火测试总结:
APU混合交火支持项目列表
支持的项目
A8+HD6670混交
i5+HD6670独显
A8+HD6670混交
A8+HD6750独显
3DMark Vantage
战地:叛逆连队2
异形大战铁血战士
不支持的项目
星际争霸2:自由之翼
混合交火可提升性能:最新DX11游戏基本支持混合交火,提升性能  A8-3850 + HD 6670组建混合交火后,游戏性能比不支持该技术的Core i5 2300+ HD 6670要强不少。对于APU混合交火的支持度,除了3DMark系列这类理论测试软件外,很多最新的DX11游戏支持度比较充足,对于游戏玩家来说是好消息。当然,一些DX9游戏或之前的游戏支持度不足,相信今后游戏会通过补丁或AMD的驱动更新支持。AMD驱动仍需不断完善:&混合交火,驱动仍需改善  对于混合交火而言,驱动是非常关键的一环,目前最新驱动相比发布初有了一定的改善,但部分游戏仍不支持混合交火,部分游戏提升不明显,这些需要AMD驱动团队今后不断努力改善,总之尽量用最新驱动吧。  APU混合交火技术可以让预算不足的消费者,首先购买APU融合平台以节约成本,当有一定资金后可以购置HD 6670显卡进行混交来提升性能,此时平均性能甚至比更高端的HD 6750更加出色,这对于精打细算的玩家来说这种混合交火的魔力肯定无法抵挡。二、混合交火的竞争力与目标人群分析:AMD独有,APU与独立显卡混合交火目标用户群:1、 它都能给你带来什么?  第一:更强的性能,可媲美HD 6750显卡,更好的游戏体验。  第二:节省资金,节省100元就可以获得与更高一级显卡相同的游戏体验。  第三:可玩性,需要一定动手能力,很适合喜欢玩DIY硬件的用户。2、 它不能给你带来什么?  第一:部分游戏不支持混合交火,也就是说性能没有提升。  第二:未来升级比HD 6670更强的显卡后,混合交火失效。  第三:混合交火只支持A卡。竞争力分析:  性能上,最理想状态下,A8-3850 + HD 6670混合交火后,性能赶超四核CPU搭配更高一级的HD 6750显卡,可惜目前支持度还有待完善。  价格上,混合交火关键是HD 6670显卡,该显卡售价目前为599元,比HD 6750便宜100元。目前Athlon II X4 + HD 6750能获得相近的效果,而平台价格却更便宜。  所以,要使混合交火更吸引,要么HD 6670显卡更便宜,要么AMD更加努力完善驱动,发挥比HD 6750更强的性能。就目前而言,混合交火平台更适合尝鲜、喜欢玩DIY硬件的用户。三、A8 APU混合交火配置推荐:
AMD A8-3850
900-1100元
DDR3-1333 4G
Radeon HD 6670(选配)
  A系列APU将在8月大量铺货,目前可以先网购,采用AMD高端APU A8-3850处理器组成的电脑大概元,视乎选用什么主板、是否搭配独立显卡。A8-3850处理器的性能足以胜任主流应用,如果搭配HD 6670独立显卡组建的混合交火,可更好满足游戏玩家的需求。
总排行榜我在第48位
参考价:¥430
网友评分: 4
DIY硬件图赏
DIY论坛帖子排行
最新资讯离线随时看
聊天吐槽赢奖品
浏览本产品的网友还关注:手机签到经验翻倍!快来扫一扫!
这年头,显卡不支持DX11你都不好意思跟人玩游戏!
18287浏览 / 95回复
买来干什么?大部分人跟我一样,为了玩!也许有的人坐不住要说了,玩游戏买游戏机去,买什么电脑?对不起,哥玩的是电脑游戏,有买游戏主机加电视的钱配台电脑玩游戏、聊天、看电影三不误更符合中国国情,也是大多数人的选择,国情不同,环境不同,就像国外分越野、街车、公路赛,各跑各的,在中国3000块买个四不像哪都能跑是一个道理,PS3更像一台公路赛,YAMAHA R1 , 有速度感,但对路面要求严格,买一台玩速度,有点蛋疼;XBO360更像一部川崎越野,比较YAMAHA R1来说,适应的环境更随意,买一台玩越野,蛋疼;Wii更像一台铃木街车,平时代步不错,酷。。。。买一台出门代步,疼;电脑台式机,好像国产天剑125,四不像但是适应任何路面,无所不能,价格低廉,买一台什么都能干,从此再不疼了;好了,不抬杠,言归正传,既然玩游戏就要玩爽!想要真正玩爽,游戏的画面就成了关键指标,这几年得益于技术的发展,游戏画面有了很大程度的提高,不买游戏机,有块好的显卡,哥照样能爽玩游戏,尤其是兼容DirectX11特效的显卡更是将游戏画面的细腻程度带入了前所未有的高度!
其实早在去年10月,AMD就已经发布了首块支持DX11的显卡5970,在接下来的几个月时间里,、5770等等合计11块DX11显卡陆续空降市场,时隔一年,又是金秋十月,AMD带来了第二代DX11显卡,6000系列,同时,Nvidia也发布了不到500块的号称入门级DX11显卡,GT430,
另外还有同样号称第二代DX11的475、580烟雾弹,操作系统方面Windows7对DX11全面支持,系统、硬件都有了,接下来看看即将登场的DX11游戏阵容吧,短时间内即将推出的众多支持DX11的游戏预示着DX11的时代已经来临,下面是目前已经面世的DX11游戏及其主要技术特点汇总如下(按英文首字母排序):《异形大战铁血战士》:曲面细分、多重采样抗锯齿(MSAA)、改进的阴影、更好的性能(CS)《BattleForge》:更好的性能(SSAO和CS)《战地:叛逆连队2》:过滤阴影《文明5》:MSAA、曲面细分、多线程渲染、更好的性能和改进的纹理(CS)《尘埃2》:曲面细分、HBAO和CS《失落的星球2》:曲面细分、CS、改进的阴影《荣誉勋章》(多人模式测试版):过滤阴影《地铁2033》:曲面细分、更好的景深(CS)《潜行者:普里皮亚季的呼唤》:曲面细分、更好的性能(CS)《魔兽世界:大地的裂变》(测试版):更好的性能(CS)很快,AMD就会发布第二代DX11显卡Radeon HD 6000系列,DX11游戏的开发和应用也会随之加速,多款作品都会在今明两年陆续面世。近期DX11游戏主要有(尚未全部确认):《战地1943》《战地3》《Crysis 2》《尘埃3》《永远的毁灭公爵》(性能更好)《F1 2010》(打补丁)《鹰击长空2》《魔戒OL》(打补丁)《两个世界2》《超级房车赛:起点2》游戏画面一览:《尘埃3》游戏画面《孤岛危机2》游戏画面《鹰击长空2》DX11游戏画面《F1 2010》DX11游戏画面《两个世界2》DX11游戏画面《荣誉勋章》DX11游戏画面《魔兽世界:大灾变》DX11游戏画面《文明5》DX11游戏画面《失落的星球2》DX11游戏画面《战地叛逆连队2》DX11游戏画面《地铁2033》DX11游戏画面《异形大战铁血战士》DX11游戏画面《尘埃2》DX11画面《潜行者:普里皮亚季的呼唤》DX11游戏画面俗话说的好,说相声先搞笑,不搞笑就太搞笑了;玩游戏先DX11,不DX11你真都不好意跟人玩游戏~哥用DX11,哥自信~
相关热点内容推荐==================================
支持,支持
强烈帮顶!
楼主好YY呀 应该入手一块GT430玩玩DX10孤岛
对 第4楼 微风吹过的夏天 说:=========================试了 ~~~中等画质还是没问题的~~~
对 楼主 信复活原地变春哥 说:=========================很YY
大作都是!
对 第5楼 信复活原地变春哥 说:=========================应该AA 8X+1080P 爆1024MB显存是米问题的
必须支持DX11
对 第4楼 微风吹过的夏天 说:=========================430还会降价
还直接拉低了AMD的低端卡价格
~还是不错的~
对 第4楼 微风吹过的夏天 说:=========================再顶一楼哥就翻页啦~
对 第10楼 信复活原地变春哥 说:=========================想彻底一点玩爽DX11游戏 起码要460和6850这一等级的卡
强烈帮顶!
只玩GALGAME的毫无压力,管他是DX11还是DX21
实际没什么
强势入手GTX465.破解失败...刷回后正常使用.
电源不够,入手HX620W,回家果断爽上.
开YAMAHA天剑的飘过
图不错....
现在新出的天剑K好像外观不错,但是性能不行了。还不如买钱江
比喻摩托 呼呼
支持键盘翻页 ( 左右 )&
用户名/注册邮箱/注册手机号
其他第三方号登录开创DX11宏图霸业!镭HD5870权威评测
开创DX11宏图霸业!镭HD5870权威评测
泡泡网原创
作者:孙敏杰
当笔者和同事还在沉迷于DX7和DX8游戏不能自拔的时候
当读者们还在为DX9和DX10的画面/性能争论不休的时候
当NVIDIA鼓吹DX10.1无用论却又低调的加入支持的时候
新一代DX11顶着诸多增益魔法踩着华丽的光环从天而降
双倍规格六屏输出21.5亿晶体管的HD5870显卡横空出世
经济危机的阴云已然散去,"显卡危机"也将成为过去式
&&& &&& &&& &&& &&& &&&
&&& && &&&& &&& &&&
&&& &&& &&& &&& &&& &&& &&&
&&& &&& &&& &&& &&& &&&
&&& &&& &&& &&& &&& &&& &&&
&&& &&&&&&& &&& &&& &&& &&&
&&& &&& &&& &&& &&&
&&& && &&&& &&& &&& &&& &&& &&& &&& &&& &&& &&& &&& &&&
&&& &&& &&& &&& &&&
第一章 让游戏运行效率更高!DirectX 11全面解析
HD5800最大的特性就是首次对DirectX 11 API提供完美支持,这套新一代图形引擎将在2009年10月份与Windows 7同时发布,届时也会提供单独的DirectX升级包供Vista安装。因此本文很有必要对DX11的新特性进行全面分析,并与上一代的DX10/10.1做一些对比。第一章/第一节 革命性的DirectX 10回顾
在过去的十几年时间里,DirectX已经稳步成为微软Windows平台上进行游戏开发首选API。每一代DirectX都带来对新的图形硬件特性的支持,每次版本变更都能帮助游戏开发者们迈出惊人的一步。就拿近几年来说,DX9、DX9C、DX10及相关显卡的发布都带来了令人惊讶的游戏画面,给与玩家无与伦比的游戏体验。
尤其是DX10发布后,以Crysis为代表的FPS游戏画面达到了巅峰,显卡实时渲染出来的人物及风景效果足以媲美照片、CG动画甚至是电影,让人叹为观止!
&& 首款DX10游戏《失落星球》DX9对比DX10,牺牲一半速度,画面改进有限
但DX10也不是完美无暇的,其缺陷也很明显,那就是运行效率比较低。当游戏开启DX10模式后,性能下降幅度非常夸张,以至于第一代DX10显卡GeForce 8800和Radeon HD2900都无法在特效全开的情况下流畅运行当时的任何一款DX10游戏!
以两年前发布的DX10代表作Crysis来说,其画面堪称完美,但时至今日依然没有任何一款单核心显卡能在VeryHigh模式下流畅它!即便是顶级的双核心显卡运行起来也很吃力,是因为GPU的发展速度太慢吗?不是的,两年时间显卡的性能已经提高了3-4倍,GPU的发展脚步并没有放缓,问题归根到底还是DX10运行效率较差所致。
下面就先来回顾一下DX10的主要特性:
统一渲染架构让GPU运算单元的利用率更高,但新加入的几何着色器却加重了流处理器的负担,超级复杂的画面场景也给流处理器造成了更大的压力。因此在这几年内,纵使GPU的流处理器数量大增2-3倍、频率也稳步提升,但依然不够用。
第一章/第二节 过渡性的DirectX 10.1回顾
DX10带来了众多绚丽无比的新特效,“滥用”各种特效导致GPU不堪重负。而GPU自身的发展受到诸多因素的制约,如果制造工艺跟不上的话运算能力很难取得突破。因此,必须通过不断改进架构运算效率来进一步提升3D图形性能。在DX10之后,微软也开始将重心集中在如何提升算法和效率上面,而不是一味的加入新特效或提高模型复杂度。
此后微软发布了DX10.1 API,对DX10进行了小修小补,DX10.1主要更新内容有:
DX10.1的更新内容虽然不少,但相比DX10没有什么革命性的改进,大部分内容都是提高GPU的资源利用率、将一些可选标准列为必须,其实不少项目DX10显卡通过修改驱动就能实现。因此DX10.1没能得到游戏开发商足够多的重视,并没有像当年的DX9C那样迅速成为主流。
屈指可数的DX10.1游戏
ATI从HD3000系列开始,也就是第二代DX10显卡中,就全面提供了对DX10.1 API的支持。而对手NVIDIA则对于DX10.1比较抵触,第二代GF9系列和第三代GTX200系列都不支持DX10.1,并且宣称“DX10.1并非必须,DX10也能部分实现”之类的言论。《刺客信条》这款原本支持DX10.1的游戏也迫于压力在新版本中取消了支持。
但是,NVIDIA前几天刚刚发布的GT220显卡却非常低调的对DX10.1提供了支持。在DX11时代即将来临之际,NVIDIA没有将抵制DX10.1的策略进行到底,而选择了妥协,真是令人费解。
DX10.1虽然画面方面改进有限,但运行速度确实加快了
至少,NVIDIA用实际行动证明了,DX10.1虽然改进有限,但也并不是没用。实际上,DX10.1只不过是微软的一个试水石,其目的非常明确,那就是尽可能的提高DX10的渲染效能,达到节约GPU资源的目的,而DX11正是基于这种设计理念而来的。
第一章/第三节 全新的DirectX 11诞生,为高效率游戏而生
从游戏画面逼真度来看,短期内恐怕没有哪款游戏能够达到Crysis的高度,但是这款依靠暴力模型、着色技术和诸多特效堆积而成的游戏,对显卡的要求之高令人叹为观止,至今都没有哪颗GPU敢打包票说能在最高特效下面流畅运行。也就是说Cryengine 3是丝毫没有考虑现有GPU的性能而开发的一款超级引擎。
虚幻3是最高效最成功的引擎,Cryengine只是画面最强的引擎
以高效率著称的虚幻引擎缔造者Tim Sweeney称,想要把现有游戏模型复杂度提高数十倍是很容易的事情(比如CG模型和影视渲染),但同样的你也需要数十倍与现有主机机能的显卡才能流畅运行,比如三路甚至四路顶级系统,而这种系统的市场占有率连1%都不到,独孤求败的Crysis还卖不过快餐式的使命召唤系列、Cryengine至今无法染指游戏机领域就是这个道理。
所以,架空硬件的引擎是不可取的,唯有充分利用有限的GPU资源,通过各种辅助技术最大化画面表现力,才是图形技术公司和游戏开发商首当其冲要解决的内容。
因此,在DX10发布四年、成为主流之后,业界将期望都寄托在了DX11身上,虽然DX11并没有带来全新的特效,但却通过各种手段提升了GPU的渲染效率,当GPU有了富裕的运算资源之后,游戏开发商就可以大胆的去使用更多的特效和技术,如此一来DX11游戏很容易就能从画面到速度全面超越DX10游戏!
DX11最关键的特性有以下五点:
1. Tessellation:镶嵌式细分曲面技术(第三章做专门解析)2. Multi-Threading:多线程处理3. DirectCompute 11:计算着色器(第二章做专门解析)4. ShaderModel 5.0:着色器模型5.0版5. Texture Compression:纹理压缩
下面笔者就对这些特性进行详细分析,来看看DX11是通过什么手段来提升渲染效率的。
第一章/第四节 Shader Model 5.0
Shader(译为渲染或着色)是一段能够针对3D对象进行操作、并被GPU所执行的程序,ShaderModel的含义就是“优化渲染引擎模式”,我们可以把它理解成是GPU的渲染指令集。历代DirectX每逢重大版本升级时最主要的更新内容就包括在了ShaderModel之中:
ShaderModel 1.0 → DirectX 8.0&&& ShaderModel 2.0 → DirectX 9.0b&&& ShaderModel 3.0 → DirectX 9.0c&&& ShaderModel 4.0 → DirectX 10&&& ShaderModel 5.0 → DirectX 11
高版本的ShaderModel是一个包括了所有低版本特性的超集,对一些指令集加以扩充改进的同时,还加入了一些新的技术,现在我们就来看看DX11 SM5.0都有哪些新特性:
由于统一渲染架构的特性,Shader Moder 5.0是完全针对流处理器而设定的,所有类型的着色器,如:像素、顶点、几何、计算、Hull和Domaim(位于Tessellator前后)都将从新指令集中获益。
其中,覆盖采样及Gather4纹理拾取两项指令是从在DX10.1基础上发展而来的,SM5.0要比SM4.1更加智能和灵活,它可以针对特定颜色分别采样、还能自动识别可做阴影映射的值,精度和效率都进一步提高。
由于DX10.1与DX10在指令方面的相似性,现有的DX10.1游戏可以很容易的通过更新程序代码升级支持DX11,从而获得更好的运行效率,比如《风起云涌》、《潜行者》、《科林麦克雷》将会率先引入DX11。
第一章/第五节 Multi-threading多线程处理
如果一个软件能够对多核心多线程处理器进行优化的话,那么在使用双核或四核处理器时,其运行效率将会提升2-4倍,遗憾的是如今的游戏都无法支持多核处理。
通过大量的游戏性能测试来看,GPU占绝对主导,而CPU只是考验单核效能,通过对CPU极限超频可以让游戏性能提高不少,但使用四核或者带HT技术的“八核”处理器几乎不会有任何性能提升。在多核成为大势所趋的情况下大量CPU资源被白白浪费,瓶颈可能依然卡在CPU上面。
DX11当中新增的多线程处理技术,则是专门针对多核应用而生的,它通过引入“延迟执行”的指令将一个渲染进程拆分为多个线程,并根据处理器核心/线程数设定延迟执行内容的数目。多线程的涵义是非常广的,每一帧画面可以被分为几个图层,每个图层又可以分为N个区块,所有的这些都可以被并行调度到延迟执行的线程之中。
这是一项很聪明的技术,标记为“立即执行”的线程与传统的渲染没有区别,而标记为“延迟执行”的线程则可以在后台将图形生成所必须的资源做预先的存取,比如纹理拾取、像素生成、常数缓冲等操作都可以多线程并行处理,通过多核CPU富裕的资源来减少程序等待时间,从而使得渲染不再受到CPU的瓶颈制约。
多线程技术是非常灵活的,它既可以在游戏中通过程序代码来控制,也可以通过DirectX自动分配,还能够通过驱动程序进行优化。即便是驱动没有针对多核进行优化,DX11运行库也会通过模拟的方式提供新的功能,也就是说所有DX11游戏都将或多或少的从多核多线程CPU中获益。
多线程技术的引入对于双卡甚至多卡互联系统更为重要,以往多颗GPU在DirectX中只能模拟成一个虚拟GPU,所有的GPU必须共享指令缓冲区并接受CPU调度,渲染线程的拆分与合并指令延迟都很大,GPU越多则效率越低!而在DX11当中,如果用四核CPU搭配四路交火系统的话,每颗CPU都可以单独控制一颗GPU的渲染线程,在均分CPU负担的同时,提高了GPU资源利用率,从而大幅提升游戏性能。
其实多线程技术也能应用在DX9/DX10甚至是OpenGL上面,但由于API及函数指令的限制,开启多线程会产生很多重复的指令,导致性能提升有限甚至不升反降,因此微软并不建议在旧API模式开启多线程模式,除非程序员做过严格的测试与优化。
第一章/第六节 两种新的纹理压缩格式
丰富的纹理细节对于最终图像的质量尤为重要,目前的游戏也都在朝着超大规模、超精细的纹理细节方向发展。但是,大规模的纹理非常占用显存以及带宽。而纹理压缩就是为了解决这个问题,将大规模的纹理以一种优化的算法进行压缩。试想,如果图象的纹理都不进行压缩的话,那么2GB的显存容量恐怕都不够用。
细致的纹理效果
但是,目前纹理压缩技术并不支持HDR(高动态范围)图像,这也是开启HDR很占用显存的一个很大的原因。为了解决这个问题,DirectX 11加入了两种新的压缩算法——BC6H和BC7。其中,BC6H是专门针对HDR图像设计的压缩算法,压缩比为6:1;而BC7是专门给高品质RGB[A]纹理设计的压缩算法,压缩比为3:1。
上图展示的是图像通过BC6H压缩模式进行压缩的前后效果对比图。其中左边的图像为原始图像,中间的是在压缩过程中损失的一些细节,而右边的就是压缩后的图像。可以看出,从画质上来看几乎没有损失(肉眼看不出),但是却可以大幅度降低显存的占用。
这幅图展示的是BC7针对LDR纹理的压缩与传统的BC3纹理压缩对比。可以看出传统的BC3纹理压缩损失了大量的纹理细节,压缩之后的效果也很不好。而采用BC7算法压缩后的纹理,丢失的细节很少,效果也非常好,这就是改进纹理压缩的魅力。
第二章 DirectCompute:不止是通用计算
此前在测试阶段,微软将DirectX 11中包含的GPU通用计算称为Compute Shader或DirectX Compute,而在近期的正式版本中又改名为Direct Compute,一字(X)之差何必呢?显然,微软为了将GPU通用计算和主要是3D应用的DirectX区别开,进一步凸出Direct Compute的重要性并与OpenCL分庭抗力,由此足以见得微软对GPU通用计算的重视程度。
DirectCompute主要针对GPU计算,但由此可以衍生出一些在图形渲染方面的特殊应用,因此笔者将其单列一章,对一些重要技术进行详细介绍。
第二章/第一节 DirectCompute与Stream/CUDA/OpenCL的关系
提起GPU通用计算,自然会让人想到NVIDIA的CUDA、ATI的Stream以及开放式的OpenCL标准,再加上微软推出的DirectCompute,四种技术标准令人眼花缭乱,他们之间的竞争与从属关系也比较模糊。
首先我们来明确一下概念:
OpenCL类似于OpenGL,是由整个业界共同制定的开放式标准,能够对硬件底层直接进行操作,相对来说比较灵活,也很强大,但开发难度较高;
DirectCompute类似于DirectX,是由微软主导的通用计算API,与Windows集成并偏向于消费领域,在易用性和兼容性方面做得更出色一些;
CUDA和Stream更像是图形架构或并行计算架构,NVIDIA和ATI对自己的GPU架构自然最了解,因此会提供相应的驱动、开发包甚至是现成的应用程序,通过半开放的形式授权给程序员使用。
ATI Stream示意图
其中ATI最先提出GPGPU的概念,和AVIVO是当年的代表作,但在被AMD收购后GPGPU理念搁浅;此后NVIDIA后来者居上,首次将CUDA平台推向市场,在这方面投入了很大的精力,四处寻求合作伙伴的支持,并希望CUDA能够成为通用计算的标准开发平台。
NVIDIA CUDA示意图
在NVIDIA大力推广CUDA之初,由于OpenCL和DirectCompute标准尚未定型,NVIDIA不得不自己开发一套SDK来为程序员服务,这套基于C语言的开发平台为半开放式标准,只能用于NVIDIA自家GPU,因此并未得到业界的认可,AMD认为CUDA是封闭式标准,不会有多少前途,AMD自家的Stream虽然是完全开放的,但由于资源有限,对程序员帮助不大,因此未能得到大量使用。
OpenCL一经提出就受到业界的大力支持
于是在去年由苹果牵头,以苹果OpenCL草案为基础,联合业界各大企业共同完成了标准制定工作。随后Khronos Group成立相关工作组,工作组的26个成员来自各行各业,且都是各自领域的领导者,具体包括3DLABS、Activision Blizzard、AMD、苹果、ARM、Barco、博通、Codeplay、EA、爱立信、飞思卡尔、HI、IBM、Intel、Imagination、Kestrel Institute、摩托罗拉、Movidia、诺基亚、NVIDIA、QNX、RapidMind、三星、Seaweed、TAKUMI、德州仪器、瑞典于默奥大学。
OpenCL标准一经成立,IT三巨头Intel、NVIDIA和AMD都争先恐后的加入支持。AMD由于自家Stream推广不利、支持OpenCL并不意外;Intel即将发布的Larrbee GPU一大卖点就是强大的计算能力,支持OpenCL有百利而无一害;NVIDIA虽然在大力推广CUDA开发平台,但无奈势单力薄,小有所成但前途未卜,OpenCL虽然与CUDA C语言有交集但并不冲突,是相辅相成的互补关系,NVIDIA自然也大力支持。
OpenCL组织中唯独微软不在其列,微软有自己的如意算盘。经过多年的发展,DirectX凭借快速更新换代策略、相对轻松的开发与移植方式,在与OpenGL的交战中已全面占据上风,OpenGL的传统强项——专业绘图领域也在被DirectX不断的蚕食。因此微软打算用相同的策略来对抗尚未站住根基的OpenCL,于是DirectCompute诞生了。
就如同GPU能同时支持DirectX与OpenGL那样,NVIDIA和AMD对DirectCompute和OpenCL都提供了无差别支持,真正的GPU通用计算之战,不在CUDA与Stream之间,而是OpenCL与DirectCompute之争,DX11时代才刚刚开始……
第二章/第二节 DirectCompute 10/11版本间的区别
虽说DirectCompute标准才刚刚问世,但目前已经有了三个版本,它与微软的DirectX版本是一一对应的(10.0、10.1、11.0),毕竟DirectCompute目前还只是DirectX的一个子集,羽翼未丰之前难以自立门户。
简单的拖曳操作,就能使用Win7内置的GPU视频转码程序
10月份即将发布的Windows 7操作系统将会内置DX11及DirectCompute,对GPU通用计算提供原生支持。Win7对GPU的要求放得很宽,只要支持DX10即可,当然DX10.1更好DX11最完美。
DirectCompute是与DX11一同发布的,因此相比“过去式”的10.0版,DirectCompute 11作出的改进比较多:
可以看出,同DX11类似,DirectCompute 11的改进主要集中在降低系统资源开销与提高效能方面,也就是说新的DX11显卡会有更强的通用计算效能。而旧的DX10显卡虽然会慢一些,但实现的功能也不会差多少,如此一来就完美的解决的兼容性问题,也能很好的凸出新显卡的优势,用户和厂商皆大欢喜。
虽然DirectCompute的主要任务是用来处理非图形运算,但很多时候它还是需要做一些图形相关的擦边球任务、或者是辅助图形渲染,比如说视频数据处理、物理运算、人工智能等,这些操作最终还是需要通过显卡输出至屏幕,因此计算着色器会经常与像素着色器打交道,当像素着色器使用到计算着色器的新特性之后,就会衍生出一些意想不到的新特效。
接下来就为大家介绍一些属于DirectCompute 11的新技术,当然它们也属于DX11的范畴。
第二章/第三节 DirectCompute 11新特效:顺序无关透明化
烟雾、火焰、流水、玻璃、树叶、栅栏、头发……游戏中所出现的半透明物体数不胜数,程序员很难给这些物体设计一个固定的模型,它们不规则、随机的特性决定了单纯依靠传统的像素着色或者纹理贴图都是行不通的,因此这类物体有了一个新的称呼——Order Independent Transparency (OIT,顺序无关透明化)。
传统的透明混合效果很差
此前,程序员必须在每帧渲染之前对透明模型进行深度排序或者执行诸如深度剥离的Multi-Pass(多次)算法,以达成模型间正确的透明度。不管哪种办法,都不能像非透明模型那样实现正确的局部的Post-Processing(后处理)效果,而且会消耗很多资源。
DX11则首次在没有额外专用电路的情况下,透过一个每像素空间数据结构对多个透明表面的排序实现对顺序无关透明化的支持,解决方法就是让GPU参与运算,通过使用DirectCompute 11新增的原子操作,无需直接软件管理就能往分级缓存的不同层级装载数据,依照每个像素透明层数来分配独占的内存。如此一来程序设计的复杂度显著降低,并且数据结构可以采用难以预测的非结构化的内存存取,DirectCompute 11新增的附加缓冲也会派上用场。
由于DX10不支持原子操作,因此无法支持顺序无关透明化这项新特效,只能依靠传统的方式来实现差强人意的效果。而DX11不但画面更好,而且实现效率非常高,大量使用附加缓冲从而节约了显存带宽消耗。
上面的视频就是由HD5870实时演算出来的,机器人本身就是半透明的骨架,为其附加一层厚厚的外壳后,即便进行剧烈运动,性能也没有多少损失。DirectCompute 11不但让半透明物体的程序设计变得轻松,而且实时渲染效能也大幅提升,可以预见未来的DX11游戏将会大量使用半透明效果。
就像大家通过数码相机拍完照片后需要经过PS处理一样,3D模型在GPU内部渲染完成后也会经过后端处理才会显示在屏幕上,这一过程叫做“Render Post-Processing”(渲染后端处理),常见的如“边缘侦测与抗锯齿、各向异性过滤、景深、运动模糊、色彩映射、滤波、锐化”等一些列特效都是在这一阶段加上去的。
GPU有专门负责渲染后端处理的模块,叫做“Render Back-Ends”(ROPs),也就是通常所说的光栅单元,这个模块位于流处理器与显存控制器之间,也就是说它渲染完毕后将会把数据直接输出到显存与屏幕。
第二章/第四节 DirectCompute 11新特效:渲染后端处理之景深
在DX10时代,光栅单元的任务量是很重的,如果大量使用后端处理特效的话,很容易出现像素着色器等待光栅单元的情况出现。所以很多DX10游戏的GPU负载还不如DX9C游戏就不足为怪了。而DX11则通过一个巧妙的方式降低了光栅单元的负担,确保流处理器和光栅单元能够协同工作,原理依然是使用计算着色器。
各种后端处理特效的最终效果虽然千差万别,但它们大多数都有一个共同的特点,那就是需要对比相邻位置像素或者相邻帧之间像素的差别,然后进行对比与合成。这一拾取动作其实只用一个函数就能完成——Gather4,它使得计算着色器能够越权进行数据采集动作,帮助纹理单元和光栅单元的减轻负担,而且计算着色器的数据采集速度是专用单元的4倍!
DX10版景深处理
具体一点例子,比如DX10级别的运动模糊和景深特效,都是通过几何着色来实现的,通过几何着色控制运动物体的坐标变换与像素监控,或将深度帖图中的纹理信息按照距离拆分到缓冲,然后分为几个不同的视角进行渲染,最后合成完整的图像,实现比DX9C更精确、更流畅的特效。画面效果是更出色了,但几何着色并没有帮助光栅单元做任何事情,数据处理反而翻了好几倍,导致性能下降比较严重。
而通过使用DirectCompute 11中的新指令,后端处理特效可以最大限度的降低显存读写次数、大幅降低光栅单元的负担,当然流处理器将会承担更多的任务(几何着色、计算着色、像素着色),但依然能够保持相对的平衡,不会出现DX10当中GPU资源负载不均的情况。
这个演示视频将景深特效表现的淋漓尽致,它模拟摄像机调整对焦的方式,实时切换主角并虚化背景,整个过程与人眼、照相机、摄像机的毫无二致。这项全新的景深渲染技术是由AMD与加州大学伯克利分校首创的,它同样无需任何额外专用的电路,只要显卡支持DirectCompute 11即可,兼顾性能与效果,非常完美!
第二章/第五节 DirectCompute 11新特效:渲染后端处理之高清晰环境光遮蔽
“环境光遮蔽”(Ambient Occlusion,AO)是一种非常复杂的光照技术,通过计算光线在物体上的折射和吸收在受影响位置上渲染出适当的阴影,进一步丰富标准光照渲染器的效果。“屏幕空间环境光遮蔽”(SSAO)就是该技术的一个变种,现已用于《潜行者:晴空》、《火爆狂飙》、《鹰击长空》、《帝国:全面战争》等游戏。
《鹰击长空》支持SSAO和DX10.1
&&& SSAO是DX10.1的一项新特性,通过使用Gather4技术实现更快速、更精确的纹理过滤,虽然DX10.1版Gather4只能处理单一的颜色分量,但依然对处理阴影内核和SSAO挺不错,因为深度缓冲是一个单颜色分量。DX10显卡通过更新驱动也能支持SSAO,NVIDIA就在驱动当中提供了SSAO选项,但由于性能损失很大默认情况下关闭的。
晴空也支持SSAO,而STALKER新版则支持HDAO,效果更上一层楼
在DX11时代AO效果又有了更优秀的版本,AMD称之为High Definition Ambient Occlusion,简称HDAO,翻译为高清晰环境光遮蔽。这是一种基于纹理的阴影技术,能提供比普通环境光遮蔽更好的效果,同时保证系统性能足够好。
下面就来看看AMD自己对HDAO技术的演示Demo:
首先是关闭HDAO的效果,帧率188FPS
打开HDAO,阴影真实了很多(尤其是坦克履带),但帧率骤降到20FPS以下
最后,使用DirectCompute 11技术,在打开HDAO的模式下渲染正率提升至44FPS,性能提升两倍以上,基本可以保证游戏流畅度。
DX11大作《异形大战铁血战士》将会大量使用HDAO特效。
第三章 DX11之ATI独门绝技Tessellation全解析
Tessellation技术是DX11的关键特性之一,这里之所以要把它单独提出来列为一章,是因为该技术与ATI有着很深的渊源,可以说Tessellation是ATI一手策划,经过多年的改进与完善而来的独门绝技。
第三章/第一节 并不陌生的Tessellation技术
虽说Tessellation是ATI的独门绝技,但这也并不意味着N卡无法支持Tessellation技术,在DX11吸纳了Tessellation之后,未来NVIDIA的DX11显卡应该也会加以支持。
Tessellation技术让模型变得更加细腻
Tessellation一词相信很多人都有印象,没错,它就是ATI第一代DX10核心R600(HD2900XT)中的一个特殊模块,从HD2000系列开始、到HD3000再到如今的HD4000系列,ATI的每一款DX10显卡都支持这项技术,虽然还没有任何一款游戏能够支持该技术,但ATI依然孜孜不倦的对它提供支持,因为ATI坚信——是金子总会发光的!
终于在DX11时代,微软将Tessellation作为一项重要标准纳入规范之中,这项被埋没多年的技术得以重见天日。那么Tessellation究竟是何方神圣,让ATI技术人员如此执着,微软到底是“禁不住软磨硬泡”、“勉为其难”的吸纳之,还是为其先进的特性所倾倒,欣然接纳之?故事还得从七年前的Radeon 8500系列谈起……
第三章/第二节 2002年R200:Tessellation的鼻祖N-Patch及TruForm
话说2001年7月的时候,微软即将推出DirectX最新的8.1版本,所以就在Meltdown2001会议上把ATI、NVIDIA等一干图形技术公司叫来开会,一起商定DX8.1的一些技术细节。这次会议可以说是图形图像界的“华山论剑”,不光有主办商及核心厂商可以参加,媒体甚至也可以买票入场,票价是650美元,当时著名的八卦网站TheInquirer就参加了这次会议(要不是它我们就不知道这段典故了)。据他们报道,由于技术细节方面的争执比较大,NV和微软的关系搞得有点僵,而且NV拒签当时正在开发的DX9协议。
2001年7月 西雅图 ATI无疑成为了Meltdown2001的主角&&& 讲这段八卦历史并不是为了讨论谁和微软走的更近,而是因为这次会议上其实就决定了DX8.1标准及部分DX9标准。微软这次在DX8.1的规范中提出了一个叫做“N-Patch”的技术,相比之前的各种虚拟3D和位移贴图技术而言是一种非常精妙的技术。它能够像位移贴图那样自动创造顶点,但是却不需要高度图来做参数,使模型自动的变得极为光滑。
&& 原始模型和经过N-Patch处理之后的效果
N-Patch技术的原理是这样的:GPU在读取了一个模型之后,判断每个三角形三个顶点的法线向量,再根据这三个向量算出插入的顶点的位置。如此一来就能将一个简单的、有棱有角模型通过“差值”的算法实时处理成为复杂的、圆滑的模型,在当时GPU运算能力极为有限的情况下,N-Patch技术可以大幅提升3D模型的细节和显示效果。
NPatch技术非常适合于将一个模型变得“圆滑”。因此非常适合于一些有很多曲面的模型。因为对于曲面的表现,通常的表现方法只是尽量多的使用内割多边形或者外切多边形来模拟曲面的效果。N-Patch技术的巧妙之处就在于算法简单,只要进行多次递归运算,就能将一个面做成一个高次曲面,N-Patch这个词的本意也就是一个N次曲面。
次年(2002),在ATI的R200(Radeon 8500)显示芯片中,就率先采用了N-Patch技术,在ATI自己的官方介绍中称之为“TruForm”。
● TruForm技术的BUG:
TruForm的好处是效率会比位移贴图高,以极低的资源消耗实现极佳的显示效果。不过呢,这个技术比较适合于海豚、赛车等表面为曲面的模型上,而如果这个技术应用在坦克等不需要做曲面化的模型上的时候,效果就会变得相当的滑稽。
英雄萨姆中枪械模型发生变形现象(不该圆滑的表面被圆滑)
CS中人物模型变成了“胖子”(人体又圆又胖)
虽然TRUFORM技术非常具有创意,而且还能给大家带来意象不到的快乐,但是这一技术的应用情况并没有像微软和ATI所期望的那样。正是因为产生了这一滑稽的BUG,TruForm在整个DX9a/b/c时代便销声匿迹了。
第三章/第三节 2005年Xenos:Tessellation登陆XBOX360主机
由于考虑不周导致技术不成熟的原因,ATI在DX9时代不再整合TruForm功能。但是,微软和ATI都没有放弃这一极具创意的技术,N-Patch/TruForm的设计初衷就是节约GPU资源,通过简单高效的手段让低模3D游戏摇身变为高品质模型。
到了2005年,在微软与ATI的合作结晶——专为XBOX360设计的图形芯片Xenos当中,经过改进的N-Patch/TruForm技术重出江湖,这次它有了一个很响亮的名称——Tessellation,直译为“拆嵌”意译为“细分曲面”。
此次微软和ATI吸取了教训,Tessellation不再像TruForm那样自作聪明的对所有模型强制进行曲面细分化,而是按照不同游戏中特定模型的需求有针对性的处理。因此以往的BUG不复存在了,但需要游戏本身提供支持才能生效。
应用了Tessellation技术的XBOX360游戏画面
通过为数不多的支持Tessellation技术的XBOX360游戏来看,细分曲面技术让模型细节变得极为丰富,事实上这些游戏专门挑选了一些动物模型让Tessellation处理——这显然是它的拿手绝活!
除了大幅提升模型细节和画质外,Tessellation最吸引程序员的地方就是:他们无需手动设计上百万个三角形的复杂模型,只需简单勾绘一个轮廓,剩下的就可以交给Tessellation技术自动拆嵌,大大提高开发效率;而且简单的模型在GPU处理时也能大幅节约显存开销,同时大幅提升渲染速度!
不过,Tessellation技术依然具有局限性,而且很多游戏开发商都在跨平台开发游戏,对于这项只有XBOX360支持、PS3和PC显卡都不支持的技术不感兴趣,因此支持Tessellation的XBOX360游戏屈指可数。
Xenos这颗基于R580核心的特殊DX9C GPU,除了首次支持Tessellation和当时先进的HDR+AA技术外,还第一次采用了统一渲染架构,这些技术都被ATI改进并沿用到了DX10时代。
第三章/第四节 2007年R600:Tessellation卧薪尝胆
现在看来,R600核心是一款非常失败的产品,功耗高、发热大、性能低、AA效能差,但是当R600(320SP)的架构扩充至RV770(800SP)的规模时,就没人敢轻易对这套体系架构评头论足了。事实上R600的失败在于冒险采用80nm工艺、512Bit环形总线、以及Shader AA,而其核心架构的运算能力并不输给竞争对手,因而一直被沿用至RV670、RV770还有如今的RV870身上。
R600除了完全按照DX10和统一渲染架构设计外,还整合了一个特殊的模块:Programmable Tessellator,可编程拆嵌器。由于这个可有可无的模块占用晶体管并不多,因此AMD之后的全系列DX10 GPU中都集成了可编程拆嵌器。
R600核心架构图
这个可编程拆嵌器可要比XBOX360高明很多,R600核心能够根据3D模型中已经有的顶点,根据不同的需求,按照不同的规则,进行插值,将一个多边形拆分成为多个多边形。而这个过程都是可以由编程来控制的,这样就很好的解决了效率和效果的矛盾。
Tessellation技术让模型变得更加细腻
&&& 现在我们就更容易理解Tessellation技术是怎么回事了,它是一种能够在图形芯片内部自动创造顶点,使模型细化,从而获得更好画面效果的技术。Tessellation能自动创造出数百倍与原始模型的顶点,这些不是虚拟的顶点,而是实实在在的顶点,效果是等同于建模的时候直接设计出来的。
R600的Tessellation技术支持多种决定插值顶点位置的方法来创造各种曲面:&1. N-Patch曲面,就是和TRUFORM技术一样,根据基础三角形顶点的法线决定曲面。2. 贝塞尔曲面,根据贝塞尔曲线的公式计算顶点的位置。3. B-Spline, NURBs, NUBs 曲线(这三种曲线均为CAD领域常用曲线,在Maya中均有相应工具可以生成)4. 通过递归算法接近Catmull-Clark极限曲面。
有了多种无比强大的曲面生成技术,在加上可编程的设计,程序员在开发游戏之初就能根据需要制定相关模型采用何种细分法则,从而避免出现变形和失真的问题。
而且,Tessellation过程被安排在了顶点着色之前,这就意味着Tessellation所创造出来的顶点全都可以参与Vertex Shader的处理和运算。这些顶点所带来的所有细节,将具备所有特效。
基本的顶点模型,最终生成效果很幼稚
经过Tessellation智能拆嵌之后,模型精细了很多
拆嵌后再辅以各种阴影及着色效果,从而以很小的代价达到CG级别画面
在R600发布时,AMD拿出了一款CG级别实时渲染的Demo,其中被积雪所覆盖的山体就是由Tessellation生成的。以往的演示Demo都是片面注重对主角的修饰,而背景往往只使用简单的纹理贴图,而R600的这个Demo其背景和环境的精细程度甚至超越了主角Ruby。
HD3000/HD4000继续支持Tessellation
可惜,时至今日,只有ATI的官方Demo使用了自家的Tessellation技术,还没有任何一款PC游戏支持这项被孤立于DX10之外的非主流技术,看来仅靠AMD还是孤掌难鸣的。
第三章/第五节 2009年RV870:Tessellation被正式纳入DX11,修成正果
在AMD的不懈努力下,虽然PC游戏开发商依旧无动于衷,但这个小小的可编程模块却受到了一些好莱坞CG影片设计公司的青睐,因为CG动画对模型细节的精细程度要求十分苛刻,而Tessellation技术能够以很小的资源开销让模型细节丰富百倍,这种近乎免费的画质提升无疑是非常诱人的。
Tessellation能够同时加强地形和人物皮肤细节
此后AMD将重心转移至CG领域,并提出了Cinema 2.0的概念,为中小型图形公司提供技术支持,灵活应用Tessellation技术来高效的创作视频短片及广告特效。因此在DX10时代,虽然ATI全线显卡均支持Tessellation技术,但AMD却没有像DX10.1那样做大张旗鼓的宣传。
等到DX11正式接纳Tessellation时,AMD已经是第六代技术了,真不容易
经过多年的发展,Tessellation已今非昔比,这款历经磨难、饱受屈辱、在逆境中茁壮成长的技术现在更加灵活、高效、实用,微软认为时机再次成熟,于是被名正言顺的纳入DX11的范畴。
消息一出,立马就有回应。《战地:叛逆连队2》第一个跳出来声援,号称全球首款DX11游戏,该游戏使用了新版Frostbite Engine,而ATI R600 Demo使用的正是该引擎:
让人印象深刻的雪山背景,这就是AMD与DICE合作开发的Ruby Demo
据DICE渲染架构师Johan Anderson称,从DX10到DX11的实际导入过程仅仅花费了三个小时,其中在代码里搜索和替换相关部分最耗时间。现在我们就不难理解战地引擎升级支持DX11为何如此神速了,两年前的战地引擎就能支持Tessellation技术,现在只不过是查找复制粘贴重新找回被闲置的代码而已,那还不是轻车熟路?
战地引擎的使用者不在少数,看来Tessellation技术以及DX11很快就将进入实际应用阶段,卧薪尝胆的Tessellation终于重见天日!
第三章/第六节 DX11版Tessellation的改进
当然,微软并不是原封未动的将R600的Tessellation技术抄到DX11之中,而是对其进行了优化,使之能与渲染流程完美的结合在一起,可以更高效率的细分出更多的多边形和曲面。
为了配合Tessellator模块的工作,DX11中引入了两个新的着色器:外壳着色器和域着色器,分别位于镶嵌器的前后。而此前的DX10 A卡并不具备这个功能。
虽然处理流程不同,但工作原理是相似的,此前用做DX11 Tesselltion原型测试的都是ATI DX10显卡。只要游戏不作出硬性限制,目前的A卡就能实现细分曲面的特效,只不过在速度和效果方面不如DX11好。
第三章/第七节 Tessellation在DX11游戏中的应用实例
由于此前的ATI DX10显卡已经具备了超前的Tessellation技术,因此在即将问世的DX11游戏中,使用最多的新技术非Tessellation莫属,通过导入Tessellation,可以大幅提升模型细节,由此所产生的视觉震撼远比那些在阴影或光照方面的改进显著。
《异形大战铁血战士》里面的异形
点击放大查看模型细节的改进
使用Tessellation替代传统的凹凸贴图,层次感更强
《科林麦克雷:尘埃2》中Tessellation技术几乎是无处不在
DIRT2简直是Tessellation技术的代言人,随风飘扬的旗帜、地形细节、水面渲染……此外,之前介绍过的战地2引擎也堪称Tessellation技术的代表作,ATI的Ruby Demo就是用战地2引擎制作的,导入DX11技术后的战地2引擎将会在明年正式发布。
第四章 DX11游戏实测+视频
第四章/第一节 DX11游戏并不遥远:第4季度发布4款
2006年11月,首款DX10显卡GeForce 8800GTX发布,当时还没有任何有关DX10游戏的影子,直到7个月后第一款DX10游戏《失落星球》才正式发布。
2007年11月,首款DX10.1显卡Radeon HD3870发布,当时DX10.1并未引起玩家和业界的重视,5个月后第一款DX10.1游戏《刺客信条》发布,结果因为众所周知的原因很快就被“和谐”了。
如今,首款DX11显卡Radeon HD5870横空出世,也将面临无DX11游戏可玩的局面,但这次玩家们不用等太久了。AMD称在2009年第四季度,将会有四款DX11游戏正式发布(注意绝非测试版),2010年初陆续会有大作及DX11引擎面世。
不出意外的话,已经加入DX10.1支持的EA RTS网络游戏《BattleForge》将会拔得头筹,率先通过补丁升级支持DX11,预计将会在9-10月之间。
已经支持DX10.1技术的《潜行者:晴空》续作《潜行者:普里皮亚季的召唤》将会是第一款原生DX11游戏。
《科林麦克雷:尘埃2》完全使用DX11引擎缔造,通过目前泄漏的图片和视频来看,称之为最强赛车游戏豪不为过。
AMD提供给媒体的5款DX11游戏Demo
最微软最新的2009年8月DirectX更新包中,就包含了对DX11的支持
现在,我们已经率先拿到了这几款DX11游戏的测试Demo,接下来我们就使用HD5870显卡对其进行测试,来一窥DX11显卡的实例和DX11游戏的魅力。
第四章/第二节 DX11游戏大作:《异形大战铁血战士》
关于异形和铁血战士这两个名词,最早要追述到20世纪福克斯公司在1979年上映的卖座电影《异形》和1987年上映的卖座片《铁血战士》,很多影迷都对两个系列电影很熟悉,它们讲述的都是人类对抗太空外来生物的故事。而首度将两个系列中的人类强敌异形和铁血战士放在一起,主要出自黑马漫画(Dark Horse Comics)出版的同名漫画《Aliens vs Predator》(异形大战铁血战士),这部漫画又形成了一系列的游戏,在1990年代的游戏家用主机平台和街机推出过很多同名游戏。
最终连20世纪福克斯公司也觉得这个大乱斗主意不错,于是在2004年出品了一部电影就叫做《异形大战铁血战士》。这部电影上映之后,又出现了几部游戏仍然叫做《异形大战铁血战士》,其中有一部就是Rebellion开发的PSP版《异形大战铁血战士:挽歌》(Aliens vs. Predator: Requiem),这部游戏2007年11月上市,品质很差。
今天提到的这部《异形大战铁血战士》,英文名称还是“Aliens vs Predator”,也由Rebellion开发,世嘉发行。将会与2010年初与电影《异形大战铁血战士3》同步发行,因此备受影迷和游戏玩家们期待。
与其它粗制滥造骗钱的同名电影改编游戏不同,《异形大战铁血战士》不仅在剧情和游戏可玩性方面下足了功夫,而且在游戏画面方面将取得突破,AVP将会完全采用DX11引擎设计,大量使用最新的技术和特效,力图营造出接近电影品质的电脑游戏。
在2560分辨率下运行AVP Demo
AMD提供的《异形大战铁血战士》Demo还不完整,只能显示静态场景,但已经足以凸出DX11的技术优势和AVP的画面了。以下就是笔者运行游戏时的截图:
AVP支持DirectCompute 11指令辅助渲染,可以看出在开启计算着色器后,游戏的帧数要比单纯像素着色器渲染更高,DX11高效率的优势体现出来了。
DX11新增的HDAO(高清晰环境遮罩)技术,效果要优于DX10.1当中的SSAO(屏幕空间环境光遮蔽),但性能损失确实不少,HDAO打开后帧数一下从76降至49。
动态软阴影开启前后的画面差别还是很大的,性能损失尚能接受。
开启Tessellation技术前后,异形的模型复杂度提升上百倍。
而性能损失却很小,因为Tessellator是一个额外的模块,不会消耗额外的资源。通过实际截图来看,异形的模型改善不是很多,这主要是因为截图是个静态画面,只有当异形的身体运动起来,才能体现出高精度模型的优势。
第四章/第三节 DX11游戏大作:《科林麦克雷:尘埃2》
《科林麦克雷:尘埃》本身是一款为纪念去世的英国拉力赛车手科林.麦克雷(Colin McRae)而制作的游戏,因此在游戏过程中不难见到许多麦克雷过往的身影。距前作将近二年多之久的《科林麦克雷:尘埃2》主机版已经上市。 登陆平台:Xbox 360、PS3、Wii主机,及PSP、DS掌机。PC版由于支持DX11的缘故,需延至今年12月。
俗话说慢工出细活,PC版将会带来很多令人惊讶的特效和技术,当游戏机还停留在DX9C画面之时,PC版就可以在DX11模式下使用超高分辨率并开启高倍AA流畅运行,整个游戏都焕然一新了!
此前DX10引擎的《科林麦克雷:尘埃》绝对是赛车类游戏的画面之王,令《极品飞车》系列黯然失色,此次续作率先引入DX11支持,画面表现更上一层楼,而由于运行效率的提高,对显卡的需求不会太夸张,但至少需要DX11的支持才能体验。
第四章/第四节 DX11游戏:《BattleForge》
《BattleForge》是一款史诗性的大型多人在线即时战略游戏(RTS),将网游和即时战略无缝结合在了一起。游戏不仅保留了即时战略游戏的精髓,并允许玩家在网络环境中与朋友进行卡牌交易和收藏,玩家可以通过收集、交易卡片来组建自己的军队,征服战场。《BattleForge》凭借多人在线的游戏设计及完整的社交沟通系统,一举成为战略游戏界的先锋之作。
从技术角度讲,这款游戏也非常值得关注,因为它率先提供了对DX10.1技术和屏幕空间环境光遮蔽(SSAO)特效的支持,还针对多核心处理器进行了优化。
因为支持DX10.1的缘故,A卡在该游戏中的表现十分抢眼,HD4870就能接近GTX285的水平。游戏支持的SSAO技术颇为消耗资源,关闭这项特效FPS几乎可以翻倍。据了解,很快该游戏就会加入对DX11的支持,从而支持更为先进的HDAO特效,画面和速度双重提升。
第四章/第五节 DX11游戏引擎——《Frostbite Engine 2》
最早宣称支持DX11的就是《霜寒2》(Frostbite2)引擎,DICE胆敢口出狂言也是有资本的,因为ATI DX10时代的Ruby Demo就使用了《Frostbite2》的引擎,这个Demo大量使用了Tessellation技术。如今Tessellation被DX11收入囊中,为游戏提供支持简直是轻车熟路。
让人印象深刻的雪山背景,这就是AMD与DICE合作开发的Ruby Demo
Frostbite2与Tessellation有较深的渊源,但Tessellation只是DX11的一小部分,Frostbite2除此之外将会使用到很多DirectCompute 11当中的新指令来提高游戏运行效率,对于游戏引擎来说高效率远比高画质来的重要,画面只是展示技术的手段,效率才是吸引游戏开放商的利器,DX11在这两方面都有很大的优势,因此备受业界关注。
但遗憾的是,Andersson透露《战地:叛逆连队2》只会采用Frostbite 1.X引擎,叛逆连队2支持DX10.0、10.1、PS3、X360,不会采用之前广为流传的DX11 API,因为DX11只属于Frostbite2引擎。
不可思议的地形细节
没有丝毫遮蔽的宏大场景
上面的一部分截图来自Frostbite Engine 2技术Demo,不清楚究竟是哪款游戏,又或者是引擎专门开发作为演示的。我们可以从中一窥该引擎的能力,尤其是对于自然环境的3D刻画性能。
第四章/第六节 DX11游戏引擎——《Cry Engine 3》
德国德国Crytek Studios公司旗下的《Crysis》(孤岛危机)及其Cry Engine 2引擎的成功是有目共睹的,至今没有任何一款游戏在游戏画面方面能与之相提并论,也没有哪款游戏对显卡的需求能够超越他,目前最强的单核心显卡在最高特效下运行Crysis都非常吃力,难怪游戏玩家们把Crysis亲切的称之为“显卡危机”。
Cry Engine 2是DX10的集大成者,它几乎应用到了DX10所衍生出来的所有特效和技术,“滥用”这些特效带来了近乎无敌的画面,同时也制造了空前的“显卡危机”。
Crysis在游戏玩家心目中有着非常崇高的地位,但却让游戏开发商望而却步,因为它的引擎太过BT,特效经过多次“阉割”后主流的平台依然跑不顺畅。因此没人胆敢使用这款游戏引擎,该引擎更是无法应用在游戏主机平台之上。所以,Crytek在开发Cry Engine 3时将工作中心集中在了优化效能上面,使之能屈能伸,在继续保持画面之王的同时,还能降低需求力图登陆游戏主机。
目前,关于Cry Engine 3尚无明确的声明显示它会支持DX11 API,但通过此前泄漏的一些资料以及Crytek公司的风格来看,第一时间加入对DX11的支持几乎就是板上钉钉的事实。想必大家也没忘记Crytek的FarCry(Cry Engine 1)就是首批DX9游戏,此后通过补丁率先支持DX9C,为大家带来了美轮美奂的HDR及HDR+AA特效。
Cry Engine 3将会改进支持如下的新特效,其中很多都与DX11的特性类似:
实时动态光照(Real-time Dynamic Illumination)
延迟光照(Deferred Lighting )
动态软阴影( dynamic soft shadows )
容积云与视距雾
法线贴图与视差遮蔽贴图
POLYBUMP 技术支持工具对应多核心与 64bit
屏幕空间环境光遮蔽(SSAO:Screen Space Ambient Occlusion)
综合植被和地形覆盖生成系统(Integrated Vegetation and Terrain Cover Generation System)
新的HDR渲染模式 (Eye adaption & High Dynamic Range Lighting)
运动模糊与景深 (Pristine Motion Blur & Depth of Field)
高品质的水面效果
即时神圣光芒表现 (Dynamic Volumetric Light Beams & Light Shaft Effects)
与其它想借助DX11推销游戏的策略不同,Crytek是一家力求完美的公司,它不会抢第一这个虚名,而是努力做到最佳。Cry Engine 2在画面方面至今依然是无敌的,资源开销太大不够弹性这个缺点相信Crytek也是心里有数,有了DX11的技术支持,相信Cry Engine 3将会有更完美的表现,让我们一同期待《Crysis 2》的到来吧。
第五章 首颗DX11 GPU:RV870核心架构解析
首颗支持DirectX 11的GPU;
提供最强DX9/10/10.1性能;
为最新的OpenCL 1.0和DirectCompute&11通用计算API提供优化支持;
在功耗不变的情况下实现规格和性能翻倍;
支持3屏甚至6屏超大画面输出。
以上是ATI对RV870核心的设计目标,我们来看看到底是如何做到的。
第五章/第一节 RV870核心架构图
自从DX10时代以来,ATI和NVIDIA双方的GPU架构就没有多大变化,NVIDIA的G9X和GT200都沿用了G80的MIMD(多指令多数据流)标量流处理器架构,而ATI则一直使用R600上面的SIMD(单指令多数据流)超标量流处理器架构。
RV870的核心架构与R600、RV670和RV770没有本质区别,它是一颗用新工艺制造的、用大量晶体管堆积而成的超高规格GPU。
RV770核心架构图
RV870相比RV770/RV790除了流处理器数量之外,纹理单元和光栅单元数量也全面翻倍。与同频率的HD4890相比,HD5870的理论数据正好是前者的两倍。
唯一遗憾的就是,RV870的显存控制器位宽没有翻倍,只是将GDDR5的显存频率进一步提升。因此HD5870的实际游戏性能不可能达到HD4890的两倍,只能是接近两倍。
第五章/第二节 RV870竟然是单芯片“双核心”GPU
细心的读者应该会发现,此次RV870的核心架构图很有特点,那就是流处理器部分并不是完整的一块,而是被切割为左右对称的两半部分,与之关联的纹理单元及一级缓存也被一分为二:
RV870的流处理器部分
如果单独拿一半流处理器出来观察的话,就会发现它的结构与RV770几乎没有区别,RV870的一半就是RV770,其主要规格如下:
左右各10组SIMD阵列,每组SIMD绑定4个纹理单元及缓存;
每组SIMD阵列当中拥有16个线程处理器;
每个线程处理器中包括5个流处理器。
这样的结构与双核CPU十分相似,两颗“核心”各自独立,独享L1、共享L2和内存控制器等其他总线模块,而两颗“核心”之间则通过专用的数据共享及请求总线通信。那为什么不把流处理器想以前那样设计成为一个整体而要分为两个模块呢?
RV770的流处理器布局
AMD产品事业部GPU工程研发副总裁王启尚指出,RV870核心拥有规模空前的21.5亿个晶体管,芯片设计及制造难度都相当高,如果把最复杂的流处理器部分拆分为几个模块的话,复杂度就会大大降低,这就能极大的加快研发进度,并一定程度上提高芯片良品率。
当然RV870依然是一颗完整核心,流处理器部分的模块化设计并不会影响性能的发挥,因为GPU本身就是一颗拥有超多核心的处理器,它并不像CPU那样受到软件因素的制约。但如果两颗独立的GPU通过交火模式组成双核心显卡的话,显卡驱动和游戏优化就变得极为重要了。
第五章/第三节 RV870核心控制引擎
&&& R870的图形架构可以拆分为以下几个模块,一个一个来看都有什么改进:
Command Processor(指令处理器)
Graphics Engine(图形装配引擎)
Ultra-Threaded Dispatch Processor(超线程分配处理器)
Stream Processing Units(流处理器)
Texture Units(纹理单元)
Cache & Buffer(缓存及缓冲区)
Shader Export&& Render Back-Ends(像素输出部分)
Memory Control(显存控制器)
Display Controllers(输出接口控制器)
● Command Processor(指令处理器)
Command Processor负责从PCI-E总线发出或者接受指令流,让GPU在驱动程序给定的时间间隔中完成恒定数据流操作,此过程需要通过Parallel DMA Engine,调用系统内存或者是本地显存的相关资源。
●&Graphics Engine(图形装配引擎)
之前这个模块被称为Setup Engine,是GPU负责指令分配和安装的模块,主要负责给GPU内部各大模块将要执行的指令准备数据,我们将其称之为装配引擎。装配引擎之中有很多模块,包括Tessellator(镶嵌器)、Vertex Assembler(顶点装配器)、Geometry Assembler(几何装配器)、Rasterizer(光栅器)、Hierarchial-Z(多级Z缓冲模块)等。
RV870相比RV770,最主要的变化就是拥有两个光栅器和多级Z缓冲模块,而此前的GPU都只有一个。这可不是因为RV870本身是“双核”的关系,因为顶点装配器和几何装备器都只有一个。
装配过程:顶点数据装配完毕后,顶点三角形内插操作不再使用独立的硬件单元,而是交由流处理器处理,由DX11中新增的外壳着色器和域着色器替代,这两个着色器将辅助镶嵌器进行细分操作,生成新的顶点。
接下来三角形顶点的2D坐标信息经过Rasterizer(光栅器)之后就得到了像素信息,也就是得到了屏幕上每个点的数据信息。进行这部分操作的时候也经过扫面转换生成了每个点的Z轴信息,这些信息将被传输到Z轴缓冲之中,以备后用。
现在我们就可以理解为什么RV870要设计两个光栅器和多级Z缓冲模块了,因为DX11 Tessellator的关系,最终的模型将变得十分复杂,需要处理的指令数量很多,合理的分配任务并暂存数据很关键。RV870改进了连续存取缓存时的性能。
Hierarchical Z是一项非常智能的技术,在GPU完成坐标转换之后,Hierarchical Z会不断对比各个顶点的Z轴位置,一旦Hierarchical Z发现这个顶点不需要显示,将会直接将其剔除避免后续无效渲染,它将有效控制由Tessellator所带来的性能损失。
即便是在DX9或DX10应用中,双倍的Rasterizer和Hierarchical Z也能大幅提升GPU在高分辨率和多屏超高分辨率下的性能表现。
●&Ultra-Threaded Dispatch Processor(超线程分配处理器)
最后,所有的像素/顶点/几何/纹理/颜色等数据经过Interpolators(排序器)之后交给Shader进行处理,当然在此之前还有一项必备的工序,那就是数据的重新封装打包,以及指定相应的统一渲染单元运算,这部分任务由超线程分配处理器完成。
第五章/第四节 RV870流处理器规格特性解析
继续将RV870的SIMD阵列放大,就可以看到其流处理器的微观架构了。RV870总共拥有320个Thread Processor(线程处理器),这是它不可分割的最小单元,相当于以前的Shader Unit,每个线程处理器内部又包含了5个功能各异的处理核心,因此RV870总共拥有1600个流处理器:
RV870的Thread Processor结构图
在线程处理器内部,这5个流处理器是在Branch Unit(分歧执行单元)的控制下处理数据流和条件运算,在General Purpose Registers(通用寄存器)中存取或输出数据,但并不存放指令。与传统GPU ALU架构不同的是,这5个流处理器可以在动态流控制的支配下自由的处理任何组合形式的指令,诸如1+1+1+1+1、2+2+1、4+1等组合形式。
宏观上RV870依然是SIMD(单指令多数据流)矢量架构,但在微观上可以称之为超标量架构(Superscalar),完美支持Co-issue(矢量指令和标量指令并行执行),单时钟周期可以进行5次MAD(Multiply-Add,乘加)运算。另外还可以看到,5个1D ALU其中有个“胖”一点的,它除了MAD之外还能够进行一些特殊(SIN、COS、LOG、EXP等函数)运算,在特殊条件下提高运算效率!
在流处理器部分,RV870加入了DX11新增的位操作类指令,并优化了Sum of Absolute Differences(SAD,误差绝对值求和)算法,指令执行速度提升12倍,此项指令可以在OpenCL底层执行。SAD算法应用最多的就是H.264/AVC编码的移动向量估算部分(约占整个AVC编码总时间的80%),如此一来使用RV870做视频编码类通用计算时,性能会大幅提升!
RV870的单精度浮点运算能力为2720GFLOPS,双精度浮点运算能力为单精度的1/5,也高达544GFLOPS。对手GTX285的单精度浮点运算能力为1063GFLOPS,但双精度下降为1/8,仅133GFLOPS,很难满足高精度的科学计算领域的需要。
第五章/第五节 纹理单元和缓存
● 图形渲染部分:
RV870的纹理单元及一级缓存是与SIMD流处理器阵列绑定的,左右各10组SIMD阵列,每组SIMD绑定4个纹理单元及缓存。虽然RV870的流处理器及纹理单元数量全面翻倍,但是每组SIMD阵列所独享的数量却没有增多,但RV870对它做了一些改进。
纹理带宽提升:每秒可完成680亿次双线性过滤,2720亿次32bit纹理拾取
一级缓存:容量160KB,带宽1TB/s
二级缓存:容量512KB,带宽435GB/s
新的DX11特性:支持16kx16k纹理,新的BC6/7 HDR纹理压缩算法
除了DX11的新特性外,RV870在纹理单元部分的改进可以让所有游戏受益,它可以支持完美无角度的各向异性纹理过滤,而性能衰减幅度与之前的AF算法一致,通过理想的细节度调整确保更高的纹理贴图质量。
● 通用计算部分:
全芯片共享一个64KB的Global Data Share(公用数据缓存)
每个SIMD阵列共享32KB本地数据缓存,共20组,可弹性配置
纹理单元在通用计算中负责数据拾取,每组纹理单元(4个)共享8KB一级缓存,共20组
每个显存控制器绑定128KB二级缓存
支持DirectComput 11中的附加缓冲利用技术
第五章/第六节 光栅单元和抗锯齿
同纹理单元类似,RV870的光栅单元数量也是全面翻倍,因此抗锯齿性能同比提升一倍。除此之外,还有不少改进:
纹理单元可直接读取光栅单元中的色彩缓存数据
CFAA(可编程过滤抗锯齿)性能大幅提升
采样率提升,高倍AA效能改进
有能力直接提供最高画质的SSAA(超级采样抗锯齿)
AAA(自适应抗锯齿)和CFAA可以与SSAA完美兼容
根据AMD官方提供的数据来看,HD5870在开启8xAA模式后,性能相比4xAA下降幅度非常小,而对手单核最强的GTX285则在8xAA模式下性能损失非常大。RV870翻倍的光栅单元数量及改进的算法功不可没!
第五章/第七节 更高频更节能的第四代GDDR5
RV770首次了GDDR5显存,但其威力尚未被完全释放出来,HD4870的显存频率只有900MHz(等效3600MHz),而且由于是第一代产品,GDDR5很多优秀的特性没能得到发挥,导致功耗与发热比较大。
GDDR5标准是在AMD的主导下建立的,在发现问题之后,AMD在RV790核心与RV740核心中改进了显存控制器,解决一些问题,从而使得GDDR5的功耗得到了很好的控制。
RV870核心则再次改进了显存控制器,AMD称这已经是第三代GDDR5显存,此次GDDR5的频率被一举提升至1200MHz(等效4800MHz),真正达到了双倍于GDDR3的频率,与此同时功耗控制却做的相当出色,使得HD5870空闲时的功耗得以降至难以想象的27W!
● RV870为什么不使用384/512Bit显存控制器?
通过前文的介绍可以知道,在RV870内部几乎所有的硬性规格都翻了一倍,唯独显存控制器依然保持256Bit不变。要知道光有翻倍的流处理器和纹理单元,还不足以使得RV870的游戏性能相比RV770提升一倍,那为什么RV870不使用更高的384或者512Bit显存控制器呢?
AMD产品事业部GPU工程研发副总裁王启尚指出,由于GDDR5显存的频率是GDDR3的两倍,因此上代的HD4870和HD4890能够以256bit达到接近于512bit的显存带宽,超过100GB/s的显存带宽对于RV770/RV790核心来说有些富裕,因此玩家们超显存所带来的性能提升并不显著,超核心则能获得较大的提升。
对于RV870核心来说,由于流处理器、纹理、光栅全面翻倍,对于显存带宽的需求也水涨船高,此时第一代GDDR5的带宽有些捉襟见肘,所以AMD使用了频率更高的第三代GDDR5,此时150GB/s的带宽虽然还是满足不了RV870的胃口,但也不至于造成瓶颈,玩家们通过超核心和超显存都能获得较大幅度的性能提升,可以说核心规格和显存规格达到了一个比较平衡的比率。
如果使用512Bit显存控制器的话,自然也能获得性能提升,但是要付出很大的代价——512Bit控制器要占据不少晶体管,使得GPU核心面积大增,而且512Bit需要至少16颗显存,显存采购成本和PCB及供电设计难度都很大,可谓是牵一发而动全身,得不偿失。
● GDDR5显存的主要特性及优势:
使用DDR3的8bit预取技术,实现相同带宽所需的内核频率减半;
采用双I/O总线,实现相同带宽所需的I/O频率减半;
额定电压从1.8V降至1.5V:功耗进一步下降;
数据和地址总线转位技术:信号质量高、功率消耗少;
智能的可编程I/O控制接口:简化PCB设计和成本;
数据遮盖技术:减轻数据总线压力;
关于GDDR5显存更详细的技术解析请看“”一文。
● HD5870第三代GDDR5显存的特性:
错误侦测和校验:提高高频率下的传输效率,避免灾难性错误;
显存频率和温度补偿:在5GHz以上高频率下工作时更稳定可靠
电压和频率快速切换:允许通过降频和降压的手段大幅降低显存功耗与发热
可以看到,在2D模式下,HD5870的核心频率从850MHz降至157MHz,显存频率从1200MHz降至300MHz。目前最强的核心搭配最强的显存,待机功耗居然只有27W,真是不可思议!
第六章 ATI Eyefinity三屏/六屏显示技术解析
第六章/第一节 单纯提升分辨率已经达到上限
近年来,GPU的性能翻了无数倍,画面和特效有了质的飞跃,但最终输出的图像分辨率却是一成不变的——是目前的绝对主流,就已经是上限了,为什么分辨率不能再大一点呢?
双Dual-Link DVI的配置已经沿用好多年没变过了
瓶颈就在液晶显示器面板的制造上面,切割液晶面板跟切割硅晶片有些类似,面板/核心越大,良品率就越低,成本就越高,几乎成级数增长。硅晶片出了问题还能够激光修复或者屏蔽,正常使用完全没有问题,而一整块液晶面板有较多坏点的话,相信没人愿意买单。
单纯提升分辨率达到了液晶面板的极限
所以,高分辨率的液晶面板都是天价,主要供医疗、科研、遥感等需要处理高精度图像的专业领域使用,难以进入消费级市场。对于游戏玩家来说,顶级的30寸显示器所提供的2560分辨率就是最高级别,3840分辨率的专业显示器刷新率只能到30Hz,而且点距尺寸太小,根本不适合玩游戏。
既然分辨率无法继续提升,解决方法只有一个,那就是组建多屏系统。相信很多人都有双屏应用的经验,对于多任务来说,双屏可以获得更大的自由分配空间,有利于提高工作效率;但对于游戏玩家来说,双屏几乎毫无用处,主屏玩游戏的话无法同时对副屏操作,如果双屏扩展的话对于游戏简直是个噩梦!
对于游戏玩家而言,双显示器是没有意义的,当扩展分辨率之后,您所面对的屏幕最中间始终是显示器的黑边,从玩游戏的角度来说,不需要双显示器、四显示器更没必要,只有三显示器才适合人类的视角——中间需要一个主屏幕,两边用来扩充视野。那么现在的问题就是单显卡只能双头输出而且性能有限,SLI/CrossFire和Quad SLI仅能单头输出,怎么办呢。
第六章/第二节 Matrox三屏环幕技术回顾
● 为什么要三头输出:
实际上在此之前Matrox和NVIDIA/ATI都在专业2D领域拥有四头甚至多头输出的解决方案,为什么Matrox还要努力推行三头输出技术呢?这是因为专业显卡和游戏显卡的划分是泾渭分明的,能够多头输出的无法玩游戏,玩游戏的无法多头输出,难道就没有完美的解决方案吗?
幻日系列只有两个DVI,但却是完美的三头输出
&&& Matrox在消费级市场的最后一款显卡——“幻日”,本来就是针对主流市场设计的,Matrox既想要保持完美的2D输出,还要保证强悍的3D游戏性能,另外就是加入了真正的三头输出支持。听起来非常完美,很可惜这款显卡失败了,Matrox也带着自己的遗憾黯然离去,NVIDIA和ATI继续疯狂的在3D速度和规格方面厮杀——用Matrox的话说在显示和输出方面不思进取。
● 神奇的三头输出解决方案诞生——TripleHead2Go(3D环幕仪):
&&& 终于,Matrox在之前DualHead2Go的基础上,成功的研发了三头输出的TripleHead2Go,中文名称为3D环幕仪。Matrox带来的3D环幕仪能够像变魔术一样让一个显卡的输出口扩展为三个,由此实现三屏幕环幕游戏或者是四屏幕专业作图显示。
3D环幕技术玩帝国时代III
千万不要以为TripleHead2Go单纯的比DualHead2Go多了一路输出而已!TripleHead2Go是一款极具创意的全新产品,它能够把三个显示器模拟成为一个超宽屏幕的显示器,从而让游戏画面能扩展输出至全部的三个屏幕,而多块显卡虽然理论上能支持数十个屏幕,但大多数游戏都无法支持多屏输出。
TripleHead2Go的设计理念很有意思,但缺点也很明显,它只能通过VGA模拟输出,仅能支持的普通显示器,没法支持更高分辨率的显示器。因为它的功能只是将显卡的一个输出接口拆分成三个接口,这样三个接口的总分辨率不可能超过Dual-Link DVI 96000的像素限制,而=3932160则刚刚好,再高一点点都不行。
再者,这个显示盒也价值不菲,驱动设置更新比较麻烦,还有跟游戏也存在一些兼容性问题。最主要的问题还是无法兼容中高分辨率的显示器,因此未能成为主流。
第六章/第三节 ATI的惊人设计 RV870最多支持六屏输出
当Matrox的TripleHead2Go快要被遗忘的时候,ATI拿出了惊人的设计方案,在首颗DX11 GPU RV870当中直接集成了一个6通道的显示控制器——无需任何外接芯片或者输出方案,而且这六个通道都能支持分辨率的10bit色显示!
这项技术ATI称之为“Eyefinity”,最多可以通过DisplayPort输出六个屏幕,不过本次发布的HD5870仅能支持三个屏幕,是ATI故意限制了输出吗?
其实是Dual-Link DVI的问题,无论如何它都要占据两个显示通道。但市售30寸显示器标配就是Dual-Link DVI,HD5870为了保证兼容性和易用性,设计了两个DVI接口,导致最多只能实现三屏输出。不过三屏输出对于游戏玩家来说刚好合适,四屏和六屏都有些别扭。
确实有六屏输出的需要,那么可以购买HD5870 Eyefinety6版本,它直接提供了6个DP接口,搭配响应的显示器或者转接头,就能实现完美的六屏输出。
目前,一块支持4口DP输出的2D专业显卡售价就高达6000多人民币,那史上最强的首款DX11游戏显卡支持6口DP输出的话相信也不会便宜,但也不会那么离谱。
第六章/第四节 灵活多变的三屏六屏输出方案一览
有了强大而弹性的显示控制器以及ATI Eyefinity技术,HD5870在连接多显示器的时候也很方便甚至随意,单卡的时候可以按需要排列最多六台不同规格的显示器,四卡并行则最多能支持24台显示器组成一个宽广的显示墙。
竖排或横排平放三台显示器,这是最常见的应用四台或者六台的排列组合形式就太多了
6口版本6屏输出的输出形式组合
普通4口版本3屏输出输出接口的组合形式&&& Eyefinity技术已经被完全整合在了催化剂驱动当中,ATI的HydraVision桌面管理器从此变得更加强大。多屏显示的设置既方便又灵活,我们只要根据需要将几台显示器按照排列顺序绑定在一起,就能实现各种奇怪的分辨率。
然后,只要游戏能够支持非标准宽屏分辨率的话,就能将游戏画面横向或者纵向扩充至所有的显示器,但如果游戏不支持的话,画面将会被拉升。经过笔者的实际测试来看,只有较老的显示器不支持超宽屏显示,较新的游戏一般都不会有问题。
第六章/第五节 三屏/六屏输出玩游戏震撼效果展示
● 飞行模拟游戏:
● 赛车游戏:
● FPS游戏:
● RTS游戏:
● 几乎所有的主流游戏都支持各种组合形式的特殊多屏(分辨率)模式
第六章/第六节 编辑实战测试HD5870三屏玩游戏
为了测试HD5870的三屏输出效果,笔者特地找来两台Dell 3007和一台3008,组成的超强分辨率,来测试HD5870的极限游戏性能。
通过驱动中的HydraVision桌面管理器可以很方便的将三台显示器绑定在一起,然后整个桌面就会变成的超宽分辨率,绝大多数支持宽屏的游戏中也会直接显示出这个特殊的分辨率,无需太多繁琐设置。
跑Crysis Benchmark的效果
魔兽世界,铁炉堡一览无余
极品飞车13,道路两旁尽收眼底
FarCry2广袤的大草原
Google Earth实际效果图
我们测试过的众多游戏对三屏的支持都非常好,只有街霸4有点问题,街霸4虽然能支持超宽分辨率,但它的纵横比其实是固定的,当横向尺寸固定扩充三倍之后,纵向尺寸就会相应裁剪,由此导致实际显示的画面不但没有增多反而减少了。
而其他所有的游戏,两边显示器所显示的画面,完全就是单显示器看不到的景色,超宽的视角对于任何类型的游戏都能起到很好的辅助作用。
第六章/第七节 HD5870三屏/六屏实际应用视频展示
第七章 HD5870显卡实物赏析
第七章/第一节 AMD官方HD5870高清晰美图大赏
首先我们来看一组AMD官方提供的HD5870显卡高清晰、多角度艺术照片,分辨率均为2560,很多都可以收藏当作桌面壁纸(没打Logo):
第七章/第二节 HD5870显卡实物拍摄图
HD5870显卡的设计风格不同与以前的任何一块A卡,色调搭配为黑里透红,看上去更像是一块专业显卡,而不是民用的游戏显卡。下面为我们泡泡实拍的测试样卡照片:
黑色的塑料外壳为磨砂设计,手感不错
背面没有任何芯片,但也安装了金属背板,起到加固并辅助散热的作用
末端的开口看上去很像电源接口,其实是涡轮风扇的辅助进风口
输出接口异常丰富,在传统的两个Dual-Link DVI接口之外,还安置了一个DisplayPort和一个HDMI接口。HD5870是继幻日之后,第二款能够提供三头输出的消费级显卡,在这四个数字接口中,最多可以同时使用其中的任何三个,因此最常见的连接方法就是两个DVI加上DP,可以同时输出三个的超高分辨率。
由于四个输出接口占据了较多的位置,导致散热器出风口偏小,因此HD5870在正上方也设计了排风口,确保散热器效能不会降低,但这样做会导致一半的热风未能吹到机箱之外,加重了系统的整体散热负担,实际上GTX295也迫不得采用了这种设计。
第七章/第三节 HD5870是最轻的高端卡
体积上,HD5870的长宽高都与HD4870X和GTX295完全相等,都是双槽设计
在体重方面,HD5870的优势就体现出来了,由于核心和显存的发热较低,铝制散热片和塑料外壳的使用大大降低了整体重量。较低的重量显然能够减轻机箱的负担,防止长期使用发生PCB变形的情况。
第七章/第四节 HD5870显卡拆解:40nm核心与GDDR5显存
一体式的散热器还是很好拆的,拆开之后就会发现HD5870与上代HD4870的设计风格非常相似,ATI原厂卡常见的数字供电非常眼熟。
热管+铝质散热片+涡轮风扇,一体式散热设计
密密麻}

我要回帖

更多关于 战地叛逆连队 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信