ARM vs X86到底誰更好：英特爾ATOM處理器高能效的背后

2012-12-31 15:24:22來源：WPDang作者：

導言：英特爾近期公布了有關凌動SoC和英偉達Tegra 3的非常詳細的能耗情況。如果您之前認為ARM架構(gòu)在本質(zhì)上能效更高，或許您低估了英特爾在制造和架構(gòu)方面的優(yōu)勢。應對目前在智能手機和平板上普遍所采用的ARM架構(gòu)處理

導言：英特爾近期公布了有關凌動SoC和英偉達Tegra 3的非常詳細的能耗情況。如果您之前認為ARM架構(gòu)在本質(zhì)上能效更高，或許您低估了英特爾在制造和架構(gòu)方面的優(yōu)勢。應對目前在智能手機和平板上普遍所采用的ARM架構(gòu)處理器，英特爾所推出的全新ATOM“凌動”處理器，事實上在各個方面都不遜色于以Tegra 3為代表的ARM架構(gòu)處理器。而知名硬件評測網(wǎng)站TomShardware通過深度的測試以及詳細的數(shù)據(jù)，為我們展現(xiàn)了英特爾凌動處理背后的秘密。

移動設備的能耗：讓數(shù)字說話

Andrew Ku一直在評測幾款新的平板電腦：采用凌動Z2760處理器的三星ATIV Smart PC 500T以及采用高通APQ8060A處理器的三星ATIV Tab。我一直在使用基于凌動處理器的宏基Iconia W510，我將很快貼出我對它最初的看法。

讓Andrew和我都印象深刻的是：這些基于凌動、運行完整版Windows 8的平板電腦在電池續(xù)航時間上完全可以媲美基于Tegra 3的微軟Surface，特別是宏基W510配備26.6Wh電池而Surface配備31.5Wh電源。

就性能而言，凌動 Z2760（代號Clover Trail）在Geekbench測試得分上與英偉達（Nvidia）的Tegra 3互有勝負，但凌動 Z2760在網(wǎng)絡瀏覽指標上則全面勝出。在運行x86應用方面，凌動擁有明顯的優(yōu)勢。

對于更小的電池，如何在特定測試中獲得更高的性能，以及在相同的負載中擁有更長的運行時間？回答這個問題是一個相當大的挑戰(zhàn)。隨后，我們要求英特爾向我們展示其實驗室中讓英特爾能夠進行非常精細測量的先進設備。

上周在圣克拉拉，英特爾向我們展示了其性能分析團隊生成的數(shù)據(jù)，并演示了這些信息是如何生成的，還讓我們自己操作測試設備并深入探討Clover Trail的優(yōu)缺點。下面的數(shù)字來自英特爾的團隊，而不是Tom的硬件實驗室。我們確實確認了所有顯示屏均標準化為200200 cd/m2（尼特，使用Gossen亮度計測量），能耗是50毫秒時間段的平均值。在本文中，我們將細化英特爾的數(shù)據(jù)并與我們在自己實驗室中得到的結(jié)果進行對比，尋找關聯(lián)。

對于微軟Surface和宏基的W510，我們分別測試了Windows 8用戶界面、Windows 8桌面和分屏（一邊打開Windows 8應用，另一邊打開桌面）模式。在這種情況下，Windows 8風格應用是主要屏幕，而桌面功能是側(cè)邊欄。

第一欄是每個CPU的使用情況。Tegra 3在Windows 8用戶界面時的空閑處理器能耗僅為0.0038W，而凌動為0.02W。但在分屏模式下Tegra 3消耗更高的電力，達0.29W，超過了凌動的0.18W。

下面是GPU�，F(xiàn)在，我們已經(jīng)知道：英特爾芯片中的單核PowerVR SGX545在3D圖形上的速度要低于Tegra 3。但至少在2D應用中，凌動更簡單的圖形引擎的能耗更低。

英特爾的能效優(yōu)勢的第一個線索來自內(nèi)存一欄。第一眼看上去，凌動比Tegra要差。但值得注意的是，凌動Z2760采用支持LPDDR2-800的兩個32位內(nèi)存控制器，提供高達6.4 GB/s的帶寬。大多數(shù)設備中常見的T30提供最高1500 MT/s的DDR3-L單通道控制器，提供高達6 GB/s的帶寬。理論上，英特爾凌動要做更多工作，表明其內(nèi)存子系統(tǒng)的能效更高。

平臺的其他部分包括屏幕本身以及面板電子裝置（例如LVDS傳輸器），以及無線電、音頻編解碼器、NAND等等。即使在宏基的背光消耗更多電力（分屏模式下）的情況，其平臺的其它部分的能效也僅高0.10W。

英特爾視頻播放測試結(jié)果VS.我們的測試結(jié)果

接著，我們有機會了解一下媒體播放時的功耗。

有趣的是，我們看到了向視頻播放負載添加邁克菲防病毒軟件對掃描的影響。由于Windows Media Player舊版本中的安全缺陷，軟件必須自己掃描視頻文件，發(fā)現(xiàn)惡意軟件。在我們的宏基平板電腦上，我們在打開視頻片段的同時看到一個初始的掃描殘跡（由于正在被掃描，導致丟幀）。然而，在這之后，一切順利運行。

關于平臺的整體功耗，宏基W510比微軟Surface更具優(yōu)勢。通過再一次對比處理器功耗，我們得知，由于其4+1架構(gòu)，Tegra 3在空載時功耗成績更好。但是運行負載時，凌動表現(xiàn)得更出色。

GPU功耗一欄的對比也很有趣。英特爾凌動在本地播放和HTML5視頻播放期間耗電更少，如果是分屏，那么差別會更大。目前尚不清楚是否與H.264的固定功能硬件加速或其它一些變量（如驅(qū)動程序，預計英偉達在這方面有優(yōu)勢）有關。

我們在前面提到，似乎英特爾的內(nèi)存控制器有魔法。從最好到最壞的案例使用場景（甚至包括不在Tegra 3上運行負載），凌動的功耗只提高了31%；而Tegra則幾乎需要將功耗提高100%。隨著負載變得越來越苛刻，并且平板電腦不是以純線性的方式來讀取內(nèi)存，英特爾的兩個32位控制器保持更低的功耗。以更高數(shù)據(jù)速度運行的英偉達單通道控制器無法效仿。

內(nèi)部驗證英特爾的數(shù)字

坦率地說，任何人都難以復制英特爾的實驗室工作，因為我們已經(jīng)看到了他們在圣克拉拉部署的高精尖設備。但是英特爾提出的數(shù)字似乎是合理的。通過宏基W510中更小的26.6 Wh電池，再加上鍵盤底座（約53.2 Wh），1080p視頻應基于3.5 W數(shù)據(jù)播放15.2小時。我的1080p測試持續(xù)了15小時27分鐘（以10%的量）。因此，這一結(jié)果也是可信的。

相比之下，微軟Surface需要4.21 W。憑借其31.5 Wh電池，理論上最長播放時間為7.48小時。微軟Surface的電池壽命、多顯示器測試中，Andrew測量到，在最大亮度（4.4 W）下，播放時間為7小時10分鐘，在200尼特、禁用Wi-Fi的情況下（3.15 W），播放時間為10小時。這真正體現(xiàn)了顯示屏及其它平臺組建對運行時間有多大影響，以及比特率對Tegra 3有多大影響。這是什么意思呢？好吧，我們的內(nèi)部測試文件是一個以720p運行的6 Mb/s H.264編碼的文件，而英特爾的測試文件是以1080p運行的20 Mb/s。

我們對iPad 2（25 Wh電池）和第三代iPad（42.5 Wh電池）的最高播放時間也進行了測試，分別是8.95小時和7.92小時。每臺設備在最大亮度下的功耗分別是2.8 W和5.37 W。在200尼特下，iPad 2最高可播放12.35小時，第三代iPad可運行11.28小時，視頻負載期間的功耗分別換算為2.02 W和3.77 W。這意味著第三代iPad播放6 Mb/s 720p視頻片段消耗的功率似乎比凌動播放20 Mb/s 1080p視頻文件鎖消耗的功率更多。

在與Tom相同的硬件720p測試條件下，采用Tegra 3的華碩Transformer Prime （25 Wh battery）在最大亮度下（3.00 W）可播放8.33小時，在200尼特下（2.31 W）可播放10.8小時。與Surface直接對比，這表明Transformer Prime更省電，這可能是由于安卓與Windows RT的對比，以及兩款設備屏幕的差別。

谷歌Nexus 10標榜自己能夠通過一塊33.75 Wh電池連續(xù)播放9小時視頻，這可換算為400萬像素顯示的功耗為3.75 W。我們稍后將修訂Nexus 10的數(shù)據(jù)。

網(wǎng)頁瀏覽情境下的功耗測試

盡管這些超細致的數(shù)據(jù)是在英特爾實驗室產(chǎn)生的，但是我們至少可以確認的是，在三星ATIV Smart PC 500T上使用Chrome、Safari或IE10瀏覽器，Windows 8上凌動的性能大大高于Windows RT上Tegra 3的性能。我們還沒有公布對三星凌動平板電腦的測評，但是可以參考以下圖表：

現(xiàn)在，考慮到這一點，采用凌動處理器的宏基也具有更好的功耗性能。此外，很明顯的是：顯示頁面的復雜性會影響功耗，英特爾凌動處理器在GPU和內(nèi)存方面具有優(yōu)勢，而英偉達的ARM內(nèi)核在更復雜的網(wǎng)頁上功耗稍微少一些。

這種差別也可在測試設備的原始結(jié)果中看到：

谷歌的主頁：注意缺乏活動

MSN主頁更忙碌一些

第一張截圖顯示了谷歌主頁的功耗，第二張截圖則顯示了msn.com的功耗�？吹竭@些圖標及其對應的功耗水平，我們應該很清楚，當實際繪制波動得相當厲害的時候，只將一個數(shù)字分配到表格的功耗使用上有多難。在捕獲MSN截圖的剎那間，宏基W510碰巧使用2.56 W的功耗，而Surface碰巧使用4.29 W的功耗。二者的平均值被換算為2.94 W和3.39 W（這也是我們在表格中所報告的）。
有趣的是，這些結(jié)果接近每家制造商所宣傳的規(guī)格。宏基表示其W510的電池續(xù)航能力為9小時。如果你將頭兩個測試案例的2.94 W和3.28 W功耗平均計算（3.11 W），你會得出8.6小時的平均值。微軟表示其Surface的電池續(xù)航能力是8小時。如果你將Windows RT平板電腦的頭兩行平均計算，會得出3.91 W的平均值；31.5 Wh的電池應支持8小時。

現(xiàn)在，在我們自己校準的200尼特測試中（在背景中添加了MP3播放），Surface可運行8:03。華碩的Transformer Prime可運行8:01（與Surface相同），但是它采用的是25 Wh電池，而不是Surface的31.5 Wh電源。因此，Transformer Prime的功耗大約是3.12 W。我們在前文看到，與Surface相比，我們估計Transformer Prime比微軟平板電腦更省電，我們再次傾向?qū)⑵錃w功于Android與Windows RT的對比，以及每個平臺的顯示器。

關于續(xù)航的一些推斷

現(xiàn)在，我們進行一點點推斷。英特爾以全屏和分屏模式使用負載網(wǎng)頁的決策似乎與平板電腦提供商評定電池續(xù)航能力的方式是相符的。我們將其稱為非正式的“我們不想因虛假廣告而被起訴”的標準。

在Surface測試期間Andrew自己生成的數(shù)據(jù)（具體來說，通過開啟Wi-Fi而進行網(wǎng)絡瀏覽，并以200尼特來播放MP3）表明我們將看到8小時3分鐘的運行時間。換句話說，我們的負載非常接近于提供商的內(nèi)部測試數(shù)據(jù)。我們的測試可能任務更繁重，因為我們測試的iPad運行時間是9小時，而不是廣告中宣傳的10小時；Kindle Fire HD的運行時間是10小時，而不是廣告宣傳的11小時；Nexus 7的運行時間是7小時，而不是廣告宣傳的10小時。

在iPad2上，我們得到的測試結(jié)果是25 Wh電池可支持運行9.08小時（換算為2.75 W）。對于第三代iPad，42.5 Wh電池可支持運行9.25小時，換算為平均功耗是4.59 W。在此，我們了解到，iPad 2具有的超高效率是蘋果的競爭對手無法企及的。我們還未在第四代iPad上運行這些數(shù)字，但是功耗應該是相似的，因為iPad 4也使用的是支持10小時混合使用的42.5 Wh電池。

谷歌的Nexus 10配備33.75Wh電池（4.28W用于4MP點顯示屏），聲稱可以支撐7小時的上網(wǎng)時間。三星的Series 3 XE3030C12 Chromebook配備30Wh電池（4.62W用于13×7顯示屏），聲稱6個小時。如果這意味著4MP顯示屏需要消耗額外的0.20W電力，我們上篇推測Nexus 10在視頻播放時消耗3.75W電力，那么，Chromebook在標準分辨率顯示屏上播放視頻將需要3.55W電力。這表明，粗略計算，采用Swift的A6X的第四代iPad比A15的能效更高。

我敢打賭，Cortex-A15在視頻等低功耗應用下與凌動相當。但在更高功率的應用（諷刺的是，網(wǎng)絡瀏覽就是需要更高功率的應用）下，它的能耗比凌動高大約50%。在一定程度上必須是這樣，因為谷歌在廣告中實際上提到了網(wǎng)絡瀏覽時的電池續(xù)航時間要低于觀看視頻時。這些數(shù)字還表明，Cortex-A9在特定條件下的能效高于Cortex-A15。即使A15提高了性能，我們?nèi)孕枰纯丛跓衢撝迪薅葍?nèi)可以完成多少實際工作。
高通似乎沒有落后，我們或許可以質(zhì)疑它的Snapdragon S4，因為它的廣告宣稱“戴爾XPS 10的28 Wh電池可以運行10個小時”。這是最好的3.11W，也就是我們平均前兩個英特爾負載數(shù)字時宏基W510所需要的。

英特爾的數(shù)字是合理的。很明顯，凌動與目前的頂級SoC相當。根據(jù)我們的Transformer Prime數(shù)據(jù)，至少在Windows 8下，它的能效要高于運行Windows RT的Tegra 3，與運行安卓的Tegra 3接近。

對于網(wǎng)絡瀏覽，我們的最佳預測是：1、凌動與高通Snapdragon S4中的Krait架構(gòu)在能耗方面相當。2、凌動的能耗要優(yōu)于Cortex-A15。

Windows 8手勢功能：延遲與能耗

最后，我們測試了觸控手勢下的能耗：在分屏配置下的Windows 8用戶界面上測試了必應地圖和維基百科。如果沒有合適的設備，這些東西很難量化，但幾乎肯定是順次使用兩個設備。

無需贅言，我們再看一下內(nèi)存控制器數(shù)字。不管是何種負載，凌動的能耗保持穩(wěn)定，而Tegra 3的能耗隨著負載復雜性的提高而增加。宏基W510的能耗在其它方面要高于Surface。但由于其CPU、GPU和內(nèi)存控制器的能效更高，因此整個平臺的能耗低于微軟的平臺。

在有關宏基W510的下一篇文章中，我們將討論英特爾對內(nèi)存控制的某些優(yōu)化，以整合基準測試性能為代價提高觸控響應能力。在這種情況下，第一列表明：在檢測手勢的延遲方面，宏基平板電腦的速度每次都要快于微軟的平板電腦。Surface的最佳表現(xiàn)仍慢于凌動上的測試的六分之五的手勢。但是，Surface的幀速率通常更高。在維基百科上進行捏操作時，凌動讓幀速率降低了3%，但延遲方面速度快兩倍。在必應地圖的捏操作中，Surface的速度快11%，但延遲高60%。

x86和ARM的硬指標對比

雖然我們今天看到的數(shù)據(jù)來自英特爾，但我們親臨現(xiàn)場觀摩并使用了英特爾的測試設備，觀察測試結(jié)果。我們在之前發(fā)表的評測中進行了足夠的分析，確認這些數(shù)字是合理的。英特爾選擇了一個最輕松的對手（采用Tegra 3和Windows RT的微軟Surface平板電腦），但我們初步估計認為32納米凌動大體上相當于ATIV Tab中高通的28納米APQ8060A，并且比Chromebook Series 3 XE303C12中32納米Exynos 5 Dual的能效要高。

過去一周，我們觀看了英特爾工程師拆卸平板電腦并發(fā)現(xiàn)了關鍵點：其中，微焊點導致了特定SoC和平臺子系統(tǒng)出現(xiàn)Fluke毫米能耗數(shù)據(jù)的有趣版本。英特爾不允許拍照，要求我們把相機放到具體房間之外。但我們確實親身體驗到，甚至能夠測試加載Tom硬件頻道主頁的能耗要求。我們自己推算出的基準測試數(shù)據(jù)與英特爾的數(shù)據(jù)一致。在空閑時，英偉達Tegra 3的能耗與凌動相當。但當負載要求提升時，英特爾的領先幅度會擴大。

英特爾的數(shù)據(jù)是否會因為校準錯誤而不準確？當然，這是可能的�？茖W家也曾因為校準錯誤而認為自己發(fā)現(xiàn)了速度超過光速的粒子。因此，我們使用每個設備電池的Wh容量進行了粗略估算，對比電池續(xù)航時間并解出瓦特數(shù)，表明這些數(shù)字是可信的。

總結(jié)

細化采用兩種架構(gòu)的當前平臺的能耗可以發(fā)現(xiàn)，x86 ISA的能效天然地低于ARM的傳言是不準確的。它們在多數(shù)情況下都差不多。微軟Surface與宏基W510對比結(jié)果顯示，凌動平板電腦優(yōu)于英偉達的Tegra 3。

總之，我們的分析表明：基于ARM的CPU在空閑時的表現(xiàn)非常好，但在計算密集型工作負載中開始需要更多的能源。即使在空閑情況下，宏基W510的能耗也低于微軟Surface。在這種情況下，CPU內(nèi)核不動，但圖形內(nèi)核仍在刷新屏幕并從內(nèi)存中讀取。持續(xù)的讀取會消耗內(nèi)存控制器，這是凌動保持低功耗的原因之一。在更繁重的負載下，Tegra 3受到雙重打擊——CPU能耗和內(nèi)存控制器的使用快速增加。

制造技術是英特爾明顯的優(yōu)勢之一，但其內(nèi)存控制器的效率在能耗方面的優(yōu)勢也很明顯。英特爾和AMD都指出了ARM在轉(zhuǎn)向6位亂序執(zhí)行時面臨的挑戰(zhàn)，因為兩家公司多年來一直在優(yōu)化其配置。優(yōu)化內(nèi)存控制也是英特爾和AMD的研發(fā)重點之一。需要進一步的證據(jù)？我們的計算（以及與多家公司的匿名工程師進行的交流）表明，蘋果的CPU設計也擁有高效的內(nèi)存控制器。Jim Keller在A4、A5和A6 SoC的開發(fā)過程中在蘋果工作，并且也在AMD Athlon 64及集成內(nèi)存控制器的開發(fā)中扮演關鍵角色。

凌動高能效背后的秘密很簡單。CPU在空閑時的缺憾在有負載的情況下得到了彌補，而總是活躍的內(nèi)存子系統(tǒng)也更加高效。在廉價上網(wǎng)本領域，雖然英特爾給很多人的形象仍然是低功耗計算和圖形，但Z2760是與N450不同的芯片。

人們會仔細地審查英特爾工程師進行的基準測試。但隨著我們親身測試更多基于凌動的Windows 8平板電腦，我們能夠獲得自己的性能和能耗數(shù)據(jù)。英特爾細致的測量有助于我們把工作負載放到具體環(huán)境中并更好地解釋我們在現(xiàn)實世界中看到的數(shù)據(jù)。

我們自己的結(jié)果和英特爾的結(jié)果對比表明，移動行業(yè)存在很多錯誤的信息。在我們在自己的實驗室實際測試基于凌動的硬件之前，ARM比x86的能效更高的說法很容易接受。Cortex-A9內(nèi)核的速度低于凌動，因此它的能效應當更高。當我們看到A15的性能數(shù)據(jù)以及其架構(gòu)有多快時，x86似乎注定失敗。但人們會一直質(zhì)疑A15的能耗是否仍有優(yōu)勢，還是為了性能而提高了能耗。在開始測試給定容量下的電池續(xù)航時間時，我們開始考慮具體任務中的實際能耗。

關鍵詞：ARM X86 英特爾 ATOM 處理器