使用中央處理器(CPU),圖形處理器(GPU),現(xiàn)場可編程邏輯門陣列(FPGA)和專用集成電路(ASIC)來理解人工智能。
樹莓派(Raspberry Pi,是一款針對電腦業(yè)余愛好者、教師、小學(xué)生以及小型企業(yè)等用戶的迷你電腦)在電腦業(yè)余愛好者中十分受歡迎??v觀各國,有的人用它來推動啤酒生產(chǎn)自動化,有的人用它打開了機器人新世界的大門,還有的人在電影學(xué)科快速發(fā)展的現(xiàn)狀下,用它變革了科學(xué)、技術(shù)、工程、數(shù)學(xué)四大學(xué)科的教學(xué)方式。這些方式都是值得贊美的。那么微軟又利用它做了些什么呢?答案是設(shè)計了捕獵松鼠的噴水機器人。
在某公司的機器學(xué)習(xí)與優(yōu)化小組中,研究員發(fā)現(xiàn)幾只松鼠正在從喂鳥器中偷取花蕾和種子。為此,這個研究小組設(shè)計了一個計算機視覺模型,并把模型放到樹莓派3的主板上。然后,每當(dāng)有嚙齒動物出現(xiàn)時,它就會打開灑水器。
這個故事的關(guān)鍵并不是他們多么討厭松鼠——而是他們將卷積碼神經(jīng)網(wǎng)絡(luò)與ARM處理器(英國Acorn有限公司設(shè)計的低功耗成本的第一款RISC微處理器)相結(jié)合。這也體現(xiàn)了這些公司正在改進硬件以支持AI運算法則。隨著AI越來越受關(guān)注,研究員們致力于發(fā)展其解決基礎(chǔ)事務(wù)的能力,比如識別圖像和語音。
隨著人們對科技的期望越來越大,如研發(fā)自動飛行無人機和自動駕駛汽車,硬件發(fā)展所面臨的挑戰(zhàn)也越來越大。對此,各個公司正在生產(chǎn)硅制品和計算節(jié)點來應(yīng)對這些挑戰(zhàn)。
美國市場研究公司ABI Research研究部主任Jeff Orr將AI硬件發(fā)展劃分為3個廣泛領(lǐng)域:云服務(wù),在線設(shè)備及混合領(lǐng)域。云服務(wù)主要是在微軟、亞馬遜和谷歌等超大規(guī)模數(shù)據(jù)中心環(huán)境下,在線上完成AI任務(wù)進程。
而在另一領(lǐng)域,他看到了設(shè)備的更多進程。在這些進程中,連接或延時禁止了數(shù)據(jù)傳送回云。
他說,“它的作用可能是發(fā)出聲音指令,使智能手機或智能眼鏡等可佩戴式設(shè)備不再需要人們親自動手操作。這方面的技術(shù)還會繼續(xù)發(fā)展,因為 當(dāng)今世界還沒有大量在線設(shè)備的例子。”他認為增強現(xiàn)實是關(guān)鍵驅(qū)動力,要不然就只能假設(shè)永遠都有這種應(yīng)用程序。
最后,混合領(lǐng)域結(jié)合了以上兩個領(lǐng)域來完成AI計算。然后,你的手機便能通過基于云的AI來識別你的問題和要求。
云:下雨式算法
云的重要性源于AI的學(xué)習(xí)方式。AI模型漸漸能夠開始深度學(xué)習(xí),能使用多層復(fù)雜神經(jīng)網(wǎng)絡(luò)來創(chuàng)造更精確的AI程序。
神經(jīng)網(wǎng)絡(luò)的運用包含兩個方面。第一是測驗網(wǎng)絡(luò)是在何處分析數(shù)據(jù)并得出數(shù)據(jù)模型的,這是一種有效的“學(xué)習(xí)”階段。第二是推斷神經(jīng)網(wǎng)絡(luò)在何處解析新數(shù)據(jù)并得出精確結(jié)果。測驗這些網(wǎng)絡(luò)會消耗大量的計算能力,但是測驗負載可以分成多個并發(fā)運行的任務(wù)。這就是為什么有雙倍浮點精度和大芯數(shù)的GPU會如此擅長該任務(wù)。
然而,神經(jīng)網(wǎng)絡(luò)規(guī)模正在擴大,面臨的挑戰(zhàn)也越來越多。GPU主要供應(yīng)商英偉達公司(Nvidia,是一家以設(shè)計智核芯片組為主的無晶圓(Fabless)IC半導(dǎo)體公司)加速計算小組的副組長Ian Buck說他們正在以每年兩倍的速度擴張。該公司正在創(chuàng)造更多計算密集的圖形處理器架構(gòu)來應(yīng)對其擴張,但也在改變著其對待數(shù)學(xué)的方式。
他說“即使精確度不那么高,它也能完成”。最初,神經(jīng)網(wǎng)絡(luò)測驗主要著手于32-位浮點數(shù),但他們在5月宣布,該神經(jīng)網(wǎng)絡(luò)優(yōu)化了新的Volta架構(gòu)(英偉達的新一代GPU架構(gòu)),使之能將16-點輸入32-位內(nèi)部計算。
Buck說,將其計算精確度縮減到16點有兩大好處。
“一是用戶可以利用更快的算法,因為處理器在較低的分辨率下往往具有更多的生產(chǎn)量。二是增加了可用帶寬的數(shù)量,因為你正在獲取每一個算法的數(shù)據(jù)。”
Buck談道,“問題是,其精確度可以達到多低呢?如果太低,便無法測驗,就無法達到生產(chǎn)所需的精準度,或者會變得不穩(wěn)定。”
超越GPU
雖然英偉達公司在精煉其架構(gòu),但一些云供應(yīng)商已經(jīng)使用其他架構(gòu)的GPU創(chuàng)建了自己的芯片。谷歌研發(fā)的TPU(谷歌為機器學(xué)習(xí)而設(shè)計的處理器)一代最初為推理工作負載而致力于8-點整數(shù)。在五月推出的新一代TPU提供了浮點精度,還能被用于測驗。這些芯片是專用集成電路(ASIC)。與CPU和GPU不同,它們是為特定目的而設(shè)計的(這些天你經(jīng)常會看到它們用于采礦比特幣),但它們不能重新編程。缺乏無關(guān)的邏輯使得他們的電力使用在性能和經(jīng)濟上都非常高,但卻非常昂貴。
谷歌的規(guī)模已經(jīng)大到可以承擔(dān)與設(shè)計ASIC相關(guān)的大量非經(jīng)常性支出(NRE),因為它在基于AI的數(shù)據(jù)中心運營中節(jié)約了成本。它在許多操作中使用它們,從識別街景視圖文本到執(zhí)行Rankbrain搜索查詢,并且每當(dāng)TPU執(zhí)行某些操作(除GPU)時,Google可以節(jié)省電力。
Moor Insights & Strategy的高級分析師Karl Freund說:“這將節(jié)省很多錢。”
不過,他認為Google并不完全是為了節(jié)省成本才這樣做。 “我認為他們這樣做能夠完全控制硬件和軟件堆棧。”如果Google在AI上投注資金,那么從終端應(yīng)用程序(如自動駕駛汽車到軟件框架)和云端來控制它是有意義的。
現(xiàn)場可編程邏輯門陣列(FPGA)及其它
當(dāng)面對的不是溺水的松鼠時,微軟在自己的數(shù)據(jù)中心改造推出現(xiàn)場可編程門陣列(FPGA)。它們類似于ASIC(專用集成電路),但是可重新編程,以便更新其算法。它們處理Azure中的聯(lián)網(wǎng)任務(wù),但是微軟也在機器翻譯這樣的AI工作負載上釋放出來。英特爾想要AI行業(yè)的一部分,無論它在哪里運行,包括云。
到目前為止,其Xeon Phi高性能CPU已經(jīng)處理了通用機器學(xué)習(xí),最新版本代號為Knight s Mill,并預(yù)計在今年出貨。
盡管如此,該公司還擁有三項加速器,用于更具體的AI任務(wù)。對于研究深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),英特爾將其希望寄托在Lake Crest(專門為深度學(xué)習(xí)定制的一款芯片)。這是一個協(xié)處理器,該公司表示,使用一種名為HBM2的內(nèi)存來克服數(shù)據(jù)傳輸性能上限,這比DDR4快了大約12倍。
雖然這些大廠商在與GPU,F(xiàn)PGA和ASIC構(gòu)建的系統(tǒng)進行競爭,但其他人正在嘗試從頭改寫AI架構(gòu)。
據(jù)報道,Knuedge準備用基于云操作的256核心芯片,但他并未多說。
英國公司Graphcore由于需在2017年發(fā)布技術(shù),已經(jīng)透露了一些。它希望其智能處理單元(IPU)使用基于圖形的處理,而不是GPU使用的向量或CPU中的標量處理。該公司希望這將使其能夠?qū)⒂?xùn)練和推理工作負載適用于單個處理器。關(guān)于其技術(shù)有一個有趣的事情,它的基于圖的處理 應(yīng)該是減輕AI處理中最大的問題之一——從內(nèi)存到處理單元的數(shù)據(jù)。而戴爾一直是該公司的支持者。
波的計算也專注于不同類型的處理,使用它所謂的數(shù)據(jù)流架構(gòu)。它有一個專為數(shù)據(jù)中心運行而設(shè)計的訓(xùn)練器具,可以達到2.9 PetaOPs /秒。