NVIDIA、NVIDIA Tesla P100アクセラレータにより、ディープラーニング、HPCアプリケーションのパフォーマンスを大幅に向上 |NVIDIA

NVIDIA、NVIDIA Tesla P100アクセラレータにより、ディープラーニング、HPCアプリケーションのパフォーマンスを大幅に向上

アーキテクチャに関する5つのブレークスルーにより、以前のアーキテクチャの12倍以上のパフォーマンスをサーバーで実現

米国カリフォルニア州サンノゼ—GPUテクノロジ・カンファレンス—2016年4月5日—NVIDIA（本社：米国カリフォルニア州サンタクララ、社長兼CEO：ジェンスン・フアン（Jen-Hsun Huang）、Nasdaq：NVDA）は本日、史上最先端のハイパー・スケールデーターアクセラレータ、NVIDIA® Tesla® P100 GPUを発表しました。

NVIDIA Teslaアクセラレーテッド・コンピューティング・プラットフォームに新たに加わったTesla P100は、何百ものCPUサーバー・ノードに匹敵するパフォーマンスを実現できる新たなクラスのサーバーを実現します。今日のデータセンターは、相互に接続した多数のコモディティ・サーバーからなる巨大なネットワーク・インフラストラクチャであり、Webサービスなど、いくつものトランザクション・ワークロードを処理します。しかしながら、超効率的で、超高速なサーバー・ノードを必要とする次世代の人工知能や科学的な応用には非効率です。

5つのブレークスルー・テクノロジを備えた新しいNVIDIA Pascal™ GPUアーキテクチャをベースとするTesla P100は、計算処理上の要求が最も高いアプリケーションを動かすための、比類なきパフォーマンスと効率を提供します。

NVIDIAのCEO兼共同創設者であるジェンスン・フアン（Jen-Hsun Huang）は次のように述べています。「癌の治療法の発見、気候変動の理解、インテリジェントなマシンの開発といった科学や技術における最大の課題は、無限に近いコンピューティングのパフォーマンスを必要とします。弊社は、Pascal GPUアーキテクチャを一から設計し、各段階でイノベーションを実現してきました。これは、コンピューティングのパフォーマンスと効率における極めて大きな飛躍を意味し、未来の進歩を推進する最も優秀な頭脳たちを支援します」

Cognitive SolutionsおよびIBM Researchのシニア・バイス・プレジデント、ジョン・ケリー³世博士（Dr. John Kelly III）は、次のように述べています。「コンピューティングの新時代に突入する今、AIとコグニティブのメリットを十分に享受するには、基本的なテクノロジに対するまったく新しいアプローチが必要となります。NVIDIA GPUとOpenPOWERのテクノロジの組み合わせにより、Watsonにおいては既に新しいスキルの習得が加速しています。IBMのPowerアーキテクチャと、NVLinkを搭載したNVIDIAのPascalアーキテクチャが合わさることで、コグニティブ・ワークロードのパフォーマンスはさらに加速し、人工知能産業は発展します」

アーキテクチャに関する5つのブレークスルー
Tesla P100は、5つのブレークスルーをベースに前例のないパフォーマンス、拡張性、プログラミング効率を実現します。

NVIDIA Pascalアーキテクチャによるパフォーマンスの飛躍的な向上–PascalベースのTesla P100ソリューションでは、前世代のNVIDIA Maxwell™ベースのソリューションに比べ、12倍を超すニューラル・ネットワーク・トレーニング・パフォーマンスを提供します。
NVIDIA NVLinkにより最大化されたアプリケーションの拡張性–NVIDIA NVLink™高速GPUインターコネクトでは、複数のGPU間にアプリケーションを拡張し、今日のクラス最高のソリューションに比べ5倍の帯域幅での高速化を実現します。¹単一のノードでのアプリケーションのパフォーマンスを最大化するために、最大で8台のTesla P100 GPUをNVLinkとインターコネクトでき、IBMでは、CPU、GPU間の通信の高速化のためにNVLinkをPOWER8 CPUに搭載しています。
16nm FinFETによる前例のないエネルギー効率–16ナノメートルのFinFET製造技術によって作られた153億のトランジスタを備えたPascal GPUは、これまでに作られた世界最大のFinFETチップです。²無限に近いコンピューティングを必要とするワークロードのための、最速のパフォーマンスと最高のエネルギー効率を提供できるよう作られています。
ビッグデータのワークロードのためのHBM2 搭載CoWoS –Pascalアーキテクチャは、前例のない計算効率を実現するために、プロセッサとデータを単一のパッケージに統合します。メモリ・デザインへの革新的なアプローチであるHBM2を搭載したCoWoS（チップ・オン・ウェハ・オン・サブストレート）では、Maxwellアーキテクチャに比べ、3倍のメモリ帯域幅のパフォーマンス、すなわち720GB/秒を実現しています。
ピーク・パフォーマンスのための新たなAIアルゴリズム –新しい半精度命令により、ディープ・ラーニング時に21テラフロップス以上のピーク・パフォーマンスを実現しています。

Tesla P100 GPUアクセラレータは、48デュアルソケットCPUサーバー・ノードよりもTesla P100 GPUにおける単一サーバー・ノードでより速く処理される分子動力学コードのAMBERなど、幅広いHPCやディープ・ラーニングのアプリケーションのための新しいレベルのパフォーマンスを提供します。3人気の高いAlexNetディープ・ニューラル・ネットワークのトレーニングにおいては、8台のTesla P100 GPUに相当するパフォーマンスを得るには250のデュアルソケットCPUサーバーが必要となります。⁴また、広く利用されている天気予報アプリケーションのCOSMOは、27台のデュアルソケットCPUサーバーよりも、8台のTesla P100 GPUにおいてより高速で稼働します。⁵

5、10テラフロップス以上の倍精度、単精度のパフォーマンスを実現する初のアクセラレータとなるTesla P100は、幅広い分野において、処理能力と、発見までの時間の面での大きな飛躍を意味します。

NVIDIA SDKのアップデート
NVIDIAは、世界で最も強力なGPUコンピューティングの開発プラットフォームであるNVIDIA SDKのアップデートも多数発表しました。

アップデートの1つは、NVIDIA CUDA® 8です。NVIDIAの並列コンピューティング・プラットフォームの最新バージョンとして、統合メモリやNVLinkなどのPascalの強力な新機能へのアクセスを開発者に提供します。また、このリリースには、ロボティック・パス・プランニング、サイバー・セキュリティ、ロジスティックス分析などに利用できる新たなグラフ分析ライブラリのnvGRAPHも含まれ、GPUアクセラレーションの適用範囲がビッグデータ・アナリティクスへと拡大されます。

NVIDIAは、ディープ・ニューラル・ネットワークの基本命令からなるGPUアクセラレーテッド・ライブラリであるcuDNN version 5も発表しました。cuDNN 5には、Pascal GPUのサポート、ビデオやその他のシーケンシャル・データに用いられる頻発するニューラル・ネットワークのアクセラレーション、医療、石油・ガスなどの業界で利用されるさらなる拡張機能などが含まれます。cuDNNは、GoogleのTensorFlow、カリフォルニア大学バークレー校のCaffe、モントリオール大学のTheano、ニューヨーク大学のTorchなど、主要なディープ・ラーニング・フレームワークを加速します。そして、それらが、Amazon、Facebook、Googleなどが利用するディープ・ラーニング・ソリューションを支えています。

Tesla P100の仕様
Tesla P100 GPUアクセラレータの仕様:

NVIDIA GPU BOOST™ による5.3テラフロップスの倍精度パフォーマンス、10.6テラフロップスの単精度パフォーマンス、21.2テラフロップスの半精度パフォーマンス
NVIDIA NVLinkによる160GB/秒の双方向インターコネクト帯域幅
16GBのCoWoS HBM2スタックド・メモリ
CoWoS HBM2スタックド・メモリによる720GB/秒のメモリ帯域幅
ページ移送エンジンと統合メモリによる強化されたプログラマビリティ
ECC保護による信頼性の向上
データセンターの最高のスループットと信頼性を実現するためのサーバー最適化

提供開始
新しいNVIDIA DGX-1™ディープ・ラーニング・システムにおけるPascalベースNVIDIA Tesla P100 GPUアクセラレータの一般市場への提供開始は6月になります。また、主要サーバー・メーカーからは2017年上旬に提供開始予定です。

参考情報

ディープ・ラーニングに関する動画

(1) 31.5GB/秒の双方向性の帯域幅を提供するPCIe x16 Gen3 に比べた、NVLink　160GB/秒の双方向性の帯域幅。 (1)

(2)NVIDIA Tesla P100 GPUは、 153億の 16nm FinFETトランジスタの性能を提供。

(3)CPUシステム: 48 ノード,各ノードは、 2x Intel E5-2680v3 12 コア、128GB DDR4、 FDR IB インターコネクト. GPUシステム: シングルノード、 2x Intel E5-2698 v3 16コア、512GB DDR4、 4x Tesla P100、 NVLink インターコネクト。

(4)InfiniBand インターコネクトを用いたIntel Xeon E5-2697 v3プロセッサーベースのシステムのILSVRC-2012 データセットを、Caffe/AlexNetが学習させる時間と比べた結果。下記を利用し、250ノードのパフォーマンスを算出。https://software.intel.com/en-us/articles/caffe-training-on-multi-node-distributed-memory-systems-based-on-intel-xeon-processor-e5.

(5)CPU システム: 2x Intel E5-2698 v3 16コア、256GB DDR4. GPUシステム:シングルノード、 2x Intel E5-2698 v3 16コア、 512GB DDR4、 8x Tesla P100、 NVLinkインターコネクト。

NVIDIAについての最新情報:
公式ブログNVIDIA blog, Facebook, Google+, Twitter、LinkedIn、InstagramNVIDIAに関する動画YouTube、画像Flickr。

NVIDIAについて
1993年以来、NVIDIA（NASDAQ: NVDA）は、ビジュアル・コンピューティングという芸術的な科学の世界をリードしてきました。ゲーミング、自動車、データセンターおよびプロフェショナル・ビジュアリゼーションの分野で特化したプラットフォームを提供し続けています。NVIDIAの製品は仮想現実、人工知能、自律走行車の開発においても最新の技術を提供しています。詳しい情報は、//nvidianews.nvidia.com/をご覧ください。

____________________________________

本プレスリリースに記載されている、影響、パフォーマンス、NVIDIA Telsa P100 GPUの利点・可用性、NVIDIA SDK、NVIDIA DGX-1ディープ・ラーニング・システムに関連する開発の利益・影響、は将来予測的なものが含まれており、予測とは大幅に異なる結果が生じるリスクと不確実性を伴っています。かかるリスクと不確実性は、世界的な経済環境、サードパーティーに依存する製品の製造・組立・梱包・試験、技術開発および競合による影響、新しい製品やテクノロジの開発あるいは既存の製品やテクノロジの改良、当社製品やパートナー企業の製品の市場への浸透、デザイン・製造あるいはソフトウェアの欠陥、ユーザの嗜好および需要の変化、業界標準やインターフェースの変更、システム統合時に当社製品および技術の予期せぬパフォーマンスにより生じる損失などを含み、その他のリスクの詳細に関しては、Form10-Qの2015年10月25日を末日とする四半期レポートなど、米証券取引委員会（SEC）に提出されているNVIDIAの報告書に適宜記載されます。SECへの提出書類は写しがNVIDIAのウェブサイトに掲載されており、NVIDIAから無償で入手することができます。これらの将来予測的な記述は発表日時点の見解に基づくものであって将来的な業績を保証するものではなく、法律による定めがある場合を除き、今後発生する事態や環境の変化に応じてこれらの記述を更新する義務をNVIDIAは一切負いません。

© 2016 NVIDIA Corporation. All rights reserved. NVIDIA、NVIDIAロゴ、Tesla、Pascal、Maxwell、NVIDIA NVLink、CUDA、NVIDIA GPU BOOSTおよび、DGX-1またはその他の国におけるNVIDIA Corporationの商標あるいは登録商標です。その他の企業名および製品名は、それぞれ各社の商標である可能性があります。機能や価格、供給状況、仕様は、予告なく変更される場合があります。

NVIDIA、NVIDIA Tesla P100アクセラレータにより、ディープ ラーニング、HPCアプリケーションのパフォーマンスを大幅に向上

NVIDIA、NVIDIA Tesla P100アクセラレータにより、ディープラーニング、HPCアプリケーションのパフォーマンスを大幅に向上