スーパーコンピュータ「HA-PACS」を拡張-1ペタフロップスを超える性能に|NVIDIA
 

スーパーコンピュータ「HA-PACS」を拡張-1ペタフロップスを超える性能に

 
 

概要
筑波大学計算科学研究センターは、スーパーコンピュータ「HA-PACS」に新規開発した「TCA機構」搭載部を拡張し、これまでの総ピーク演算性能802テラフロップス(毎秒802兆回)から1.166ペタフロップス(毎秒1166兆回)に増強させたスーパーコンピュータの運用を開始しました。

「HA-PACS」は平成24年2月1日に運用を始めた、宇宙・素粒子・生命などの研究をけん引する最先端の超並列演算加速器クラスタ型スーパーコンピュータです。268台の計算ノードからなるベースクラスタシステムに、この度、同センターで開発した密結合並列演算加速機構(TCA機構)を装備した64台の計算ノードを追加しました。その結果、364テラフロップスの演算性能が増強され、システムの総ピーク演算性能は1.166ペタフロップス(毎秒1166兆回)となりました。筑波大学として初めて1ペタフロップスを超えるシステムです。

TCA機構は、GPU*1を搭載したPCクラスタシステムの大きな問題であった、遠隔GPU間の通信性能の低さを改善する画期的な機構です。独自開発の通信用チップにより、これまでできなかった異なるノード上のGPU間の直接通信を実現。通信時間を大幅に短縮させて、GPUクラスタにおける演算性能を大きく改善させることが可能となりました。これにより、計算科学研究センターでは、並列GPU計算アプリケーション開発を加速させ、先進的計算科学研究を推進していきます。なお、HA-PACS/TCA部の構築は、システム実装及びTCA機構のGPU向け開発に際し、米エヌビディア社および米クレイ社の技術協力を得て進められました。

背景
10ペタフロップス級の性能がスーパーコンピュータ「京」によって実現された現在、演算性能をエクサ*2フロップス級(エクサはペタの1000倍)まで高めるための研究がすでに始まっています。しかし、1台の計算機で使用可能な電力や設置面積の制限から、このような超高性能を実現することはますます難しくなっており、何らかの演算加速装置*3を持つシステムが不可欠です。これらのシステムには、演算加速装置とCPUの間の通信や、並列演算加速装置間の通信における様々なボトルネックが存在します。加えて、超並列規模の演算加速装置を用いた大規模プログラムの開発には、アルゴリズムレベルからの改良など大きな人的コストと時間がかかります。

筑波大学計算科学研究センターでは、高密度超並列GPUクラスタを最先端標準製品技術とわれわれ独自の技術の組み合わせにより実現し、これらの問題に挑戦します。このための研究基盤が「HA-PACS」です。最先端CPUとGPUの組み合わせによる超並列GPUクラスタを従来にない規模で定常的に並列利用することにより、エクサスケール時代につながる演算加速型アプリケーションの開発と、われわれが提唱する密結合並列演算加速機構アーキテクチャに基づく次世代GPUクラスタを実現します。ここで培われたハードウエア及びソフトウエアのシステム開発技術を、エクサスケールシステム実現への基盤技術として熟成させていきます。

詳細
筑波大学計算科学研究センターは、宇宙・素粒子・生命などの研究をけん引する最先端の超並列演算加速器クラスタ型スーパーコンピュータ、密結合並列演算加速機構実証システム「HA-PACS」(Highly Accelerated Parallel Advanced system for Computational Sciences)の導入を平成23年度から進め、平成24年2月1日にその基礎となるベースクラスタシステムの稼働を開始。さらに平成25年11月1より、独自開発による密結合演算加速機構TCA(Tightly Coupled Accelerators)を備えたHA-PACS/TCAシステムを追加した拡張システムを稼働しました。追加されたHA-PACS/TCAシステムの基本部分は米クレイ社により提供され、これに計算科学研究センターで開発されたTCA通信機構を搭載した通信ボードを装着することで、従来のシステムを大幅に上回るGPU間通信性能を持つシステムが実現されています。

HA-PACS/TCAシステムは、米インテル社製の最新CPUであるE5-2680 v2を2基と米エヌビディア社製の最高性能GPUであるTesla K20Xを4基搭載した、コンパクトで先進的な計算ノードを64台結合した並列システムです。ノード単体のピーク演算性能は5.688テラフロップス(毎秒5兆6800億演算)に達し、これはGPUを搭載した標準的な2 CPUソケットタイプのサーバを利用したこの規模の超並列クラスタ型スーパーコンピュータとして世界最高クラスの性能となります。ベースクラスタシステムと一体となった並列処理が可能で、システム全体としての総ピーク演算性能は1.166ペタフロップス(毎秒1166兆回)となります。

TCA機構は計算科学研究センターが提唱する「密結合並列演算加速」という概念を実現する新しい技術です。将来のエクサスケール計算システムにおいて、システムの省電力化は最重要課題の一つであり、限られた電力で特定の演算を超高速に実行可能な演算加速装置の重要性が注目されています。しかし、一般的に演算加速装置はその演算性能の高さに比べ、外部とのデータのやり取りを行う入出力部の性能が弱く、特に大規模並列処理に用いた場合、その潜在的性能が著しく制限されてしまう可能性があります。TCA機構はこの問題に対し、ハードウエアとソフトウエアの技術により、一つの答えを提供します。

GPUを始めとする演算加速装置は、基本的にPCI Expressと呼ばれる標準バス(データ伝送路)によってCPUと結合され、計算の実行や並列処理におけるノード間通信などはCPUのメモリや結合網を用いて行われます。従来のPCI Expressバスは、CPUからの制御によってあらゆる通信が実行されていました。TCA機構は、このPCI Expressバスを計算ノード間通信に拡張し、ノードを超えた演算加速装置間の直接通信を実現することにより、演算加速装置が本来持つ性能を最大限に活かした新しい並列処理を実現する技術です。

TCA機構をGPUに適用するため、われわれはPEACH2(PCI Express Adaptive Communication Hub ver.2)と呼ばれる通信チップを集積回路FPGAにより新規開発。このチップを搭載した通信ボードをHA-PACS/TCAの計算ノードに装着することにより、多数のGPU間の通信時間を数分の一程にする大幅な短縮を実現しました。

また、TCA機構が対象とする演算加速装置としては、GPUだけでなくメニーコアプロセッサなどを利用することも可能で、われわれは将来的にいろいろな演算加速装置に適用した実験も視野に入れています。これらの実証実験で培われる新しい形の並列処理や、開発されるアルゴリズム及びアプリケーションは、次世代の超並列演算加速機構の開発につながるものと期待されます。

開発経緯とシステムの特徴
計算科学研究センターは、平成23年度から文部科学省から国立大学法人運営費交付金特別経費を受け、3カ年計画で「エクサスケール計算技術開拓による先端学際計算科学教育研究拠点の充実」事業(責任者 佐藤三久教授)を推進しています。

この事業は、超並列演算加速型クラスタ計算機の「HA-PACS」を開発・製作し、これを用いて宇宙・素粒子・生命の先端的な研究を推進し、さらに次世代の演算加速型並列システムの要素技術となる密結合並列演算加速機構の技術開発を行うものです。HA-PACSの基本部分となる超並列GPUクラスタは最先端コモディティ技術に基づくCPUとGPUを搭載したシステムとして調達します。密結合並列演算加速機構については、計算科学研究センターにおいてハードウエアからアプリケーションまでの開発を行い、HA-PACSの拡張部分として実装していきます。

システムの特徴
HA-PACS/TCAは64台の計算ノードを持ち、クラスタグループと呼ばれる複数の計算ノード上のGPU間をTCAネットワークで結合し、さらに全計算ノード間を2本の並列QDR InfiniBandネットワーク*4でFat Tree結合した並列型のGPUクラスタ計算機です。全体で364テラフロップス(毎秒364兆回)のピーク計算性能、8テラバイトのメモリを持っています。既に稼働しているベースクラスタシステムと合わせ、総演算ピーク性能1.166ペタフロップスが実現されます。計算科学の大規模計算を実現可能とする特徴は次のとおりです。

  1. 独自開発のPEACH2チップ及びこれを搭載した通信ボードを64台の全ての計算ノードに装着することにより、併設するInfiniBandネットワークよりもはるかに短い時間での高速通信を実現します。また、単に通信が速いだけでなく、計算ノード上のGPUと他のノードのGPU間の直接通信が可能となり、これに基づく新たなGPUアプリケーションやアルゴリズムの開発を通じて、大幅な計算性能の向上が見込まれます。

  2. 豊富なPCI Expressチャネル数を持つ米インテル社の最新CPUであるE5 v2(IvyBridge-EP)プロセッサを2基搭載することにより、4基の最新型GPU(米エヌビディア社製Tesla K20X)をストレスなくCPUと結合させることを可能にしました。これにより、GPUへの通信性能を損なうことなく、5.688テラフロップスという世界最高クラスのノード単体性能を3U相当のコンパクトな構成で実現しました。

  3. TCA機構を持つ拡張部を既設のベースクラスタとInfiniBandネットワークによってシームレスに結合し、全システムで1ペタフロップスを超える超並列GPU計算を実行可能としました。

今後の見通し
今回のHA-PACSの拡張により、科学技術の基礎となる大規模行列演算の並列処理の加速、宇宙物理分野における大規模並列処理の加速など、従来のGPUによる並列処理の効率を上げ、先端的計算科学の諸分野に貢献することが可能となります。

用語解説

  1. GPU Graphics Processing Unitの略。本来PCサーバにおけるグラフィックス処理を目的として作られた専用プロセッサだが、近年はその高い演算性能とメモリバンド幅を利用した高性能計算への転用が活発化している。

  2. エクサ 10の18乗。ペタ(10の15乗)の1000倍。エクサフロップスとは、現在、スーパーコンピュータ「京」が持つ10ペタフロップスの性能の100倍、すなわち毎秒100京回の演算性能に相当する。

  3. 演算加速装置 汎用計算を行うCPUに対する拡張機構として、PCI Expressなどの汎用バスを介して接続される高性能演算装置。計算を自律的に行うことは不可能で、CPUから起動されることにより、アプリケーションの一部または全部を高速に実行する。ただし、演算装置やアーキテクチャが高性能浮動小数点演算向けに特化され、必ずしも全てのアプリケーションプログラムが高速化されるとは限らない。一般的に利用可能な演算加速装置の例としては、GPUやメニーコアプロセッサなどがある。

  4. QDR InfiniBandネットワーク 高性能クラスタ型計算機で多用される高性能ネットワーク。Ethernetなどに比べて数倍~数十倍の通信性能を持ち、さらに数百~数千ノード規模のシステムをFat Treeと呼ばれるネットワーク構成で結合可能である。

関連情報:

筑波大学計算科学研究センターホームページ
//www.ccs.tsukuba.ac.jp/CCS
「HA-PACS」プロジェクト特設ページ
//www.ccs.tsukuba.ac.jp/CCS/research/project/ha-pacs

問い合わせ先:

梅村雅之(研究代表者)
筑波大学計算科学研究センター長/数理物質系教授
TEL 029-853-6485 
E-mail:umemura@ccs.tsukuba.ac.jp

朴 泰祐(「HA-PACS」開発担当主査)
筑波大学計算科学研究センター/システム情報系教授
TEL 029-853-5518 
E-mail:taisuke@cs.tsukuba.ac.jp

報道担当:

筑波大学計算科学研究センター広報室
TEL:029-853-6260(直通)、6487(代表) 
E-mail:pr@ccs.tsukuba.ac.jp

クレイ・ジャパン・インク 製品企画本部
TEL:03-3503-0901(代表) 
E-mail:jpsales_online@cray.com

エヌビディア ジャパン マーケティング本部 広報/マーケティングコミュニケーションズ 中村かおり
TEL: 03-6743-8712(直通) 
E-mail:knakamura@nvidia.com