2017年3月

Sun Mon Tue Wed Thi Fri Sat
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  
お気軽にお問合せください。
NEWS&CHIPS|国際技術ジャーナリスト、技術アナリスト、メディアコンサルタント津田建二の事業内容~技術・科学分野の取材・執筆(国際技術ジャーナリスト)

 

東工大TSUBAME3.0スパコン開発におけるグローバルなエコシステム
2017年2月22日 20:59

 東京工業大学が先日、スーパーコンピュータTSUBAME3.0を開発したことを発表した。この夏に発表されるGreen 500を待たなければならないので、真の実力がどの程度かは明確ではないが、少なくとも設計思想として、消費電力当たりの性能が高いスパコンではある。しかもこれからのIT開発のメガトレンドを先取りして、AI(人工知能)に向いたアーキテクチャをとる。

DSCN3854.JPG

図 TSUBAME開発のリーダーである松岡聡教授 

 しかも東工大のスパコン開発にはグローバルな協力体制を敷いた。コストイフェクティブな製品を作るための方法であることを示唆している。TSUBAMEは元々低コストで作り低コストで運用することを主眼にしていた。スパコン全体のアーキテクチャを見直し、市販のプロセッサを使いこなしてきた。TSUBAME3.0の開発には、後で紹介する海外企業もずいぶん参加している。これによって、スパコンを作るためのコストが大幅に削減している。このコストには、製作コストだけではなく、運用コストつまり電気代も安い。消費電力が低いからだ。オールジャパンの「京」が1000億円かかっているのに対して(参考資料1)50億円程度であげている。これは東工大の見積もりだが、TSUBAME2.0 (2010) からTSUBAME2.5に切り替えた時に電気代を含み6年間で50億円のリプレースおよび電気代で済んだが、2011年の「京」は6年間で1500億円程度ではないかとみている。

  TSUBAME3.0の性能は、倍精度演算(64ビット)では、理化学研究所が国家プロジェクトとして「オールジャパン」体制で開発したスパコン「京」よりもわずか上回る12.12 PFlops(ペタフロップス:ペタはギガの100万倍)という数値だが、32ビットの単精度演算では65.8PFlops6倍も速い。その消費電力はコンピュータラック1台当たり50~60kWで、同じ床面積の一般のデータセンターと比べると、電力効率は10~20倍も高いという。

  なぜ単精度の演算が必要か。ニューラルネットワークのような積和演算では64ビット演算を必要としないケースが多く、32ビットや16ビット、時には8ビットで済ませることもあるらしい。Googleが開発したTPUTensor Processing Unit)がそうだ。TPUでは演算を効率よく行うだけではなく、無駄に桁数を増やさなくて済み、消費電力の削減にもつながるため、8ビット演算も含んでいるようだ。それによって従来の検索エンジン用プロセッサと比べTPUの消費電力は従来の1/10に減った。

  東工大は文部科学省が管轄する国立大学ではあるが、この開発には海外企業もずいぶん参加している。Hewlett-Packard Enterprise(旧グラフィックスのSGIHPEが買収)がハードウエア設計、NvidiaIntelがそれぞれGPUCPUプロセッサ部分を担当し、DataDirect Networksがストレージ部分の設計を担った。

  東工大の松岡教授がコンピュータのハードウエア仕様を決め、HPEにハードウエアの製作を依頼した。HPESGI CTOVPであるEng Lim Goh氏によると、「松岡先生の要求はとてもタフだったが、結果的に優れたスパコンができた」と述べている。最近スパコンやHPCではCPUではなくGPUを使う例が増えているため、最新のGPUチップとしてNvidiaTesla P100、コードネームPascalを提供した。もちろん、IntelはハイエンドのXeonプロセッサとCPUボードに搭載するSSDを提供した。DDNは、HDDをベースとした15.9PBのストレージシステムを製作した。

  GPUは最近HPCHigh Performance Computing)で使われるようになってきているが、グラフィックプロセッサはレンダリング(色塗り)作業で、画面部分を同じ色で並列化することが多い。同じ作業を並列でメモリとやり取りするにはCPUよりもGPUの方が速い。CPUだと割り込みが入るため、その場合は作業が中断され遅れてしまう。Tesla P100では、縦積みにしたDRAMTSVthrough silicon via)でつなぐという3D-ICメモリのHBM2を使い、トランジスタ部分には16nmFinFETプロセスを使って実現した。

  さらに、GPUはニューラルネットワークの入力データ値と重みとの積和演算にも使う。この積和演算をどこまでのビット数で演算すべきか、と考えると倍精度(64ビット)は明らかに不要。何度も重みを変えながら学習する訳だから、分解能よりも学習回数の方がニューラルネットワークには向く。そうすると単精度どころか半精度(16ビット)で十分、ということになる。プロセッサの設計を見直すことで、GPUでさえもっと消費電力を減らすことが可能だ。つまり、Nvidiaがもっと消費電力が低くAIに向いたプロセッサを開発していることは想像に難くない。

  TSUBAME3.0の冷却では、冷却水の温度を32℃に保ち、熱せられたお湯は40℃程度になり、外に設置した熱交換機を経て、またもとに戻る。外にある熱交換機は自然空冷である。Eng Lim Goh氏によると、「比較的高い32℃を選択したのは、もっと高温にするとCMOSトランジスタの性能が下がり、逆にもっと低ければ水滴が付く」からである。つまり32℃がプロセッサの冷却に最適な水温だといえる。

  東工大によると、3月末までに工事を終え、7月末に納入する予定だという。消費電力当たりの性能に自信を持つGreen500の発表までに間に合わせるように頑張るとしている。

2017/02/22

 

参考資料

1.    世界と比べて常識はずれな1000億円という高額なスーパーコン補助金(2013/05/10