HPC/並列プログラミングポータルでは、HPC(High Performance Computing)プログラミングや並列プログラミングに関する情報を集積・発信しています。

新着トピックス

コンパイラの自動並列化による並列化

 コンパイラによっては、ループを並列に実行するなどの並列化を自動的に行う「自動並列化」機能を備えているものがある。自動並列化を備えたコンパイラとして代表的なのが、Parallel Composerに含まれているほか、単体製品としても販売されている「インテル C++ コンパイラー」だ。

 自動並列化を利用することで、ユーザーがコードを変更することなしに、プログラムを並列化することができる。ただし、自動並列化機能ではあらかじめ実行する回数が決まっているループしか並列化できず、OpenMPやTBBを使って人力で並列化を行ったコードと比べるとパフォーマンスはやはり劣ることが多い。とはいえ、何も手間をかけずにコードを並列化できるため、使わない手はない。OpenMPやTBBと併用し、自動並列化機能では並列化できないようなループについてはOpenMPやTBBを利用する、といった使い方が効果的だろう。

 また、インテル コンパイラーはループをCPUがより高速に実行できる形に置き換える機能や、CPUが備えるSSEなどの高速演算機能をより活用するようなコードを出力する機能も備えている。これにより、Visual C++でコンパイルするよりも高速なプログラムを作成することが可能だ。

 たとえば先で紹介してきたメディアンフィルタプログラムについて、Visual C++でコンパイルしたものとParallel Composerに含まれるインテル C++ コンパイラーでコンパイルしたもの、そしてインテル C++ コンパイラーで自動並列化を有効にしてコンパイルしたものを比較したのが表7である。この結果からも、単純にインテル C++ コンパイラーを利用するだけでパフォーマンスが向上していることが分かる。

表7 コンパイラによる実行速度比較:インテル C++ コンパイラー対Visual C++
並列化手法所要時間
Visual C++ 2008インテル C++ コンパイラー 11.1(Parallel Composer)C++ コンパイラー 11.1+自動並列化
シングルスレッド版(med_serial.c)559838823802
マルチスレッド版(med_thread.c)292620642008
OpenMP版(med_omp.c)303320372017
TBB版(med_tbb.cpp)318622102099

※単位はすべてミリ秒

状況に応じて適切な並列化技術を使い分けよう

 以上、マルチスレッド、OpenMP、TBBを使用した並列処理の実装について紹介してきたが、それぞれに特徴があることが理解いただけただろうか。マルチスレッドによる実装はもっとも柔軟ではあるものの、実装の手間やスケーラビリティに欠ける一方、OpenMPによる実装は手軽で、かつスケーラビリティも確保できる。また、TBBはOpenMPよりも柔軟だが、マルチスレッドの場合ほどは実装が複雑にならない、ちょうど中間に位置するものとも言えるだろう。

 今回は多数繰り返し実行されるループを並列化する、という形で並列処理を実装しているが、もちろんアプリケーションによってどのように並列化を実装すべきか、というのは異なる。そのため、状況に応じて、適切な並列化技術を使い分けると良いだろう。