Opteron 250x2CPU 8GB + RHEL 3で
icc 9.0 pgi6.0.5で姫野ベンチ
1)% ifc -O3 himenombmtxps.c -DLARGE で847MFLOPS
2)% ifc -O3 -axP だと1095 MFLOPS
3)% ifc -O3 -parallel だと 1178 MFLOPS
4)% ifc -O3 -parallel -axP だと 1104 MFLOPS
5)% pgcc -fastsse -Mconcur -DLARGE 1475 だと MFLOPS

3),4),5)では2CPUの並列化を期待しているのだが、
CPUの使用状況をモニタしていると4)はほぼ1CPU のみ使用。
4)で並列化さえできれば ifc9.0はpgcc6.0より速くなると思われる。
最適化+並列化ができるコンパイラオプションはないのか。