>>216
下にコンパイルオプションを書いておいた。
単精度なら,OPT_MACHINEはPentiumIIIかPentium4用にして
CFLAGSには CFLAGS1, CFLAGS2, CFLAGS3のどれかを設定しておけばOK
一番内側のループがvectorizeされる。
どれがvectorizeに関係するオプションかは自分でマニュアルを読んで確認してください。

# Penteium III
#OPT_MACHINE= -tpp6 -xK -unroll4
# Penteium4,Xenon
OPT_MACHINE = -tpp7 -xW -unroll16

COPT0 = -c99 -prec_div -fno-alias -fno-fnalias -ansi_alias -ip -lib_inline -nobss_init -Zp16
COPT1 = -Werror -vec_report3 -V
CFLAGS3 = $(OPT_MACHINE) -O3 $(COPT0) $(COPT1)
CFLAGS2 = $(OPT_MACHINE) -O2 $(COPT0) $(COPT1)
CFLAGS1 = $(OPT_MACHINE) -O1 $(COPT0) $(COPT1)
CFLAGS0 = $(OPT_MACHINE) -O0 $(COPT0) $(COPT1)

マニュアルやIntelが公開してる資料をよく読むことと,
過去のvector計算機用のコードなども参考にすると良いでしょう。
科学技術計算で出現頻度の高い積和演算などは効率的にvectorizeされます。
ただし,なにしろ安いCPUなので制約が結構あります。
loopの増分が1以外はvectorizeされない。1以外でも強制的にvectorizeさせることができる場合があるが速くない。
vectorizeの効果は2〜3割程度。(vector計算機なら数倍の効果があった)
SSE, SSE2, SSE3についてはIntelの資料を参照のこと。