>>106
そのためのUTF-8なんじゃない?

さまざまな言語のテキストから
% grep '毛沢東'