377コメント121KB

ja_JP.UTF-8

スレをまとめに
5ch即うp → gzo.ai

■ このスレッドは過去ログ倉庫に格納されています

1login:Penguin

04/02/19 17:09ID:EuXdEmYH

Linux で ja_JP.UTF-8 ロケールで暮らす方法についてのスレです。

52login:Penguin

04/03/10 16:40ID:XYz8ACQw

>>51
--enable-ximってしてもximが聞かないなあ

53login:Penguin

04/03/11 16:09ID:w0ox2sq1

cygwin の libiconv に
http://www2d.biglobe.ne.jp/~msyk/software/libiconv-1.9.1-patch.html
を当てて作り直して、
さらに cocot を使いつつ ssh で Linux へログイン。

Linux 上で emacs + mule-ucs を起動。その時
(set-default-coding-system 'utf-8) をする。
かなりフツーに使える。
あとは tcsh のコマンドラインエディタが utf-8 にマトモに対応してくれりゃいいんだが。

libiconv の日本語パッチの作者は、これを libiconv 本体に取り込んでもらうつもりはないのかな…？

54login:Penguin

04/03/11 16:11ID:w0ox2sq1

そうそう、emacs 上で HELLO を表示すると、さすがに化け化けになる。
文字幅を適切に反映してくれるだけで、もうちょっとマトモに見えそうなもんだが。

55login:Penguin

04/03/11 17:03ID:5SXwbIF3

>>53
Brunoに送ったらしいけど、まだ取り込まれていない。理由はようわからん。
glibcの方はもう取り込まれてるんだけど。

56login:Penguin

04/03/11 18:04ID:w0ox2sq1

>>54UNICODE の文字の固定幅ってどうやったらわかるのでしょう?何かそれっぽい API が存在するのかな… iconv には見当たらないが。

57login:Penguin

04/03/11 18:14ID:5SXwbIF3

libc的にはwcwidth()を使えばカラム数は取得できる。
もちろんlocale依存だけど。

58login:Penguin

04/03/11 22:28ID:w0ox2sq1

>>57
locale に依存しない方法がほしいですねぇ(´･ω･｀)

59login:Penguin

04/03/11 23:31ID:O42OfURm

>>58
East Asian Width
ttp://www.unicode.org/reports/tr11/tr11-11.html
↑これを見れ。

ED6. East Asian Ambiguous (A)
のおかげで、どうがむばってもlocale依存だすよ。(´･ω･｀)

60login:Penguin

04/03/12 04:06ID:r4gmyMD+

>>59
あ、そうではなくて、
プログラム自身は A というlocaleで動いているが、
B という locale での幅を知りたい場合とか。
int wcwidth(wchar_t c, locale_t locale)
みたいな感じにしておかないと困らないかね…？

61login:Penguin

04/03/12 23:05ID:J5ryzPu3

>>60
CとC++の話がごっちゃになってない？

62login:Penguin

04/03/12 23:18ID:r4gmyMD+

>>61
誤爆？API関数の話だから言語は関係ないと思うけど。

63login:Penguin

04/03/13 00:38ID:WWQ2I/Yq

>>62
Cのlocaleはglobal、C++のlocaleはnon-globalなobjectという
非常に大きな違いがあるが。

64login:Penguin

04/03/13 01:34ID:Olzrdh4Q

>>63
Σ(゜д゜|||)ﾏｼﾞｽｶ
ぜんぜん知らなかった。良かったらその辺の話へのポインタを教えてくださいませ。

65login:Penguin

04/03/13 13:00ID:WWQ2I/Yq

>>64
この辺かな。

The Standard C++ Locale
http://www.cantrip.org/locale.html

Differences between the C Locale and the C++ Locales (Rogue Wave)
http://www.roguewave.com/support/docs/sourcepro/stdlibug/24-3.html

C 言語でのロケールと C++ ロケールとの違い (上の日本語版)
http://www.scl.kyoto-u.ac.jp/scl/appli/appli_manual/SUNWspro/WS6U2/ja/manuals/stdlib/user_guide/loc_io/3_3.htm

66login:Penguin

04/03/15 17:16ID:arceEVVZ

>>23
UTF-8のときは桁数を考慮するよー修正を検討してみまつ。
しばしお待ちください。(GANAさんとこのパッチも取り込んでおかんと……)
# wcwidth()は使えなさそうだなぁ。>>59を見て考えるか。

67login:Penguin

04/03/16 04:01ID:ByfzHSPG

全然関係ないけどhttp://www.google.co.krで「utf-8」を検索すると１ページ目の一番最後の所に
何故か日本語のページが出て来ますね。それにそこもutf-8で書かれているぽ

68login:Penguin

04/03/16 19:59ID:4DIxjUwA

ところで、tcsh は utf8 に対応してることになってますが、
3バイトの文字が来たり、補完したりすると化け化けになります。
http://www.tech-arts.co.jp/macosx/macosx-jp/htdocs/15300/15330.html
このパッチ当ててみたりしましたが、上手く動いてるとはいいがたいような。
誰か解決方法しりません？

69login:Penguin

04/03/17 01:51ID:8JDKSyga

というか、mltermもiconvもglibcもその他もろもろのソフトウェア作成者のみなさん！

JISの１区２９点は、U+2015じゃありません！U+2014です！

これを揃って直してもらわないと、困ります！！！

emacs(version 22)と、java (JDK1.4)は、ちゃんと１区２９点をU+2014にしてます。

Unicodeソフトを書こうと考えているみなさんもおねがいしまつ。U+2014にして下さい。

Unicodeは決して多言語化を実現しませんし、こういった深刻な符号の対応
問題を抱えていますので、Unicode「だけ」サポートして事足れりと考えないで
ください・・・・むしろ、JISとの対応に対してきちんと理解しないで使うよりは、
むしろできるだけ使わない方向でお願いします・・・　データが穢れます。

(参考):http://hp.vector.co.jp/authors/VA010341/unicode/

70login:Penguin

04/03/17 07:09ID:cehwlQdD

JIS 1-29 は、U+2015 と U+2014 のどちらかが正しいというものではありません。
JDK1.4 互換と CP932 互換の両方の変換テーブルを揃って用意してもらわないと、
困ります。

Unicode ソフトを書こうと考えているみなさんも、おねがいします。
U+2015 と U+2014 のどちらか「だけ」サポートして事足れりと考えないでください。

71login:Penguin

04/03/17 09:36ID:v1NfxXgC

ここに書いても伝わらないだろう...

72login:Penguin

04/03/17 19:28ID:/v+B0EmE

>>67
しかも、その日本語のページよりも上位のサイトは
どれも韓国語で書かれてない（ｗ

73login:Penguin

04/03/17 22:19ID:OPdte4Z/

下世話なことですが、
ウンコードには笑いました。

74login:Penguin

04/03/18 19:16ID:O+ze/rOc

Uncode
確かにﾜﾛﾀ

75login:Penguin

04/03/19 16:32ID:WDcHt9kU

愛が足りないとうんこになっちゃうってことか。一つ勉強になりますたよ（藁

7668

04/03/23 03:47ID:Wz1FIJjA

>>68
ふと思いついて、set rprompt='%B%n@%m%b' していたのをやめてみました。
かなりマトモに表示さえるようになりました。
ls-F の表示カラムがずれてしまうのはあいかわらずですが、
それ以外はかなりマトモ。
C-a や C-e でカーソルを移動したときに変な位置へ飛ぶとか、
細かいところで色々怪しいですが、C-l でマトモな位置へ移動します。
あと一歩足りないところを修正して tcsh 本体へパッチ投げてくれないかなぁ

77login:Penguin

04/03/25 09:01ID:aLdLDvmf

>>70
「正しい」のはU+2014 (EM DASH)だよ。JISで規定されてるからね。

ただ、Unicode Consortiumのサイトに置いてある変換表(今はobsolete)に
バグがあって、U+2015 (HORIZONTAL BAR)になっていたのが尾をひいて、
いまだにこちらを使い続けている実装があるというのが現状。

今後は、出力は必ず U+2014にして、入力にはU+2015も許す(JIS 1-29に変換)
というのが妥当かと。

CP932はベンダ固有なので、限定された環境下以外では使わないのが吉。

78login:Penguin

04/03/25 11:34ID:n6uaZHdd

X 0213:2000にもバグがありましたね。
0221 名前
---- ----
2015 EM DASH
ってどっちやねん(正誤表で2014に訂正されたけど)

> CP932はベンダ固有なので、限定された環境下以外では使わないのが吉。
IANAの登録簿でもWindows-31Jは
> but it is of limited or specialized use (see RFC2278).
と明記されてますね。

79login:Penguin

04/03/25 12:00ID:n6uaZHdd

でも0x5CがYEN SIGNになるから
Webアプリケーションでは規格票に100%忠実なShift_JISの実装は
事実上不可能ですけど。
JDK 1.4の実装も0x5CはREVERSE SOLIDUSにマップしてますね。

80login:Penguin

04/03/25 13:06ID:AqIEMmRl

>>77
JISの世界の話としては同意。
CP932の世界ではU+2015が「正しい」というのも前提とするとして、

「限定された環境下」であるところのWindowsが採用するCP932の世界が
unicode-日本語系コード変換の実装としては量的に圧倒的に多い、
というのを無視できるアプリケーションならともかく、
エディタなりウェブアプリなり、CP932の世界が絡む可能性があるなら、
ユーザーにJISとCP932の選択権があるべきじゃないかな？

81login:Penguin

04/03/28 01:30ID:XvF+To5+

cp932なりGNUな環境でjis規格ベッタリな変換したら化ける罠。
対象となる環境にあわせてベンダ固有のに従うのが吉かと。

ていうか、変換テーブル大杉。
ttp://www.debian.or.jp/~kubota/unicode-symbols-map2.html

8266

04/03/30 02:07ID:c1zMVIom

Unicodeで文字幅を取得する(なるべく)ポータブルな方法(特にCJK「以外」)
が知りたいのですが、mltermやw3m-m17nあたりからパク^H^H^H^Hを参考にする
くらいしか手はないでつか?
# ひたすらぐぐってみたんですが、どーにもよさげな情報が……。

83login:Penguin

04/03/30 10:23ID:2+ZkdaEN

文字幅って半角何文字分かということ？
亜がAの2文字分っていう前提からしてフォント依存なのに、
なるべくポータブルの意味がわからん。
「これこれのフォントを使っている」という前提がどこかに必要。

84login:Penguin

04/03/30 10:44ID:D5b8R0dA

>>82
ここよりpfaeditとかいじってるやつがいるところで聞いた方がいいんじゃないかな？

85login:Penguin

04/03/30 11:27ID:+N0HhOX2

>>83
フォントのメトリックを含めて取得したいという意味では?

86login:Penguin

04/03/30 11:30ID:ApCTMVrY

>>23 を読むと rxvt でなんとかしたい模様。

8766=82

04/03/30 11:43ID:c1zMVIom

>>83
> 文字幅って半角何文字分かということ？
うぃ。
> 亜がAの2文字分っていう前提からしてフォント依存なのに、
あー、とりあえずターミナルエミュレータとゆーか固定ピッチフォントのみの
世界限定の話です。目的はcocotで変換不能文字を適切なカラム数でスキップす
ることなんで……。(とは言え、ここでがんばったとしてもEast Asian Width
でambiguousになる文字についてはどーにもこーにもcocotのよーなレイヤでは
整合性なんか取りよーがなさそげなので、これはこれで鬱)
>>84
フォントエディタですか。うーん、ちょっと関心のある部分が違うよーな。気
にしているのはUnicode文字列をターミナルエミュレータ上でどうハンドリン
グするかなので。

8866

04/03/30 12:09ID:c1zMVIom

ぐぐるとemacs-w3m MLのアーカイブとかひっかかるんだけど、先人が(ン年前
に)はまった泥沼に足突っ込んでるオカ～ン。最新の情報はどっかにまとまっ
てないもんか……。
# 調査すべきもの: 最近のxterm、luit、mlterm、w3m(0.5にはlibwcが入って
# るみたいなので、w3m-m17n相当?)、emacs、他に何かあるかなぁ。

89login:Penguin

04/03/30 18:12ID:8/uyDw3m

wcwidth, wcswidth じゃダメかね

90login:Penguin

04/03/30 19:34ID:6qOQKc6W

フォントの幅ならX{mb,wc}TextEscapement。

91login:Penguin

04/03/30 21:19ID:cj3Zi+AV

tcsh スレに utf-8 パッチが投稿されていた。
でも 2 バイトまでの utf-8 までしか扱えないという不完全なもの。
>>68 のほうがまだマシだよ。

9266

04/03/31 02:45ID:f7K9ZfXB

>>89
cygwinのはまだi18n化がまっとーじゃなかったよーな……。
# 試してみよーかとは思うけど、1しか返ってこなかったら悲しい。

93login:Penguin

04/03/31 09:49ID:6/tPX99p

> tcsh スレ
ってどこ? tcshで検索しても出てこない
> 2 バイトまでの utf-8
それってCJKはぜんぜん対応してないってことじゃん…

9466

04/03/31 10:53ID:f7K9ZfXB

テストコードを書こうとして調べていたのですが……。
ttp://www.okisoft.co.jp/esc/cygwin-5.html#5.3
だめぢゃん＿|￣|○
# wide character系の関数はことごとく期待できないとゆーことで
# ファイナルアンサー?(;_;)＞cygwin

95login:Penguin

04/03/31 12:55ID:aNoBOFKp

>>93 すまん。tcsh-ml の間違いだった。

96login:Penguin

04/03/31 15:40ID:BTqfWFS5

>>93
> > 2 バイトまでの utf-8
> それってCJKはぜんぜん対応してないってことじゃん…

なかなか笑わせてくれるなｗ＞cygwin

97login:Penguin

04/03/31 16:49ID:aNoBOFKp

>>96 tcsh の話と cygwin の話はぜんぜん関係ないぞ

9866=92=94

04/03/31 17:10ID:f7K9ZfXB

>>89
しつこくて済みませんが、cygwin1.dllのソース見てみました。
int
_DEFUN (wcwidth, (wc),
_CONST wchar_t wc)

{
if (iswprint (wc))
return 1;
if (iswcntrl (wc) || wc == L'\0')
return 0;
return -1;
}
はっはっはっはっ……。

99login:Penguin

04/03/31 17:58ID:o1W2fgfD

>>98
IBMのICUでできそうな。おおげさかね？
こんなかんじ。

#include <icu/uchar.h>
UEastAsianWidth ea = (UEastAsianWidth)u_getIntPropertyValue(c, UCHAR_EAST_ASIAN_WIDTH);

厳密には幅そのものじゃないけど。まぁ使えそう。

10066

04/03/31 19:03ID:f7K9ZfXB

>>99
情報感謝。ICUは盲点ですた。でも残念ながらCJK「以外」の文字(列)に関する
文字幅も欲しいんです……。ICUのドキュメントを眺めてみたところでは、そー
ゆーのを直接取得する手段はなさそうな感じ。死ぬほどプロパティが付随して
るので、必要なものを組み合わせてごりごり処理すれば何とかなるかもしれま
せんが、さすがにンな気力は……。
# このあたりの情報がろくに引っ掛かってこないのは、
# 英米(Latin1が使えたらえーやん)
# ＜欧州(Latin*が使えたらえーやん)
# ＜日中韓(CJKが使えたらえーやん)
# 状態になってるから?
産総研のm17n-libも調べてみたけど、やっぱりそのあたりをハンドリングする
手段はないよーな。
テキスト系アプリケーション(特に端末制御するもの)って、アプリと端末エミュ
レータの認識が一致していないと正しく動かないはずなのに、Emacsもw3mも
xtermもmltermもみーんな独自の世界でやってるよーに見えるなぁ……。
# ただ単にcocotにちょっとしたパッチを当てよー、と思っただけなのに何で
# こんなにハマるんだか(´_｀;

101login:Penguin

04/03/31 19:40ID:o1W2fgfD

East Asian Widthプロパティって、Not East Asianなら半角幅やん。
結局CJK以外でも文字幅は判る(Ambiguous以外)。
ttp://www.unicode.org/reports/tr11/

それとも漏れ何か勘違いしてる？＞識者

102login:Penguin

04/03/31 21:35ID:ZB8ltdIE

うむ、等幅フォントというくらいだから本来はすべて同じ幅のはずなのだ。
CJKのほうがある意味特殊。

10366

04/03/31 22:00ID:f7K9ZfXB

>>101
一概には言えない。おいらが気付いている範囲では、
ttp://www.unicode.org/versions/Unicode4.0.0/ch05.pdf
5.6 Normalization
5.8 Newline Guidelines
5.10 Language Information in Plain Text
あたりが頭痛の種かと。
# MacOSXで濁点・半濁点が正規化されてるのは割と有名な話。5.8や5.10は、
# どーせンなもん使ってるシステムなんてあらへんやろ、と割り切れそーだけ
# ど、5.6だけはなぁ……。
他にも、Bidi(Bidirectional Algorithm)ってターミナルエミュレータではどー
扱うことになってんの、とか、他にも気付いてない謎仕様があるんだろーなぁ、
とか……。

104login:Penguin

04/04/01 06:08ID:4WIXUreh

Bidiはmltermをデファクトスタンダードとして広めてしまえ。
他に対応している端末エミュレータなんて無いだろ？

105login:Penguin

04/04/02 13:55ID:Q4WUuZrw

>>91
よく見たらちゃんと 3 バイトにも対応してた。
けど日本語のファイル名補完できない(´･ω･｀)

106login:Penguin

04/04/03 02:15ID:8rtp/FCG

ja_JPなのになんでBidiが関係あるの?

107login:Penguin

04/04/03 22:05ID:m8RgfiGD

>>106
そのためのUTF-8なんじゃない？

さまざまな言語のテキストから
% grep '毛沢東'

108login:Penguin

04/04/05 08:38ID:Yy2AZo4/

>>107
それだと Mao Ze-dong や Мао Цзе-Дун を
検索することができないよ。

109login:Penguin

04/04/05 15:42ID:fVLXvA3l

つーか
繁体字中国語では「毛澤東」
簡体字中国語では「毛？x6CFD;？x4E1C;」だから
Unicodeでもgrep '毛沢東'に意味がないのは明白なんだが。
誰が広めた都市伝説なんだろうか。

110login:Penguin

04/04/05 15:43ID:fVLXvA3l

う、UNIX板は文字参照が使えないのか

111login:Penguin

04/04/05 16:57ID:rNILKf1h

そこで Han unification ですよw

112login:Penguin

04/04/05 17:32ID:fVLXvA3l

だから毛沢東は統合されてへんねん
つーか>>106からどんどん話がそれていくんだが

113login:Penguin

04/04/06 17:43ID:zyebb/QV

Debian:i18nキタ━━━━━━(゜∀゜)━━━━━━!!
http://ukai.org/wiliki/wiliki.cgi?Debian:i18n&l=jp

114login:Penguin

04/04/08 05:26ID:q3IUWRt2

東大のコンピュータシステムのMacOS Xではja_JP.utf-8 になりました．
現在TAのチームがひたすらラッパやパッチを作っているようです．
そのうち各ソフトウェアの本家に還元されるかもしれません．

115login:Penguin

04/04/08 07:32ID:XquLn+B2

Mac OS X ということは NFD ですか

116login:Penguin

04/04/09 07:36ID:7V6eqqUK

ワイド版ncursesを使ったり、libtextwrapを使ったり、fribidiを使ったり
ということでしょうか

117login:Penguin

04/04/11 14:48ID:9+C9vXmC

ja_JP.UTF-8 環境で、bash で PS1=長い日本語プロンプト
なんてことをすると、行の折り返し位置の計算が間違ってる
みたいですね。バイト数とカラム数を同一視してるみたい。

118login:Penguin

04/04/11 21:25ID:gbdBsXOA

Apacheつかって表示するファイル一覧もなー(サイズの位置とかがずれる)

119login:Penguin

04/04/12 17:27ID:bOAxqETY

cygwin 専用 utf-8 対応端末エミュレータ
http://www.geocities.co.jp/SiliconValley-PaloAlto/8946/

120login:Penguin

04/04/19 16:27ID:wtI4wXfK

>>114TAじゃないよん。ちなみに学部生ばっかりなので期待しない方がいいかもしれない。

121login:Penguin

04/04/21 10:49ID:87XNAVif

screen も utf-8 対応してる。
eucjp やその他の euc、sjis、big5、iso8859-x 等々にも対応している。
実際の表示端末に使う encoding と各スクリーンに使う encoding を
それぞれ独立して設定できるので cocot や luit、ttyconv と同様のことができる。
例えば、utf-8 対応の xterm 配下でスクリーン 1 を eucjp、スクリーン 2 を sjis、
スクリーン 3 を utf-8 で動かすといったことが可能。
実行中、他に影響を与えることなく変更することも可能。

122login:Penguin

04/06/05 14:46ID:FZ7KtiyQ

で、最近はまともに生活できるようになってるんですか。

123login:Penguin

04/06/06 00:26ID:InK4icog

EUCからUTF-8にすると遅くなったりしないの？
少なくとも2バイトから3バイトになった分のメモリは使ってるんでしょ。
これは微々たる物だと思うけど、webでは流行らないんじゃないかな。
たとえば掲示板系の大手サイトがsjisからUTF-8に移行したりすると
転送量増えそうだし（でも、圧縮とかすれば問題ないのかな
画像一枚の方が負荷的には大きいけど、文字だけでも結構あると思うよ。

124login:Penguin

04/06/06 02:54ID:O+pxj2S+

最近はライブラリとかツールキットで内部はUCS4とかUTF8とかが
あるから、そういう場合は逆に変換の手間がなくなるかと。

Webページについては、掲示板のたぐいはたしかにメリットがないかも。
翻訳とか、複数言語を同時に表示する必要があるところでは
使われるだろうな。

125login:Penguin

04/06/06 03:35ID:KxbaNUGk

>翻訳とか、複数言語を同時に表示する必要があるところでは

おお、まさにうちだ。
とある洋ゲーの英文テキストを多人数でよってたかって翻訳するwikiみたいなCGIなんだが
原文にウムラウトやアクサンの入った固有名詞が頻出してるので
DBの内部コードから表示系まで全部 UTF-8 で作った。

126login:Penguin

04/06/06 08:19ID:S/boGRmd

いわゆる先進国の言語だけ扱うんだったら、それはそれは
便利なコードだからね。

127login:Penguin

04/06/06 11:20ID:deT4Xqu2

>>122
UTF-8はEUC-JP, ISO2022-JP, WindowsSJIS(Windows-31J)のすべての
特殊文字を含んでるので、どの環境でもすべての文字が正しく読めるメリット
はあると思いますよ。さらに付け加えると、WindowsSJISは本来のShisftJIS
の仕様にはない文字があるし、それから「～」がShiftJISの仕様書と異なる
コードになってます。この辺の問題はUnicodeとかUTF-8にする事でだいたい
解決できます。

128login:Penguin

04/06/06 13:24ID:EGqCVEuE

メールもUTF-8で出していいですか？

129login:Penguin

04/06/06 13:31ID:u+wbsnxA

>>128
受ける側が読めるなら。

130login:Penguin

04/06/06 13:58ID:F4MfuIYb

>>129 つまり携帯以外ですか？

131login:Penguin

04/06/06 15:05ID:Gm0vxGXW

メールのために UTF-7 があるが、まず使われないだろうな…

132login:Penguin

04/06/06 16:45ID:8Zpd8Gr7

お前ら勘違いしてませんか？
ここは ja_JP.UTF-8 のスレであって，Unicode のスレではない．

133login:Penguin

04/06/13 23:45ID:hijPyot4

Unicodeのスレはどこにありますか?
なかったとして何板に立てるのが適切ですか?

134login:Penguin

04/06/14 00:47ID:2RL5Y4Ie

>>133
http://pc5.2ch.net/test/read.cgi/linux/1003159137/

135login:Penguin

04/06/14 13:11ID:Kpo/7hO+

xmmsでwinampとtagを共有するには使えない

136login:Penguin

04/06/15 00:19ID:1nIdf8BO

>>134
EUC撲滅のスレッドに見えますが…
スレ違いという理由で誘導されてるのに話題が出ているというだけの理由で
スレ違いのスレッドに案内されても困ります。
それともうにこーだーはすべからくEUCの撲滅を望まなければなりませんか

137login:Penguin

04/06/15 07:49ID:+9gsKEDe

>>136
スレタイはアレだけど
中身は文字コード総合スレだよ。

138login:Penguin

04/06/17 10:41ID:TUtqbBWf

xpdf って、UTF-8 に対応してますか？日本語表示できる PDF ファイルと、できない PDF ファイルがあって、どうやら、MS Office で作成した PDF ファイルがダメっぽいので、UTF-8 のせいかな、なんて思ってます。

139login:Penguin

04/06/17 14:51ID:Wuxldr94

>>137
文字コードスレ2つも要らんだろ。
削除依頼よろぴく。

140login:Penguin

04/06/19 01:35ID:hBPlVOmh

だからここは文字コードスレじゃないと主張してるんだろ。
それとも>>134以外に文字コードスレがあるの?

141へりくつ星人

04/06/27 16:21ID:o/ZzpKCM

１を見れば分かるように、ここはﾛｹｰﾙのスレで
あって、文字コードのスレではありません。「たまたま」
utfの話題が多いだけなのです。

142login:Penguin

04/06/28 00:15ID:Tve7N2OE

最近はみんな満足してるのかな？
俺は tcsh に utf-8 パッチをあてたものを使ってるんだが、
ロシア語とか■とか、そういう端末上での文字幅があいまいな文字が
のきなみ半角扱いになってしまって、
ずれるんだよな。
emacs + mule-ucs でも同様なのでずれるんだよな。
どうしたもんかしら(´・ω・｀)

143login:Penguin

04/06/28 06:24ID:fWk93VUD

>>123
UNICODEの文字セットを日本語2バイトで扱う符号UTFCP2がある:
ttp://www.nowsmartsoft.or.tv/nws/Japanese/chara_code_compare.htm
特徴は2バイトのコードポイント数が非常に大きいこと、状態非依存であること、
正確にテキストを逆戻り可能なこと。

144login:Penguin

04/06/28 06:37ID:LgxqrPnR

LightCone乙

145login:Penguin

04/07/28 04:36ID:lpc0mwrw

test

146login:Penguin

04/08/10 16:05ID:jpxCYepz

てｓｔ

147login:Penguin

04/08/24 23:47ID:+PM77uqo

>>143
UTFCP2
これただのネタじゃん

148login:Penguin

04/08/25 00:16ID:SpZWXCwV

何を今更

149login:Penguin

04/11/06 05:16:52ID:zrKtV3hP

http://www.ganaware.jp/archives/000060.html

150login:Penguin

04/11/08 10:07:11ID:lMXPbsp8

何を今更

151login:Penguin

04/12/04 21:05:30ID:6+KTXyp/

>>142
ずれないようにするにはターミナルエミュレータ(xtemとか)とエディタ (emacs
とか)の両方で全角半角判定が共通である必要がある。で、上の方で
1. 判定には何を使うべきか? wcwidth()/wcswidth()? その他?
2. 判定結果はどうあるべきか
... という話があったわけだが、結論は (ry
せめて 1. がこの世のすべての CUI なプログラムで統一されればずれなくなるん
だけどねー。

最近自分もこの問題に巻き込まれてしまった... orz

スレをまとめに
5ch即うp → gzo.ai

■ このスレッドは過去ログ倉庫に格納されています