探検


ja_JP.UTF-8

■ このスレッドは過去ログ倉庫に格納されています
1login:Penguin
垢版 |
04/02/19 17:09ID:EuXdEmYH
Linux で ja_JP.UTF-8 ロケールで暮らす方法についてのスレです。
263login:Penguin
垢版 |
2006/05/22(月) 11:05:24ID:IgouP2VU
俺、今、Linux からおちゅ〜しゃでこのスレ見ているんだけど、
\ はバックスラッシュとして表示されます(円マークではない)。

その状態で読むとみんなして変な文章書いているように見える。w
2006/05/22(月) 13:43:15ID:GrV5T77x
俺、今、英語版Windows からIEでこのスレ見ているんだけど、
\ はバックスラッシュとして表示されます(円マークではない)。

その状態で読むとみんなして変な文章書いているように見える。w
2006/05/22(月) 23:15:37ID:PaXuCUI2
俺、今、(かん高い声で!)、navi2ch!
2006/05/23(火) 00:38:55ID:MNyc16BX
>>262
僕もそこを見た上でレスした。
UNICODEでは本来は 半角の\ と 半角の¥ が区別されるのは知っているよ。
しかし、

> Unicodeを利用するアプリケーションは
> 0x007F以下のコードに関しては移動させないと言う
> 暗黙のルールができている。

この事実があるから区別されてないと書いたわけです。
(Windows も Linux も区別していない。)

>>261
ムチャなことが現実になっているから
小さいながら問題になってしまっているのが悩ましい。

WAVE DASH - FULLWIDTH TILDE問題
は、海外のCDDBを利用する僕も影響を受けている。
2006/05/23(火) 02:56:03ID:+D3NsWKB
>>266
区別していない?バックスラッシュとバックスラッシュは同じ文字なのに、どう区別するんだよ?
2006/05/23(火) 07:50:38ID:YpTnBhhN
何がどういう風に問題なのかわからん。
2006/05/23(火) 08:14:43ID:sMe4PIZ0
SJISはともかく、EUC-JPも使い分けられないんだっけ?
ISO-2022-JPは問題ないよね。
2006/05/23(火) 09:31:32ID:YpTnBhhN
iso-2022-jp の半角部分は jis x 0201 だから、
\ は円マークだよ。
euc-jp は半角カナ以外の半角部分は ascii らしいので
\ はバックスラッシュだと思う。
2006/05/23(火) 10:13:01ID:s/6PQypJ
>>270
前半は嘘というかミスリーディングというか……、
ISO-2022-JPがASCIIを書けないとでも思ってんのかいな。
生半可な聞きかじりを垂れ流す前に考えるなり調べるなりしような。

Emacsで新しいファイルを作って、次の一行を入れて保存し開き直してみ。
\^[(J\^[(B
(^[はESCなのでEmacsだとC-q ESCで入力)
一つめはバックスラッシュに、二つめは円記号になるから。
2006/05/23(火) 10:36:31ID:YpTnBhhN
すまん。
http://ja.wikipedia.org/wiki/ISO-2022-JP
ここに書いてなかったから勘違いしたよ。
http://www.ietf.org/rfc/rfc1468.txt
こっちみたらちゃんと ascii 入ってるわ。
2006/05/23(火) 17:21:02ID:6e4Xj433
http://www.iana.org/assignments/character-sets
2006/05/23(火) 22:41:11ID:+D3NsWKB
>>272
「ISO646の国際基準版図形文字」って ASCII のことだろ?
2006/05/23(火) 22:57:04ID:n3hVKX4N
ASCIIは、ISO646-USじゃん。
http://www.asahi-net.or.jp/~yw3t-trns/code/iso646.html
2006/05/24(水) 00:56:43ID:5BECIijG
>>275
irv と比べてどこが違うの?
2006/06/04(日) 15:42:45ID:jkHVDhT6
UTF-8な環境を結構長く使っているけど、いまだに
解決できないのがEmacsでギリシャ文字を使おうとすると
なぜか「全角」の文字上のカーソル移動が「半角」単位に
なって、編集ができなくなってしまうこと。

このあたりのノウハウ集みたいなのって、ないですかね・・・

2006/06/05(月) 09:29:08ID:bL9pWPFE
>>277
それ emacs だけでなることではないのでは?
wcswidth()が返す値が既におかしいとか端末の問題なのでは?
2006/06/05(月) 10:00:19ID:8Lg4CNuP
-nwなの?
2006/06/06(火) 01:46:26ID:kAFvi9EP
あ、たしかにコマンドラインでもなるね。
いままで文書書く時とか emacs -nw な中でしかそういった文字
使おうとしたことがなかったから気づいてなかった。

Debian GNU/Linux (sid) な環境で Putty(UTF-8-CJK) 経由で
使ってるんだけど、これはしょうがないのかな?
2006/06/06(火) 07:42:13ID:jrnahNgL
端末エミュレータの問題なので、そっちを直してください。
putty使い続けたいなら、puttyスレかな。
2006/06/06(火) 22:46:29ID:kAFvi9EP
そだね、炒ってきます
2006/07/10(月) 20:50:34ID:nmNyvjRy
ttp://diary.imou.to/~AoiMoe/2006.07/early.html#2006.07.10_s01

すばらしい!

2006/08/05(土) 16:04:26ID:QVT4c80E
Unicode の〜 Unicodeの〜 旗の〜もと〜♪
285login:Penguin
垢版 |
2006/09/06(水) 01:51:11ID:IrLQmI4G
ageてみる。
ttp://nijino.homelinux.net/diary/200605.shtml
経由で、
ttp://www.mhsin.org/~mhsin/patches/screen/patch-cjkwidth
を当ててみた。ちょっと幸せ。
でもαβγがwcswidth()や(string-width)で3だったりするので、やっぱりorz
2006/09/06(水) 20:31:28ID:WxxjRdHU
>>285
>でもαβγがwcswidth()や(string-width)で3だったりするので、やっぱりorz
wcswidth() って、glibc のやつ? それって誰(どのプログラム)が使ってるの?

文字幅という概念をこのまま使い続けるなら、各文字の文字幅の値(おそらくロケール依存)
をちゃんと定義して、各プログラム/ライブラリで共通の値を使うになってもらわないと
困る訳だが...
Unicode が提唱している East Asian Width (上の PuTTY のパッチもそれを参照している
模様)で、いいのかねえ?
287login:Penguin
垢版 |
2006/09/10(日) 17:39:46ID:EBW7Z88N
UTFって英字(0x00-0x7f)は2バイト目以降には使ってないんでしょうか?
288login:Penguin
垢版 |
2006/09/10(日) 17:43:19ID:QArT0E9g
すべてはMicrosoftの都合のままに...
2006/09/10(日) 17:47:58ID:EBW7Z88N
仕様書に載ってました。
ttp://www.asahi-net.or.jp/~CI5M-NMR/w3/utf-8.html
2バイト以降は、常に最上位 2ビットが 10 になる。

良い仕様ですね。
2006/09/14(木) 08:14:51ID:E62ZpEDu
UCS4ベタでいいよ。
291お茶碗
垢版 |
2006/10/04(水) 23:56:15ID:h1r5LKWn
fedora5使ってますemacs でutf8のファイルは見られるんですが
日本語入力できません
mule-ucsというのをいれればいいのでしょうか?
2006/10/05(木) 00:03:30ID:Rwz1aiUe
試してから書けよ、な?
293お茶碗
垢版 |
2006/10/05(木) 14:32:54ID:wqpoHcXI
試しました
でも 日本語入力モードになってくれません
2006/10/05(木) 16:25:48ID:PqMrisKX
>>291=293
何を使って日本語入力したいの? そもそもutf8云々ではないのではないの?
295お茶碗
垢版 |
2006/10/07(土) 11:31:44ID:i+qvpb1B
>>294 さん
localeが utf-8のまま日本語入力したいだけです
手段は 何でもいいんです
utf8 のファイルを扱うのに mule-ucs が 必要みたいなことを
目にしたので。。 
2006/10/07(土) 11:42:18ID:lTs1ivId
.emacsはいじった?
(set-language-environment "Japanese")
(prefer-coding-system 'utf-8-unix)
(set-keyboard-coding-system 'utf-8-unix)
(set-terminal-coding-system 'utf-8-unix)
くらいは変更しないといけないと思う。
(set-buffer-process-coding-system 'utf-8 'utf-8)
もかな。
297お茶碗
垢版 |
2006/10/07(土) 15:29:32ID:i+qvpb1B
>>296
さん  utf-8 >> utf-8-unix
と 変えてみました
なんとかいけそうです ありがとうございました。
2006/11/10(金) 22:58:35ID:1rMy0pb+
utf8
2006/11/12(日) 03:26:08ID:RBYyZwrm
みなさん日本語辞書には何を使われていますか?
2006/11/12(日) 13:50:03ID:T2JS+fdN
新明さん
301299
垢版 |
2006/11/13(月) 04:53:51ID:DjtpFn1c
すいません。日本語入力ソフトで単語登録するための辞書のことです。
kasumiがeucなので、みなさんは何を使われているのかなと思って。
2007/05/10(木) 14:27:19ID:eb3cjhOQ
>>300
おお!私も新明解国語辞典使ってるヨ。
あれはマニアがいて全版で持ってる人も少なくないという話だそうで。
自分は第三版しか持ってないけど。
2007/06/06(水) 20:26:45ID:c+BVw1Km
「新解さん」だろ。
304login:Penguin
垢版 |
2007/07/12(木) 12:50:24ID:wmI/CkqL
今やUTF-8は標準じゃん
305login:Penguin
垢版 |
2007/07/12(木) 13:42:26ID:gkVLRtL5
【参院選】民主党から、在日コリアンの期待背負った金氏(民団幹部)が立候補…在日参政権訴え
http://news22.2ch.net/test/read.cgi/newsplus/1184200703/l50
2007/07/14(土) 06:29:47ID:GI9wOt/U
UTF-8って移行が大変・・・
2007/07/14(土) 12:08:55ID:ZWo0296M
一番辛いのが less +123 hogefile ができなくなってしまう点だな。
まともな(意:限りなくlessな)ページャはないのだろうか?
2007/07/14(土) 12:16:04ID:ZfK7d6BJ
jlessかlvぐらいじゃね?
2007/07/14(土) 18:19:49ID:DdVdDxxU
ファイル名が255バイトまでしか使えないファイルシステムがまだまだあるから
移行が不安だ
2007/08/01(水) 22:40:46ID:v6hrc59Q
>>307
最新のless-406試したんだけどUTF8環境の挙動が良くなってない?検索の時とか。
(正確にはless-394以降から変わってる)

http://www.greenwoodsoftware.com/less/download.html
2007/08/09(木) 22:07:54ID:E8Z++yUo
>>309
マジレスだが、
255バイトって、大抵そんなもんじゃ? linux で割と普通に使うファイルシステムで
それより大きいのってどんなのがあるの?

ってゆうか、仮にそういうファイルシステムを使ったとしても、POSIX API で
NAME_MAX とかの縛りに引っかかる気が。

ちなみにMac OS XのHFS+はユニコードで255「文字」だったりする。
312login:Penguin
垢版 |
2007/08/09(木) 22:57:46ID:GmhH65pi
decomposed UTF-16で255。
サロゲートペアとか合成文字は2文字以上で数えないといかん。
やたら面倒。
2007/08/10(金) 00:14:36ID:XwVgHFEc
windows系ってルートからの合計文字数が255とかじゃなかったっけ?
NTFSだとそんな制限ないのかな。
2007/08/10(金) 02:14:01ID:CR2Glwk1
>>312
それがユニコードクオリティー。

たしか normalization form D とかいうやつな。濁点とかもだからなあ。
315login:Penguin
垢版 |
2007/08/10(金) 23:20:31ID:QITngYGM
いや、アプリケーションレベルで考えると、なかなかうまい仕組みだとは思います。
曖昧検索とかに利用出来そうです。
ただ、それをファイルシステムに使う神経がわからん。
2007/08/11(土) 10:41:10ID:f4144F1K
ファイル名の曖昧検索をシステム(コール)レベルでしたかったということか。

でも曖昧検索って、例えばどんなの?
日本語の場合を無理矢理考えると、例えば「たかださん」と「たかたさん」
(「高田さん」の読み方ね)を区別せずに検索とか? そんなにうれしいかねえ。
2007/08/11(土) 11:18:42ID:KQuQCd+k
「曖昧」関係ないだろ?
DにしてもCにしても、
normalization formにするのは当然だと思う。
が、か+compose様゛と見た目は一緒の別のファイルができたらイヤだから。

ただMac OS Xの場合、
kernel levelで正規化をサポートしているのはhfs+だけ。
2007/08/12(日) 08:28:39ID:yOIQf12/
>>317
>DにしてもCにしても、
DとCならCの方がよくない?

>normalization formにするのは当然だと思う。
確かに。ただ、normlizationを必要とするのはUnicodeを採用してるからともいえるわけで...
あら、ループしてるかな。

>kernel levelで正規化をサポートしているのはhfs+だけ。
ま、逆に言うとファイル名としてUnicodeを使うと明言しているのがそれだけ
だったりして... 確かにufsなんかは単にバイト列を渡しているっぽいね。
2007/08/12(日) 09:32:23ID:v0PapVfX
Dの方が、単純にbyte列としてsortした場合、
sortの事情に合っている国が多いんじゃないかな?
まあノー資料の妄想ですが。
2007/08/20(月) 21:17:26ID:/qwFMA91
しかし、ファイルシステムレベルではnormalizationによってうまく機能するんだろうが、
今度はファイル名の文字列を上の層に持っていったとき、ハマりやすいような気がする。
例えばアプリケーション内でファイル名の比較をするときとか。

結局、扱っている文字列がファイル名の文字列であることを常に意識してないと
いけないような。
2007/08/23(木) 10:48:24ID:SlTBZyzH
>>320
Unicodeのnormalizationなんて持ち出さなくても以前からパス名の同値関係は
あるし、どっちみち意識は必要だろ
連続するスラッシュや..が使われてる時の扱いとか
FATやNTFSのようにcase insensitiveなファイルシステムもあるし
2007/08/23(木) 11:32:32ID:rO/+iFi7
short filenameとの比較ってのもある。
2007/09/19(水) 07:01:34ID:WYOyjk06
>>313
NTFS自体は、各階層で255文字でルートから含めると32767文字まで。
ただ多くのアプリはルートから含めて260前後の文字数しか対応できない。
Explorerも含めて・・・。
324login:Penguin
垢版 |
2008/04/01(火) 19:08:30ID:vg6rofSk
>>323
>ただ多くのアプリは
なんだ、Windowsの制限って訳ではなかったのか
知らなかった
325login:Penguin
垢版 |
2008/05/06(火) 03:16:11ID:YokaBOcM
VineをUTF-8化しようと思って、
http://homepage3.nifty.com/tearoller/Vine2e.html#UTF8
な感じで設定したけど、bashが文字化けする。
lv使ってのUTF-8ファイル閲覧とかはできてるけど、bashでUTF-8を表示することって出来ないかな。
Fedoraはどうしてんだろ、bash標準らしいけど。
2008/05/06(火) 14:31:11ID:2QnDaXqe
>>325
仮想端末は何使っているの?
kterm とかなら UTF-8 に対応してないので、xterm なんかに切替えろ。
327325
垢版 |
2008/05/06(火) 18:04:21ID:7GDee/mn
仮想端末についてはよく知らないけど、GUIを入れてない環境だから仮想端末は使ってないと思う。たぶん直にbashが動いてるはず。
SSH接続時はPuttyで、直接操作するときはフレームバッファ有効なCUIで使ってます。
んで、直接操作するときに化けないで表示したいなあと。
(Vine4.2)
2008/05/06(火) 18:49:41ID:2QnDaXqe
>>327
vine のことは良く知らないが、cui のままなら unicon じゃね?
>>325 のページにもあるが、unicon は utf-8 対応してないんじゃない?

フレームバッファを有効にして jfbterm あたりを使うといいんじゃね?
vine の jfbterm が utf-8 対応しているかは知らないが。
329325
垢版 |
2008/05/06(火) 20:31:21ID:7GDee/mn
>>328
そうみたいです。VineはUNICONパッチのあたったカーネルで、フレームバッファ有効にするだけでEUCとかを表示出来ると。
ただしUTF-8は対応が難しいらしく未実装。

で、jfbterm使おうと思ったけどVineのaptに無いのでとりあえずbterm使ってみた。が、背景が青になるのが気にくわなくて諦め。
また気が向いたらjfbtermインストールしようかな。
2008/07/16(水) 14:57:36ID:SwfCIvT4
Vine('A`)
2008/07/17(木) 15:36:28ID:5pKN5CSc
>>320
Mac OS Xを仕事で使ってますが、
フレームワーク、ファイルシステムごとに扱いが違うので結構面倒です。

ブラウザでUSBサムドライブのファイルを開こうとすると、
ファイル名がNFCでひかかったり。

アプリが必ず読み書きする前後両方でにNFDあるいはNFCする必要があります。
2008/07/20(日) 17:09:47ID:VPRlcszf
>>331
>フレームワーク、ファイルシステムごとに扱いが違うので結構面倒です。

確かにファイルシステム毎に違うね。まあ歴史的経緯でどうしようもない気もする。
フレームワーク毎というのはよくわかんないけど。

>ブラウザでUSBサムドライブのファイルを開こうとすると、
>ファイル名がNFCでひかかったり。

ファイルシステム云々ゆってるのにUSBサムドライブって別階層を... FATの話?

>アプリが必ず読み書きする前後両方でにNFDあるいはNFCする必要があります。

アプリ内でファイル名の比較をするときなどのことを言ってるのかな?
2008/07/20(日) 22:23:44ID:RZXdwXj/
>>332
> フレームワーク毎というのはよくわかんないけど。

Carbon, Cocoa
10.2で検証した。

> アプリ内でファイル名の比較をするときなどのことを言ってるのかな?

ファイルシステムとフレームワークの組合わせによっては、
オープンするだけでもアウト。
2008/07/31(木) 19:24:06ID:1XpJKIsM
>>333
>ファイルシステムとフレームワークの組合わせによっては、
>オープンするだけでもアウト。

具体的にどんな組み合わせですか?

HFS+だと、確かかなり下の方でnormalizeをしてるので結構大丈夫だと踏んでるけど...?
UFSだと、たぶんただのバイト比較だから簡単に駄目な例は作るはず。
でもUFSはUnicode以前からあるわけだし、今更どうしようもないという感じ。
しかし全然Linuxじゃないというw
2008/07/31(木) 19:41:16ID:9ySiTva1
さすがに板違いだろ。HFS+まで出てきた日には。まぁ、カーネルは入ってるけどな。
2008/07/31(木) 22:40:08ID:aKfSR7ZK
>>334
Linuxはiocharset=でmount時に指定できるFSが多いよな。
VFSのレイヤーでやればいいのにな。

DarwinはどのFSも決め撃ちオンリーだな。
2008/07/31(木) 23:36:24ID:9ySiTva1
だから板違いだってば。
2008/08/03(日) 16:34:54ID:buXIFNdC
そういえばこの前ubuntuというものを初めてインストールしてみたら
ホームディレクトリに「デスクトップ」とか作られててビビったんですがw

ext3ってエンコーディングとかの規定はどうなってるんでしたっけ?
2008/08/27(水) 12:52:16ID:HfjolhVu
Unixのファイルシステムは基本的に8ビットスルーだろ
2バイト目に/が被るS-JISは事実上使えないだろうが
2008/08/27(水) 16:58:21ID:iIVDIKRx
ttp://ja.wikipedia.org/wiki/Shift_JIS
> Shift_JISの2バイトコードの空間は、第1バイトが81-9FならびにE0-FC、
> 第2バイトが40-7Eならびに80-FCである。
2008/08/28(木) 12:33:17ID:Iqmmut8G
昔の話だけど、jfsでUTF-8のファイル名するのになんか問題があった気がする。
2008/08/29(金) 09:29:42ID:JXxabAXJ
>>339
要はファイル名の比較はバイトデータの比較ってことでいいでしょうか。

ということは上の方に書いてあるみたいにnormalizationの違うファイル名を使うと
問題が起きたりすると。
2008/08/30(土) 08:46:40ID:2VCoYTof
>>342
ファイルシステム的には違うバイト列名の別ファイルだから問題は
特に起きない。が、ファイルマネージャとかアプリが表示段階で
正規化とかするとアボン。
2008/08/30(土) 11:27:22ID:4z52jeuW
>>342
一番やっかいなのは、
正規化されてないファイル名がある時。
ファイル名が正規化されていることが分かっていれば、
二つのファイルが別のファイルシステムにあって、
違う正規化がされていても、一旦正規化してから、比較すれば良い。

ただこういうことを包括的に扱っているVFSはまだない。
2008/08/30(土) 22:00:13ID:x9p+Pisp
ファイルシステムレベルでは問題ないかもしれませんが、例えばディレクトリをlsしたときに
同じ名前のファイルが複数表示されたらユーザーはアセるんじゃないですかね。

>>344
VFSですか。だとするととりあえず
「システムコールに渡すパス名はUTF-8ということになったので、そこんとこヨロシク」
みたいな宣言がいつか行われるとか?
2008/08/30(土) 23:54:54ID:2VCoYTof
>>345
別にUnicodeに限った話じゃなくて

 touch he11o hello

が識別できない環境あるけどどうよ?とかかつてなされた
文字が「同一」とはどのレイヤ(コードマップなのか
エンコーディングなのかフォントなのかコンテンツなのか)が
定めるのか?というお定まりの侃々諤々が始まるだけだと思われ。
2008/09/02(火) 08:45:08ID:phwFGNER
>>346
> touch he11o hello

これ、単にグリフのデザインの話でしょ。ファイルシステムにもUnicodeにも関係ないし。

「同じ様に見えるファイルが複数表示される」というのは単にユーザが結果を確認する
ときの現象を書いてみただけで、
正規化の問題で本来一つのファイルが複数できてる、みたいな問題自体は文字の
見た目にかかわらず存在する。
2008/10/21(火) 15:04:13ID:IoiTQ4Ul
>>342
utf-8は最短の表現以外は仕様で許さなくなったね。
複数表現があると禁止リストの回避がセキュリティ上の問題になるから。
2008/10/21(火) 15:08:37ID:sbfjW96z
なるほどね(´・ω・`)
2008/10/22(水) 06:46:11ID:rLYg3bwq
仕様が「許さない」といったってそれを強制できない以上は備えるしかあるまいよ。
2008/10/27(月) 20:01:15ID:yiylzRYp
それはもちろんだ。きちんとエラーとして処さないといけない。
352login:Penguin
垢版 |
2009/03/01(日) 12:12:57ID:qMTRjR4D
ぬるぽ
2009/03/06(金) 11:46:53ID:sthn8EAP
ヌルポ
2009/03/06(金) 21:53:11ID:8+doeXPT
>>353
ガッ
355login:Penguin
垢版 |
2009/03/09(月) 21:42:00ID:jl7GQGVK
時々、文字コードを思い出したように変えるのは止めて欲しい。
既存の製品等をオブソレートにして市場から除去する為の口実ぢゃないか?
2009/03/09(月) 21:45:10ID:gmXbHgG/
>>355
一体何の話?
357login:Penguin
垢版 |
2009/03/10(火) 01:10:42ID:b+3OdOvv
グリフのことを言いたいんじゃないのか?
2009/03/10(火) 01:16:58ID:RpwmY4KZ
なんというか何もかも間違ってるレスだなそれ。
2009/03/31(火) 02:07:47ID:aOI6y9SA
グ・グ・グリフの大爆笑
360login:Penguin
垢版 |
2010/01/26(火) 11:12:31ID:1Oe/riv2
最近のLinuxって、LANG=ja_JP は ja_JP.UTF-8 ですか?それともja_JP.EUCですか。
2010/01/26(火) 12:13:07ID:qr5/QECQ
sjis>>360
2010/01/26(火) 22:23:58ID:VACzPyUR
>>360
ふつー UTF-8
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況