探検

377コメント121KB

ja_JP.UTF-8

スレをまとめに
5ch即うp → gzo.ai

■ このスレッドは過去ログ倉庫に格納されています

1login:Penguin

04/02/19 17:09ID:EuXdEmYH

Linux で ja_JP.UTF-8 ロケールで暮らす方法についてのスレです。

247login:Penguin

2006/05/10(水) 13:05:10ID:loEZm4Y3

そういや自宅では玄箱を utf8 にしてるな。
たまに Windows マシンから samba でアクセスするが、それは
ちゃんと設定してあってファイル名は玄箱側に utf8 で書かれる
ようになっている。通常は utf8 になっている Linux マシン
から nfs (autofs) で一部をマウントして使っている。

ftp ねえ。でも ftp を使ったとしても ftp クライアントが
utf8 のファイル名に対応してさえいればいいんだよね。
そういうのってまだないのかな?

248login:Penguin

2006/05/10(水) 14:54:55ID:gPG0recc

8bitスルーなら問題ないでしょ。
readline使ったヤツとか。

249login:Penguin

2006/05/11(木) 04:59:01ID:iZnowODo

利用者側にftpクライアントを指定する時点で不合格じゃない？

250login:Penguin

2006/05/11(木) 14:17:34ID:tz1hDbmm

>>249
んなこたねえと思うが。

251login:Penguin

2006/05/11(木) 21:20:12ID:MPosGOlv

素朴な疑問なんだけど、ある文字が何カラムになるかがロケールで決定できる
と考えるのがそもそもの間違いであって、TerminfoとかTermcapみたいな物に
そこら辺を全部面倒みて貰う方がすっきりするんじゃないの？
ここで言ってる文字幅って結局端末に依存する情報でしょ？

できるかどうかは知らんけど

252login:Penguin

2006/05/11(木) 21:38:34ID:tz1hDbmm

文字幅? 一応 Unicode には Halfwidth と名前の付いた文字はあるけどな。
まあ、端末やプリンタで等幅の時に半分で出ることが期待された文字という
ことなんだろうが、こんな半角文字は早く消えて欲しいものだ。

253login:Penguin

2006/05/11(木) 22:08:50ID:MPosGOlv

別にいわゆる半角文字に限らなくてもいいんでない？
端末によっては表示できない文字だってあるだろうし、それをどう扱うかは
端末が勝手に決めればいいんじゃないの？
結果として端末によっては、?で表示されたり、〓で表示されたり、\uXXXXで
エスケープして表示されたりするかもしれないけど、それって端末の勝手だよね？
最終的に端末で表示した時にズレなきゃそれでいいんだし、ロケールで面倒
みる必要はないと思うんだけどな。
まあ、代替文字として何が表示されてるか分からないと困る場合はあるかも
しれないから、そういう時は代替文字を端末データベースに問い合わせて
教えて貰えればそれで済むんじゃない？
なんかおかしな事言ってる？

254login:Penguin

2006/05/11(木) 22:26:09ID:gx3umMVs

Unicode Standard Annex #11
East Asian Width
http://www.unicode.org/unicode/reports/tr11/

Draft Unicode Technical Report #30
Character Foldings
http://unicode.org/reports/tr30/

255login:Penguin

2006/05/11(木) 23:03:46ID:bYbMBCWq

合字があるから、面倒くさいんだよ。

256login:Penguin

2006/05/13(土) 03:27:14ID:0C6WASA7

>>216-222
内部を覗いて見ないと分からないけど、
Win32 API では、"\" が本則っぽいな。

ファイル名の先頭に \\?\ を付けると解釈が厳格になる。
その時、"/" を受けつけなくなる。

NTFS と VFAT はファイル名は UTF-16 で格納すると決まっていて、
API やカーネル内部も UTF-16 で統一されてるから、
その点では頭を抱えずに済んでる。

Debian の次期バージョンは UTF-8 らしいけど、どんな感じになるだろう。

UNICODE も弱点は多いけど他の良い手段が思い当たらないので、
UNICODE 自身の改良に期待するしかないと思っている。

257login:Penguin

2006/05/13(土) 21:44:08ID:S4JpwaCr

>>256 馬鹿発見

258login:Penguin

2006/05/17(水) 22:28:14ID:FZX45EoA

バックスラッシュと\が同じ文字コードだったとか
聞いた気がしたんだが…

勘違い？

259login:Penguin

2006/05/17(水) 23:36:58ID:a4MJ+Tci

で？

260login:Penguin

2006/05/19(金) 01:06:49ID:ifty74/J

>>258
バックスラシュと\は同じコードだけど、
スラッシュと\は違うコードで、
今回の話しはスラッシュと\の話しね。

261login:Penguin

2006/05/19(金) 08:05:17ID:GW8la2YX

>>260
> バックスラシュと\は同じコードだけど、

ムチャ言うなよ。

262login:Penguin

2006/05/19(金) 08:29:13ID:Kplndbt6

>>260
http://ja.wikipedia.org/wiki/Unicode#.E6.97.A5.E6.9C.AC.E8.AA.9E.E7.92.B0.E5.A2.83.E3.81.A7.E3.81.AEUnicode.E3.81.AE.E8.AB.B8.E5.95.8F.E9.A1.8C

263login:Penguin

2006/05/22(月) 11:05:24ID:IgouP2VU

俺、今、Linux からおちゅ～しゃでこのスレ見ているんだけど、
\ はバックスラッシュとして表示されます(円マークではない)。

その状態で読むとみんなして変な文章書いているように見える。w

264login:Penguin

2006/05/22(月) 13:43:15ID:GrV5T77x

俺、今、英語版Windows からIEでこのスレ見ているんだけど、
\ はバックスラッシュとして表示されます(円マークではない)。

その状態で読むとみんなして変な文章書いているように見える。w

265login:Penguin

2006/05/22(月) 23:15:37ID:PaXuCUI2

俺、今、(かん高い声で！)、navi2ch！

266login:Penguin

2006/05/23(火) 00:38:55ID:MNyc16BX

>>262
僕もそこを見た上でレスした。
UNICODEでは本来は半角の＼と半角の￥が区別されるのは知っているよ。
しかし、

> Unicodeを利用するアプリケーションは
> 0x007F以下のコードに関しては移動させないと言う
> 暗黙のルールができている。

この事実があるから区別されてないと書いたわけです。
（Windows も Linux も区別していない。）

>>261
ムチャなことが現実になっているから
小さいながら問題になってしまっているのが悩ましい。

WAVE DASH - FULLWIDTH TILDE問題
は、海外のCDDBを利用する僕も影響を受けている。

267login:Penguin

2006/05/23(火) 02:56:03ID:+D3NsWKB

>>266
区別していない？バックスラッシュとバックスラッシュは同じ文字なのに、どう区別するんだよ？

268login:Penguin

2006/05/23(火) 07:50:38ID:YpTnBhhN

何がどういう風に問題なのかわからん。

269login:Penguin

2006/05/23(火) 08:14:43ID:sMe4PIZ0

SJISはともかく、EUC-JPも使い分けられないんだっけ?
ISO-2022-JPは問題ないよね。

270login:Penguin

2006/05/23(火) 09:31:32ID:YpTnBhhN

iso-2022-jp の半角部分は jis x 0201 だから、
\ は円マークだよ。
euc-jp は半角カナ以外の半角部分は ascii らしいので
\ はバックスラッシュだと思う。

271login:Penguin

2006/05/23(火) 10:13:01ID:s/6PQypJ

>>270
前半は嘘というかミスリーディングというか……、
ISO-2022-JPがASCIIを書けないとでも思ってんのかいな。
生半可な聞きかじりを垂れ流す前に考えるなり調べるなりしような。

Emacsで新しいファイルを作って、次の一行を入れて保存し開き直してみ。
\^[(J\^[(B
(^[はESCなのでEmacsだとC-q ESCで入力)
一つめはバックスラッシュに、二つめは円記号になるから。

272login:Penguin

2006/05/23(火) 10:36:31ID:YpTnBhhN

すまん。
http://ja.wikipedia.org/wiki/ISO-2022-JP
ここに書いてなかったから勘違いしたよ。
http://www.ietf.org/rfc/rfc1468.txt
こっちみたらちゃんと ascii 入ってるわ。

273login:Penguin

2006/05/23(火) 17:21:02ID:6e4Xj433

http://www.iana.org/assignments/character-sets

274login:Penguin

2006/05/23(火) 22:41:11ID:+D3NsWKB

>>272
「ISO646の国際基準版図形文字」って ASCII のことだろ？

275login:Penguin

2006/05/23(火) 22:57:04ID:n3hVKX4N

ASCIIは、ISO646-USじゃん。
http://www.asahi-net.or.jp/~yw3t-trns/code/iso646.html

276login:Penguin

2006/05/24(水) 00:56:43ID:5BECIijG

>>275
irv と比べてどこが違うの？

277login:Penguin

2006/06/04(日) 15:42:45ID:jkHVDhT6

UTF-8な環境を結構長く使っているけど、いまだに
解決できないのがEmacsでギリシャ文字を使おうとすると
なぜか「全角」の文字上のカーソル移動が「半角」単位に
なって、編集ができなくなってしまうこと。

このあたりのノウハウ集みたいなのって、ないですかね・・・

278login:Penguin

2006/06/05(月) 09:29:08ID:bL9pWPFE

>>277
それ emacs だけでなることではないのでは?
wcswidth()が返す値が既におかしいとか端末の問題なのでは?

279login:Penguin

2006/06/05(月) 10:00:19ID:8Lg4CNuP

-nwなの?

280login:Penguin

2006/06/06(火) 01:46:26ID:kAFvi9EP

あ、たしかにコマンドラインでもなるね。
いままで文書書く時とか emacs -nw な中でしかそういった文字
使おうとしたことがなかったから気づいてなかった。

Debian GNU/Linux (sid) な環境で Putty(UTF-8-CJK) 経由で
使ってるんだけど、これはしょうがないのかな？

281login:Penguin

2006/06/06(火) 07:42:13ID:jrnahNgL

端末エミュレータの問題なので、そっちを直してください。
putty使い続けたいなら、puttyスレかな。

282login:Penguin

2006/06/06(火) 22:46:29ID:kAFvi9EP

そだね、炒ってきます

283login:Penguin

2006/07/10(月) 20:50:34ID:nmNyvjRy

ttp://diary.imou.to/~AoiMoe/2006.07/early.html#2006.07.10_s01

すばらしい!

284login:Penguin

2006/08/05(土) 16:04:26ID:QVT4c80E

Unicode の～　Unicodeの～　旗の～もと～♪

285login:Penguin

2006/09/06(水) 01:51:11ID:IrLQmI4G

ageてみる。
ttp://nijino.homelinux.net/diary/200605.shtml
経由で、
ttp://www.mhsin.org/~mhsin/patches/screen/patch-cjkwidth
を当ててみた。ちょっと幸せ。
でもαβγがwcswidth()や(string-width)で3だったりするので、やっぱりorz

286login:Penguin

2006/09/06(水) 20:31:28ID:WxxjRdHU

>>285
>でもαβγがwcswidth()や(string-width)で3だったりするので、やっぱりorz
wcswidth() って、glibc のやつ? それって誰（どのプログラム）が使ってるの?

文字幅という概念をこのまま使い続けるなら、各文字の文字幅の値（おそらくロケール依存）
をちゃんと定義して、各プログラム／ライブラリで共通の値を使うになってもらわないと
困る訳だが...
Unicode が提唱している East Asian Width （上の PuTTY のパッチもそれを参照している
模様）で、いいのかねえ?

287login:Penguin

2006/09/10(日) 17:39:46ID:EBW7Z88N

UTFって英字(0x00-0x7f)は２バイト目以降には使ってないんでしょうか？

288login:Penguin

2006/09/10(日) 17:43:19ID:QArT0E9g

すべてはMicrosoftの都合のままに...

289login:Penguin

2006/09/10(日) 17:47:58ID:EBW7Z88N

仕様書に載ってました。
ttp://www.asahi-net.or.jp/~CI5M-NMR/w3/utf-8.html
2バイト以降は、常に最上位 2ビットが 10 になる。

良い仕様ですね。

290login:Penguin

2006/09/14(木) 08:14:51ID:E62ZpEDu

UCS4ベタでいいよ。

291お茶碗

2006/10/04(水) 23:56:15ID:h1r5LKWn

fedora５使ってますemacs でutf８のファイルは見られるんですが
日本語入力できません
mule-ucsというのをいれればいいのでしょうか？

292login:Penguin

2006/10/05(木) 00:03:30ID:Rwz1aiUe

試してから書けよ、な？

293お茶碗

2006/10/05(木) 14:32:54ID:wqpoHcXI

試しました
でも日本語入力モードになってくれません

294login:Penguin

2006/10/05(木) 16:25:48ID:PqMrisKX

>>291=293
何を使って日本語入力したいの？そもそもutf8云々ではないのではないの？

295お茶碗

2006/10/07(土) 11:31:44ID:i+qvpb1B

>>294 さん
localeが　utf-8のまま日本語入力したいだけです
手段は　何でもいいんです
utf8　のファイルを扱うのに　mule-ucs が　必要みたいなことを
目にしたので。。　

296login:Penguin

2006/10/07(土) 11:42:18ID:lTs1ivId

.emacsはいじった？
(set-language-environment "Japanese")
(prefer-coding-system 'utf-8-unix)
(set-keyboard-coding-system 'utf-8-unix)
(set-terminal-coding-system 'utf-8-unix)
くらいは変更しないといけないと思う。
(set-buffer-process-coding-system 'utf-8 'utf-8)
もかな。

297お茶碗

2006/10/07(土) 15:29:32ID:i+qvpb1B

>>296
さん　　utf-8 >> utf-8-unix
と　変えてみました
なんとかいけそうです　ありがとうございました。

298login:Penguin

2006/11/10(金) 22:58:35ID:1rMy0pb+

utf8

299login:Penguin

2006/11/12(日) 03:26:08ID:RBYyZwrm

みなさん日本語辞書には何を使われていますか？

300login:Penguin

2006/11/12(日) 13:50:03ID:T2JS+fdN

新明さん

301299

2006/11/13(月) 04:53:51ID:DjtpFn1c

すいません。日本語入力ソフトで単語登録するための辞書のことです。
kasumiがeucなので、みなさんは何を使われているのかなと思って。

302login:Penguin

2007/05/10(木) 14:27:19ID:eb3cjhOQ

>>300
おお！私も新明解国語辞典使ってるヨ。
あれはマニアがいて全版で持ってる人も少なくないという話だそうで。
自分は第三版しか持ってないけど。

303login:Penguin

2007/06/06(水) 20:26:45ID:c+BVw1Km

「新解さん」だろ。

304login:Penguin

2007/07/12(木) 12:50:24ID:wmI/CkqL

今やUTF-8は標準じゃん

305login:Penguin

2007/07/12(木) 13:42:26ID:gkVLRtL5

【参院選】民主党から、在日コリアンの期待背負った金氏（民団幹部）が立候補…在日参政権訴え
http://news22.2ch.net/test/read.cgi/newsplus/1184200703/l50

306login:Penguin

2007/07/14(土) 06:29:47ID:GI9wOt/U

UTF-8って移行が大変･･･

307login:Penguin

2007/07/14(土) 12:08:55ID:ZWo0296M

一番辛いのが less +123 hogefile ができなくなってしまう点だな。
まともな（意：限りなくlessな）ページャはないのだろうか？

308login:Penguin

2007/07/14(土) 12:16:04ID:ZfK7d6BJ

jlessかlvぐらいじゃね？

309login:Penguin

2007/07/14(土) 18:19:49ID:DdVdDxxU

ファイル名が255バイトまでしか使えないファイルシステムがまだまだあるから
移行が不安だ

310login:Penguin

2007/08/01(水) 22:40:46ID:v6hrc59Q

>>307
最新のless-406試したんだけどUTF8環境の挙動が良くなってない？検索の時とか。
（正確にはless-394以降から変わってる）

http://www.greenwoodsoftware.com/less/download.html

311login:Penguin

2007/08/09(木) 22:07:54ID:E8Z++yUo

>>309
マジレスだが、
255バイトって、大抵そんなもんじゃ? linux で割と普通に使うファイルシステムで
それより大きいのってどんなのがあるの?

ってゆうか、仮にそういうファイルシステムを使ったとしても、POSIX API で
NAME_MAX とかの縛りに引っかかる気が。

ちなみにMac OS XのHFS+はユニコードで255「文字」だったりする。

312login:Penguin

2007/08/09(木) 22:57:46ID:GmhH65pi

decomposed UTF-16で255。
サロゲートペアとか合成文字は2文字以上で数えないといかん。
やたら面倒。

313login:Penguin

2007/08/10(金) 00:14:36ID:XwVgHFEc

windows系ってルートからの合計文字数が255とかじゃなかったっけ？
NTFSだとそんな制限ないのかな。

314login:Penguin

2007/08/10(金) 02:14:01ID:CR2Glwk1

>>312
それがユニコードクオリティー。

たしか normalization form D とかいうやつな。濁点とかもだからなあ。

315login:Penguin

2007/08/10(金) 23:20:31ID:QITngYGM

いや、アプリケーションレベルで考えると、なかなかうまい仕組みだとは思います。
曖昧検索とかに利用出来そうです。
ただ、それをファイルシステムに使う神経がわからん。

316login:Penguin

2007/08/11(土) 10:41:10ID:f4144F1K

ファイル名の曖昧検索をシステム（コール）レベルでしたかったということか。

でも曖昧検索って、例えばどんなの?
日本語の場合を無理矢理考えると、例えば「たかださん」と「たかたさん」
（「高田さん」の読み方ね）を区別せずに検索とか? そんなにうれしいかねえ。

317login:Penguin

2007/08/11(土) 11:18:42ID:KQuQCd+k

「曖昧」関係ないだろ？
DにしてもCにしても、
normalization formにするのは当然だと思う。
が、か+compose様゛と見た目は一緒の別のファイルができたらイヤだから。

ただMac OS Xの場合、
kernel levelで正規化をサポートしているのはhfs+だけ。

318login:Penguin

2007/08/12(日) 08:28:39ID:yOIQf12/

>>317
>DにしてもCにしても、
DとCならCの方がよくない?

>normalization formにするのは当然だと思う。
確かに。ただ、normlizationを必要とするのはUnicodeを採用してるからともいえるわけで...
あら、ループしてるかな。

>kernel levelで正規化をサポートしているのはhfs+だけ。
ま、逆に言うとファイル名としてUnicodeを使うと明言しているのがそれだけ
だったりして... 確かにufsなんかは単にバイト列を渡しているっぽいね。

319login:Penguin

2007/08/12(日) 09:32:23ID:v0PapVfX

Dの方が、単純にbyte列としてsortした場合、
sortの事情に合っている国が多いんじゃないかな?
まあノー資料の妄想ですが。

320login:Penguin

2007/08/20(月) 21:17:26ID:/qwFMA91

しかし、ファイルシステムレベルではnormalizationによってうまく機能するんだろうが、
今度はファイル名の文字列を上の層に持っていったとき、ハマりやすいような気がする。
例えばアプリケーション内でファイル名の比較をするときとか。

結局、扱っている文字列がファイル名の文字列であることを常に意識してないと
いけないような。

321login:Penguin

2007/08/23(木) 10:48:24ID:SlTBZyzH

>>320
Unicodeのnormalizationなんて持ち出さなくても以前からパス名の同値関係は
あるし、どっちみち意識は必要だろ
連続するスラッシュや..が使われてる時の扱いとか
FATやNTFSのようにcase insensitiveなファイルシステムもあるし

322login:Penguin

2007/08/23(木) 11:32:32ID:rO/+iFi7

short filenameとの比較ってのもある。

323login:Penguin

2007/09/19(水) 07:01:34ID:WYOyjk06

>>313
NTFS自体は、各階層で255文字でルートから含めると32767文字まで。
ただ多くのアプリはルートから含めて260前後の文字数しか対応できない。
Explorerも含めて・・・。

324login:Penguin

2008/04/01(火) 19:08:30ID:vg6rofSk

>>323
>ただ多くのアプリは
なんだ、Windowsの制限って訳ではなかったのか
知らなかった

325login:Penguin

2008/05/06(火) 03:16:11ID:YokaBOcM

VineをUTF-8化しようと思って、
http://homepage3.nifty.com/tearoller/Vine2e.html#UTF8
な感じで設定したけど、bashが文字化けする。
lv使ってのUTF-8ファイル閲覧とかはできてるけど、bashでUTF-8を表示することって出来ないかな。
Fedoraはどうしてんだろ、bash標準らしいけど。

326login:Penguin

2008/05/06(火) 14:31:11ID:2QnDaXqe

>>325
仮想端末は何使っているの？
kterm とかなら UTF-8 に対応してないので、xterm なんかに切替えろ。

327325

2008/05/06(火) 18:04:21ID:7GDee/mn

仮想端末についてはよく知らないけど、GUIを入れてない環境だから仮想端末は使ってないと思う。たぶん直にbashが動いてるはず。
SSH接続時はPuttyで、直接操作するときはフレームバッファ有効なCUIで使ってます。
んで、直接操作するときに化けないで表示したいなあと。
(Vine4.2)

328login:Penguin

2008/05/06(火) 18:49:41ID:2QnDaXqe

>>327
vine のことは良く知らないが、cui のままなら unicon じゃね？
>>325 のページにもあるが、unicon は utf-8 対応してないんじゃない？

フレームバッファを有効にして jfbterm あたりを使うといいんじゃね？
vine の jfbterm が utf-8 対応しているかは知らないが。

329325

2008/05/06(火) 20:31:21ID:7GDee/mn

>>328
そうみたいです。VineはUNICONパッチのあたったカーネルで、フレームバッファ有効にするだけでEUCとかを表示出来ると。
ただしUTF-8は対応が難しいらしく未実装。

で、jfbterm使おうと思ったけどVineのaptに無いのでとりあえずbterm使ってみた。が、背景が青になるのが気にくわなくて諦め。
また気が向いたらjfbtermインストールしようかな。

330login:Penguin

2008/07/16(水) 14:57:36ID:SwfCIvT4

Vine('A`)

331login:Penguin

2008/07/17(木) 15:36:28ID:5pKN5CSc

>>320
Mac OS Xを仕事で使ってますが、
フレームワーク、ファイルシステムごとに扱いが違うので結構面倒です。

ブラウザでUSBサムドライブのファイルを開こうとすると、
ファイル名がNFCでひかかったり。

アプリが必ず読み書きする前後両方でにNFDあるいはNFCする必要があります。

332login:Penguin

2008/07/20(日) 17:09:47ID:VPRlcszf

>>331
>フレームワーク、ファイルシステムごとに扱いが違うので結構面倒です。

確かにファイルシステム毎に違うね。まあ歴史的経緯でどうしようもない気もする。
フレームワーク毎というのはよくわかんないけど。

>ブラウザでUSBサムドライブのファイルを開こうとすると、
>ファイル名がNFCでひかかったり。

ファイルシステム云々ゆってるのにUSBサムドライブって別階層を... FATの話?

>アプリが必ず読み書きする前後両方でにNFDあるいはNFCする必要があります。

アプリ内でファイル名の比較をするときなどのことを言ってるのかな?

333login:Penguin

2008/07/20(日) 22:23:44ID:RZXdwXj/

>>332
> フレームワーク毎というのはよくわかんないけど。

Carbon, Cocoa
10.2で検証した。

> アプリ内でファイル名の比較をするときなどのことを言ってるのかな?

ファイルシステムとフレームワークの組合わせによっては、
オープンするだけでもアウト。

334login:Penguin

2008/07/31(木) 19:24:06ID:1XpJKIsM

>>333
>ファイルシステムとフレームワークの組合わせによっては、
>オープンするだけでもアウト。

具体的にどんな組み合わせですか?

HFS+だと、確かかなり下の方でnormalizeをしてるので結構大丈夫だと踏んでるけど...?
UFSだと、たぶんただのバイト比較だから簡単に駄目な例は作るはず。
でもUFSはUnicode以前からあるわけだし、今更どうしようもないという感じ。
しかし全然Linuxじゃないというw

335login:Penguin

2008/07/31(木) 19:41:16ID:9ySiTva1

さすがに板違いだろ。HFS+まで出てきた日には。まぁ、カーネルは入ってるけどな。

336login:Penguin

2008/07/31(木) 22:40:08ID:aKfSR7ZK

>>334
Linuxはiocharset=でmount時に指定できるFSが多いよな。
VFSのレイヤーでやればいいのにな。

DarwinはどのFSも決め撃ちオンリーだな。

337login:Penguin

2008/07/31(木) 23:36:24ID:9ySiTva1

だから板違いだってば。

338login:Penguin

2008/08/03(日) 16:34:54ID:buXIFNdC

そういえばこの前ubuntuというものを初めてインストールしてみたら
ホームディレクトリに「デスクトップ」とか作られててビビったんですがw

ext3ってエンコーディングとかの規定はどうなってるんでしたっけ?

339login:Penguin

2008/08/27(水) 12:52:16ID:HfjolhVu

Unixのファイルシステムは基本的に8ビットスルーだろ
2バイト目に/が被るS-JISは事実上使えないだろうが

340login:Penguin

2008/08/27(水) 16:58:21ID:iIVDIKRx

ttp://ja.wikipedia.org/wiki/Shift_JIS
> Shift_JISの2バイトコードの空間は、第1バイトが81-9FならびにE0-FC、
> 第2バイトが40-7Eならびに80-FCである。

341login:Penguin

2008/08/28(木) 12:33:17ID:Iqmmut8G

昔の話だけど、jfsでUTF-8のファイル名するのになんか問題があった気がする。

342login:Penguin

2008/08/29(金) 09:29:42ID:JXxabAXJ

>>339
要はファイル名の比較はバイトデータの比較ってことでいいでしょうか。

ということは上の方に書いてあるみたいにnormalizationの違うファイル名を使うと
問題が起きたりすると。

343login:Penguin

2008/08/30(土) 08:46:40ID:2VCoYTof

>>342
ファイルシステム的には違うバイト列名の別ファイルだから問題は
特に起きない。が、ファイルマネージャとかアプリが表示段階で
正規化とかするとアボン。

344login:Penguin

2008/08/30(土) 11:27:22ID:4z52jeuW

>>342
一番やっかいなのは、
正規化されてないファイル名がある時。
ファイル名が正規化されていることが分かっていれば、
二つのファイルが別のファイルシステムにあって、
違う正規化がされていても、一旦正規化してから、比較すれば良い。

ただこういうことを包括的に扱っているVFSはまだない。

345login:Penguin

2008/08/30(土) 22:00:13ID:x9p+Pisp

ファイルシステムレベルでは問題ないかもしれませんが、例えばディレクトリをlsしたときに
同じ名前のファイルが複数表示されたらユーザーはアセるんじゃないですかね。

>>344
VFSですか。だとするととりあえず
「システムコールに渡すパス名はUTF-8ということになったので、そこんとこヨロシク」
みたいな宣言がいつか行われるとか?

346login:Penguin

2008/08/30(土) 23:54:54ID:2VCoYTof

>>345
別にUnicodeに限った話じゃなくて

　touch he11o hello

が識別できない環境あるけどどうよ？とかかつてなされた
文字が「同一」とはどのレイヤ（コードマップなのか
エンコーディングなのかフォントなのかコンテンツなのか）が
定めるのか？というお定まりの侃々諤々が始まるだけだと思われ。

347login:Penguin

2008/09/02(火) 08:45:08ID:phwFGNER

>>346
>　touch he11o hello

これ、単にグリフのデザインの話でしょ。ファイルシステムにもUnicodeにも関係ないし。

「同じ様に見えるファイルが複数表示される」というのは単にユーザが結果を確認する
ときの現象を書いてみただけで、
正規化の問題で本来一つのファイルが複数できてる、みたいな問題自体は文字の
見た目にかかわらず存在する。

スレをまとめに
5ch即うp → gzo.ai

■ このスレッドは過去ログ倉庫に格納されています

ニュース