[Subject Prev][Subject Next][Thread Prev][Thread Next][Subject Index][Thread Index]

[linux-users:90986] 外字の扱い


田中@愛知県春日井市です

Excel (Windows) のデータを Linux 上の perl で処理しようとして困っている
ことがあります。Excel -> text file (sjis, タブ区切り) -> nkf -e で EUC
に変換して一見うまく処理できたのですが、ところどころ文字が欠けているので、
かなり悩まされたのですが、

宮崎 の 「崎」が消えてしまうのでおかしいと思っていたら、こいつが「山」
+「奇」ではなく、「山」+ 「立」+「可」 (SJIS で FAB1) でこれが原因でおか
しなことになっていました。

どうも nkf ではこの手の文字には関知しないようなのですが、どういう前処理
をするのが一番いいでしょうか? sjis -> euc のあいだで、「豆腐」にするよ
うなコマンド、もしくは sjis で perl に読み込んでこれらの文字を処理するう
まい方法があれば教えて下さい。どうぞよろしくお願いします。

---------------------------------------------
 田中修一@愛知県コロニー中央病院小児外科
   shu _at_ kantaro.org, stanaka _at_ ya2.so-net.ne.jp
---------------------------------------------

この情報があなたの探していたものかどうか選択してください。
yes/まさにこれだ!   no/違うなぁ   part/一部見つかった   try/これで試してみる

あなたが探していた情報はどのようなことか、ご自由に記入下さい。特に「まさにこれだ!」と言う場合は記入をお願いします。
例:「複数のマシンからCATV経由でipmasqueradeを利用してWebを参照したい場合の設定について」
Follow-Ups: