初心者向けFAQ:
文字コード、なんでも自動認識できると思わないでください。
とくに文字数が少ない場合、バイナリ「だけ」から文字コードを特定する手法は皆無です。たとえば最近話題のmozillaでは、ドキュメント全体を順に見ていって、「xx文字目にコードセットSJISではありえないコードが含まれているから、これはSJISではない」というように、消去法でコードセットを特定しています。
最後に残ったコードセットを「これはSJISでもJISでもUTF8でもないから、このドキュメントのコードセットはEUC(だろう)」という仕掛けです。
|