前回は「が」の話でしたが、今度は「ệ」です。
以前「今更な文字列長の話」で取り上げた文字です。
これをWindows 7 + 標準のベトナム語入力メソッド で入力すると、合成文字になります。
ê : U+00EA に、声調記号の下ドット U+0323 (Combining Dot Below) が結合しています。
ですが、「が」の時と同じように、全く同じ文字が別のコードに割り当てられています。
「ラテン拡張追加」の U+1EC7 に “Latin Small Letter E With Circumflex and Dot Below” として ệ が割り当てられています。たとえば Wikipedia 上では、こちらの U+1EC7 を使うのが一般的なようです。
そこで簡単な実験。Wikipedia で「ベトナム」のページを開きます。画面右にベトナム語での国号が書かれています。ブラウザ内検索 [Ctrl] + [F] で「ê」を検索します。
結果は、「ヒットしない」です。(IE9 と Firefox 9.0.1 で検証)
(まぁこのページで実験していただいてもよいのですが…)
確かに文字コードとしては別物ですが、ユーザーはそうは考えないかもしれません。
例えば、なぜ画面上に表示されている「が」を検索できないのかを義母に説明するとか、そういうことを考えるとちょっと恐ろしくなります。