続:ạに関する諸問題

Windows の標準ベトナム語入力からạを入力すると二文字になるというのは、前回の記事。

ですが、Wikipedia上では、一文字の「合成済み」が標準として使われているようです。(Wikipediaの規約などを調べたわけではないので推測です。)

なので、ベトナム語版Wikipedia で「ホーチミン」のページを開くと、URLは下図のようになります。(Firefox 10 の場合。)

URLをWord に貼り付けると、こうなります。

http://vi.wikipedia.org/wiki/H%E1%BB%93_Ch%C3%AD_Minh

 

さて、このURLをWindowsから手入力してみます。” Hồ_Chí_Minh”を上記URLの/wiki/ の後に貼り付けます

URLを同様にWordに貼り付けると、こうなります。

http://vi.wikipedia.org/wiki/H%C3%B4%CC%80_Chi%CC%81_Minh

 

二つのURLは厳密には違うところに注意してください。

しかしながら、Wikipediaは両者を「同じもの」とみなして、同じ内容を表示しています。

 

ここまで来るともう少し意地悪してみたくなります。

これら二つの「ホーチミン」を検索エンジンに投入するとどうなるのか?

さっそくBingとGoogleでやってみました。(Firefoxの検索ボックスから投入しただけという、実に手抜きなテストです。)

それぞれ、上段が合成文字、下段が合成済み文字です。

Bing

Google

 

なかなか見事な結果がとれました。

Bingはこれら二つを「別のもの」として扱っています。そのため、検索結果は大きく割れて、合成文字で入力した場合には欲しい情報が得られない可能性があります。

Googleはこれら二つを「同一のもの」として扱っています。結果はほぼ同じです(1億超を全部比較したわけではないので断定はしません)。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Spam Protection by WP-SpamFree