2017年10月02日

2つの「大」

 HTMLファイルにしてほしいということで、原稿をPDFファイルで受け取りました。
 その原稿(の文字)をコピーしてDreamweaverに貼り付けてみると、一部の漢字のサイズが変です。

2つの大01.png


 同じ文字を打ち込んでみると通常のサイズで表示されるので、表示のトラブルではなく、元の文字コードが異なっていると思われます。
 文字コードを調べてみました。

 小さな「大」です。(ややこしい。違う文字を選べば良かったと後悔。)

2つの大02.png


 Unicodeとしての文字コード「2F24」とのことです。

 一方、自ら打ち込んだ大きな、普通の「大」です。

2つの大03.png


 一般的な「大」の文字コードの中には、Unicodeの文字コード「5927」が含まれます。

 一体、「2F24」で表示される小さな「大」とは何なのでしょう。
 「康煕部首」と呼ばれる種類に分類される文字でした。

2つの大04.png


 201文字だけです。目をこらすと、他の小さな「目」「子」「高」などが全て入っています。
 大きな「大」「目」「子」「高」でなく、どうやって小さな「大」「目」「子」「高」を入れたのでしょう。実はPDFファイルの元となったWORDファイルももらったのですが、そちらでは小さな「大」「目」「子」「高」です。PDFに出力するときに小さな〜が選ばれたのでしょう。ちなみに、PDFのプロパティを調べると、Macのソフトで変換されたことが分かります。

 小さな「大」「目」「子」「高」だと気づかずにそのままHTMLファイルにするとどうなるか、試してみました。
 ChromeとIEで表示してみました。

2つの大05.png


2つの大06.png


 どちらも、小さな〜として表示はされません。親切と言いましょうか、でしゃばりと言いましょうか。
 いずれにせよ、小さな〜を大きな〜にシフトさせて表示させていると思われます。ソースを見ました。

2つの大07.png


2つの大08.png


 一見、小さな〜が大きな〜になっているように見えますが、別の文字コードを維持していることが分かります。

2つの大09.png


 さて、このブラウザの原稿として、小さな〜と大きな〜を並べて貼り付けてみます。

水⽔口⼝大⼤


「本郷三丁⽬」
JR「⽔道橋」東⼝
⼈間性
⽇々
⼦ども
埼⽟
⼤きな節⽬
⾼知
試⾏錯誤
⼒を⼊れた
⾏います
⽀部


 全てが大きな〜になっているように見えますが・・・。ソースを見ます。

水&#12116;口&#12061;大&#12068;<br />
<br>
<br />
「本郷三丁&#12140;」<br />
JR「&#12116;道橋」東&#12061;<br />
&#12040;間性<br />
&#12103;々<br />
&#12070;ども<br />
埼&#12127;<br />
&#12068;きな節&#12140;<br />
&#12220;知<br />
試&#12175;錯誤<br />
&#12050;を&#12042;れた<br />
&#12175;います<br />
&#12096;部

 元の文字コードは残しています。

 Unicodeの普及によって文字の数がべらぼうに増えましたが、ブラウザやブログ用のシステムなどを作る人にとっては苦労も増えたということなのでしょう。




タグ:文字コード
posted by kewpie at 22:51| Comment(0) | TrackBack(0) | 言語・文字
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/181177798
※ブログオーナーが承認したトラックバックのみ表示されます。
※言及リンクのないトラックバックは受信されません。

この記事へのトラックバック
コメントの投稿について
○お名前とコメント欄の記入は必須です。
○メールアドレスは任意です。記入されても公開はされません。管理人のみに知らされます。
○スパム防止のため、
・ホームページアドレス欄への記入はできません。
・コメント欄にURLは記入できません。
・スパムと思われる語を記入できません。
 これらをしようとすると、最終的に投稿完了できません。
○投稿完了後に、管理人の判断でスパムと判断した投稿は削除させていただきます。