コンテンツにスキップ

拡張漢字

出典: フリー百科事典『ウィキペディア(Wikipedia)』

拡張漢字(かくちょうかんじ)とは、文字コード(漢字コード)において何らかの形でもとから含まれていた漢字に追加された漢字をいう。

ユニコードにおける拡張漢字

[編集]

ユニコードにおける拡張漢字とは、最初(1993年5月)に制定されたユニコードの規格であるUnicode 1.0に存在したCJK統合漢字、20,902字に対してまとまった形で追加されていった漢字集合のことを言い、以下のものがある。

CJK統合漢字拡張A (CJK Unified Ideographs Extension A)[1]
1999年9月制定のUnicode 3.0(ISO/IEC 10646-1:2000に対応)において基本多言語面のU+3400-U+4DBFのブロック(Unicode 1.1までハングルを定義していた場所)に追加されたU+3400-U+4DB5の6,582字。当初は6,584文字の予定であったが、そのうち2文字が互換漢字領域にあったため、互換領域の2文字を拡張Aとして扱うことにして、この2文字は追加集合からは削除された。主として使用頻度の低い漢字が含まれ、JIS X 0213に一部対応しており、地名や人名などに用いられる漢字が含まれている。2020年3月のUnicode 13.0において、本ブロックにおいて文字が定義されていなかったU+4DB6-U+4DBFに10字が追加された[2]
CJK統合漢字拡張B (CJK Unified Ideographs Extension B)[3]
2001年3月制定のUnicode 3.1(ISO/IEC 10646-2:2001に対応)において追加漢字面のU+20000-U+2A6FFのブロック(U+20000-U+2A6D6)に追加された漢字42,711字。Unicodeの拡張漢字集合では最も字数が多く、その大部分は日常ではまず用いられない漢字であるが、JIS X 0213に一部対応しており、地名や人名などに用いられる漢字が含まれている。また拡張B以降の集合には、かつてベトナムで用いられていたチュノムも含まれる。非常に膨大な漢字集合を極めて短期間のうちに定めたため、漢字の字形の重複や誤りが多数見られる。2020年3月のUnicode 13.0において、本ブロックに対してU+2A6D7-U+2A6DDの7字が追加された[4]
CJK統合漢字拡張C (CJK Unified Ideographs Extension C)[5]
2008年12月に発行されたISO/IEC 10646:2003 (UCS) の追補5に含まれており、Unicode 5.2(2009年10月制定)から対応。符号位置は、追加漢字面のU+2A700-U+2B7FFの範囲が予約されていたが、実際に追加されたのはU+2A700-U+2B734の4,149文字。
CJK統合漢字拡張D (CJK Unified Ideographs Extension D)[6]
2010年に発行されたISO/IEC 10646ではISO/IEC 10646:2010に含まれており、Unicode 6.0(2010年10月制定)から対応。符号位置は、追加漢字面のU+2B800-U+2F7FFの範囲が予約されていたが、実際に追加されたのはU+2B740-U+2B81Dの222字。
CJK統合漢字拡張E (CJK Unified Ideographs Extension E)[7]
2014年9月に発行されたISO/IEC 10646:2014に含まれており、Unicode 8.0(2015年6月制定)から対応。符号位置は、追加漢字面のU+2B820-U+2CEA1の5,762字。
CJK統合漢字拡張F (CJK Unified Ideographs Extension F)[8]
2017年に発行されたISO/IEC 10646:2017に含まれており、Unicode 10.0(2017年6月)から対応。符号位置は、追加漢字面のU+2CEB0-U+2EBEFの7,488字。文字基盤整備事業から提案された約1,800字や大蔵経テキストデータベース委員会から提案された約4,000字[9]、さらにはチワン語プイ語で用いられている伝統的な古壮字が含まれている。
CJK統合漢字拡張G (CJK Unified Ideographs Extension G)[10]
2020年3月制定のUnicode 13.0に含まれている。符号位置は、第三漢字面のU+30000-U+3134Aの4,939字で、ここでUnicode史上初めて第三漢字面に正式に文字を割り当てている。
CJK統合漢字拡張H (CJK Unified Ideographs Extension H)[11]
2022年9月制定のUnicode 15.0に含まれている。符号位置は、第三漢字面のU+31350〜U+323AFの4,193字。
CJK統合漢字拡張I (CJK Unified Ideographs Extension I)[12]
2023年9月制定のUnicode 15.1に含まれている。符号位置は、追加漢字面のU+2EBF0〜U+2EE5Fの622字。
CJK統合漢字拡張J (CJK Unified Ideographs Extension J)[13]
拡張I以降に追加されることが計画されている漢字。2024年9月、Unicode16.0で、第三漢字面のU+323B0〜U+3347Bに4,300文字が追加予定。

JIS拡張漢字

[編集]

JIS X 0213は、規格の正式名称が「7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合」であり、内容的にもJIS X 0208に対する拡張という性格を持っているためJIS拡張漢字と呼ばれる。

ベンダ選定拡張漢字

[編集]

主としてメインフレームで使用するためのベンダごとの文字コードを作成した際にJIS X 0208 (JIS C 6226) に対して拡張する形で追加されたものをいう[14]。追加された文字をベンダごとに見ると共通する漢字も多いものの互換性はない。このうちNECにより追加されたものとIBMにより追加されたものについては(IBM漢字)としてそのシェアの大きさからWindowsに取り込まれて共通に使用することが出来るようになり、それ以後の規格の制定・改正にも影響を与えることになった[15]

その他の拡張漢字

[編集]

フォントファイルの形で持つようになる以前のパソコンにおいて漢字を使用するためには漢字ROMチップ等のハードウエアを装備している必要があり、ハードウエアの増設によって使用できるようになる漢字を拡張漢字と呼ぶことがあった。

脚注

[編集]
  1. ^ CJK Unified Ideographs Extension A” (英語). Unicode Consortium. 2013年10月19日閲覧。
  2. ^ CJK Unified Ideographs Extension A” (英語). Unicode Consortium (2020年3月10日). 2020年3月11日閲覧。
  3. ^ CJK Unified Ideographs Extension B” (英語). Unicode Consortium. 2013年10月19日閲覧。
  4. ^ CJK Unified Ideographs Extension B” (英語). Unicode Consortium (2020年3月10日). 2020年3月11日閲覧。
  5. ^ CJK Unified Ideographs Extension C” (英語). Unicode Consortium. 2013年10月19日閲覧。
  6. ^ CJK Unified Ideographs Extension D” (英語). Unicode Consortium. 2013年10月19日閲覧。
  7. ^ CJK Unified Ideographs Extension E” (英語). Unicode Consortium. 2015年6月20日閲覧。
  8. ^ CJK Unified Ideographs Extension F” (英語). Unicode Consortium. 2018年10月7日閲覧。
  9. ^ 「JIS X 0221:2014 解説 5 懸案事項」『JIS X 0221:2014』日本規格協会、2014年、p. 169。
  10. ^ CJK Unified Ideographs Extension G” (英語). Unicode Consortium (2020年3月10日). 2020年3月11日閲覧。
  11. ^ CJK Unified Ideographs Extension H” (英語). Unicode Consortium. 2023年3月14日閲覧。
  12. ^ CJK Unified Ideographs Extension I” (英語). Unicode Consortium. 2023年9月24日閲覧。
  13. ^ CJK Unified Ideographs Extension J” (PDF). Unicode. 2024年7月28日閲覧。
  14. ^ 文字コード#ベンダごとの文字コードを参照
  15. ^ Microsoftコードページ932#NEC特殊文字・IBM拡張文字を参照

関連項目

[編集]

外部リンク

[編集]
  • 花園明朝 ユーザーによるOTF版の開発 - Version 8.030では「花園明朝 A Regular」「花園明朝 B Regular」「花園明朝 C Regular」があり、名称にAと付いているものは拡張A、名称にBと付いているものは拡張B、名称にCと付いているものは拡張C・D・E・Fに対応する[1]。ただしUnicode 13.0における追加分は対応していない。
  • グリフウィキ - 「sim-ch_n5100」において、Unicode 13.0における拡張A・Bの追加分および、拡張Gに対応している。
  • BabelStone Fonts - 「BabelStone Han」において、Unicode 13.0における拡張A・Bの追加分に対応している。
  • 花園明朝 - hanazono-20170904.zipに「HanaMinA.ttf」「HanaMinB.ttf」が入っており、名称にAと付いているものは拡張A、名称にBと付いているものは拡張B・C・D・E・Fに対応する。ただしUnicode 13.0における追加分は対応していない。
  • CJK統合漢字拡張A-D対応フォント「Sun-ExtA」「Sun-ExtB」。Sun-ExtA.ttfに拡張Aが、Sun-ExtB.ttfに拡張B・C・Dが収録されている。ただしUnicode 13.0における追加分は対応していない。
  • VietUnicode (sourceforge.net) - CJK統合漢字拡張A・B対応フォント「HAN NOM A」「HAN NOM B」。hannom.zipまたはhannomH.zipに両方のフォントが収録されており、後者のほうが高品質。ただしUnicode 13.0における追加分は対応していない。
  1. ^ グループ:花園フォント-AFDKO版 - GlyphWiki