ISO-8859-3(Latin-3)とは何か?特徴・背景・実務運用とUnicodeマッピングの徹底解説
ISO-8859-3 とは
ISO-8859-3(通称 Latin-3)は、ISO/IEC 8859 シリーズの一つで、8ビット符号化方式の単一バイト文字セットです。基本的に最初の128文字(0x00–0x7F)はASCIIと同一で、上位128文字(0x80–0xFF相当の領域のうち制御を除く0xA0–0xFF)に、西欧以外の一部南欧言語やエスペラント、マルタ語で使われる追加ラテン文字を配置した仕様になっています。
制定の背景と目的
ISO-8859 シリーズは1980年代に、ラテンアルファベットを用いる各種ヨーロッパ言語を単一バイトで扱うために段階的に策定されました。ISO-8859-3 は「Latin-3」と呼ばれ、特にマルタ語(Maltese)やエスペラント(Esperanto)など、当時の他のセット(Latin-1/2/4 など)で十分にカバーされていなかった文字を取り入れることを目的としています。
仕様の概要・技術的特徴
- 文字幅:1バイト(8ビット)の単一バイト符号化。
- ASCII互換:0x00–0x7F は US-ASCII と同一。
- 上位領域:0xA0–0xFF に各種ラテン文字や記号を配置(0xA0 はノーブレークスペースなど)。
- MIME/IANA 名:正式な文字セット名は "ISO-8859-3"(IANA に登録)。
- 別名:一般に "Latin-3"、"latin3" 等と呼ばれることがある(実装や文脈によってはエイリアスが使われる)。
含まれる主な文字と対象言語
ISO-8859-3 は、ラテン文字に対する追加文字を含み、主に以下のような言語の利用を想定していました。
- マルタ語(Maltese):Ċ ċ、Ġ ġ、Ħ ħ、Ż ż など、マルタ語固有の文字をサポート。
- エスペラント(Esperanto):特定のアクセント付き文字(帽子付き文字など)をある程度サポート。
- 南ヨーロッパ圏の一部文字:スペイン語やイタリア語等の基本ラテン文字はASCII側で賄えるが、付随する記号や拡張文字が上位領域に存在。
注意:トルコ語(Türkçe)のための特別な置換は ISO-8859-3 に含まれず、後にトルコ語向けに最適化された ISO-8859-9(Latin-5)が策定されています。
実装上・運用上のポイント
- 互換性:ASCII テキストとの互換性があるため、英語主体の文書では問題になりにくいが、ISO-8859-1 や ISO-8859-2 など別のラテン系エンコーディングと混同すると文字化け(mojibake)を招く。
- 近年の地位:Unicode(UTF-8 を含む)普及により、ISO-8859-3 の実運用は激減。国際化対応や混在ページでは UTF-8 に移行するのが推奨される。
- ブラウザと宣言:HTML での使用例としては <meta charset="ISO-8859-3"> や HTTP ヘッダの Content-Type: text/html; charset=ISO-8859-3 として宣言できますが、現代のウェブでは UTF-8 のほうが広くサポート・推奨されています。
- Unicode へのマッピング:ISO-8859-3 の各バイトは Unicode の固有コードポイントへ一意にマッピングされるマッピング表が存在(Unicode コンソーシアムや IANA により公開)。
よくある誤解と注意点
- 「すべてのラテン拡張文字を含む」わけではない:ISO-8859-3 は狭い目的(特定言語群)向けに設計されており、例えば中欧言語や北欧固有の一部文字は ISO-8859-2/4 に依存します。
- 「ISO-8859 系は相互に置き換え可能」ではない:異なる ISO-8859 系同士で同じバイト値が別の文字を指すことがあるため、文字セットを正しく指定しないと文字化けの原因となります。
- レガシー文書の取り扱い:過去に ISO-8859-3 で作られた文書が存在する可能性があるため、データ移行時には正しいエンコーディングを指定して Unicode に変換する必要があります。
実務上の推奨事項
- 新規の開発や公開コンテンツは可能な限り UTF-8 を採用する(国際化対応、相互運用性、今後の維持管理の容易さ)。
- もし古いデータやレガシーシステムが ISO-8859-3 を使っている場合は、変換時に Unicode の公式マッピング(例:Unicode.org の変換ファイル)を利用して正確に変換する。
- Web サイトで古い文字セットを使わざるを得ない場合は、HTTP ヘッダや HTML メタで明確に charset を宣言し、混在に注意する。
まとめ
ISO-8859-3 は、特定のヨーロッパ言語(特にマルタ語やエスペラント)をサポートする目的で作られた単一バイト文字集合です。かつては各地域ごとに最適化された文字セットとして有用でしたが、Unicode の台頭により現在はレガシー扱いになっています。過去資産の扱いや特定の環境での互換性を考える際に知っておくべき文字エンコーディングの一つです。
参考文献
- ISO/IEC 8859-3 — Wikipedia
- IANA Character Sets — IANA
- ISO-8859-3 to Unicode mapping — Unicode Consortium
- The Encoding Standard — WHATWG (ブラウザの文字エンコーディング実装の基準)


