ISO-8859-3(Latin-3)とは?概要・歴史・文字セットとUnicode移行の実務ガイド
ISO-8859-3 とは — 概要と役割
ISO-8859-3(通称 Latin-3、ISO/IEC 8859-3)は、1980年代に国際標準化機構(ISO)で定められた 8 ビット単位の文字エンコーディング系列「ISO/IEC 8859」シリーズの一部です。ASCII(7 ビット)を拡張して 8 ビット(0x00–0xFF)で西欧以外の一部の言語固有文字を表現できるように設計されました。ISO-8859-3 は特に南ヨーロッパや一部の人工言語(例:エスペラント)、およびマルタ語などの文字を扱うことを目的に作られました。
歴史と背景
ISO/IEC 8859 シリーズは、1980年代に多言語対応を目的として複数の「部分(part)」に分かれて策定されました。各部は地域や言語グループ向けに最適化された 8 ビット文字集合を定義します。ISO-8859-3(Latin-3)は 1988 年前後に策定され、当時のコンピュータや通信環境で使われる主要言語の多様化に対応するための選択肢の一つとして登場しました。
仕様の概要
- 符号幅:単一バイト(8 ビット)で 256 コードポイント(0x00–0xFF)を持つ。
- 制御文字:0x00–0x1F および 0x7F–0x9F は C0/C1 制御文字領域で、ASCII と互換。
- 表示可能文字:0x20–0x7E は ASCII と同一、0xA0–0xFF に追加のラテン文字や記号を配置。
- IANA 登録名:ISO-8859-3(別名 latin3 などのエイリアスあり)。
- Windows のコードページ:Windows コードページ 28593(CP28593)として扱われることが多い。
対象となる言語
ISO-8859-3 は特に以下のような言語のニーズに応えるため設計されました(完全リストではありませんが代表例):
- マルタ語(Maltese):特殊な点付き文字やストローク付き文字が含まれる。
- エスペラント(Esperanto):ĉ, ĝ, ĥ, ĵ, ŝ, ŭ といった字が含まれる。
- 南ヨーロッパ圏の一部文字の補完。
(注:トルコ語は ISO-8859-3 の初期設計対象に含まれることが検討されていましたが、結果的にトルコ語向けには別途 ISO-8859-9(Latin-5)が策定され、広く採用されました。)
代表的な文字(Unicode との対応例)
ISO-8859-3 の 0xA0–0xFF 領域には、マルタ語やエスペラントで用いる文字が含まれます。例として、主要な文字と Unicode コードポイントの対応を示します。
- エスペラント:Ĉ (U+0108), ĉ (U+0109), Ĝ (U+011C), ĝ (U+011D), Ĥ (U+0124), ĥ (U+0125), Ĵ (U+0134), ĵ (U+0135), Ŝ (U+015C), ŝ (U+015D), Ŭ (U+016C), ŭ (U+016D)
- マルタ語:Ġ (U+0120), ġ (U+0121), Ħ (U+0126), ħ (U+0127), Ż (U+017B), ż (U+017C)
これらの文字は ISO-8859-3 の定義により単一バイトで表現可能で、Unicode への変換(マッピング)も標準的に定義されています。
運用上の注意点と制限
- 限定された採用範囲:ISO-8859-3 は対応する言語数が限定的で、広範囲な国際化対応には不向きなため、普及は限定的でした。
- 通貨記号等の欠如:1990年代後半に導入されたユーロ記号(€)などは含まれていない。これを受けて ISO-8859-15(Latin-9)などが西欧向けに刷新されました。
- 多言語混在に弱い:1 バイトの文字集合であるため、多数の言語や絵文字を同時に扱う現代の用途には不適切。
- 互換性:他の ISO-8859 部分(Latin-1, Latin-2 等)とコードポイントが異なる部分があり、文字化けの原因となる。
Web・メール・HTTP での扱い
Web やメールで ISO-8859-3 を使う場合、MIME ヘッダや HTML の meta タグで文字セットを明示することが重要です。例:
- HTTP ヘッダ:Content-Type: text/html; charset=ISO-8859-3
- HTML:<meta charset="ISO-8859-3">(HTML5 の場合)
ただし、現代のウェブ標準では UTF-8 が事実上の標準となっているため、新規コンテンツで ISO-8859-3 を選択する理由はほとんどありません。既存システムやレガシーデータの互換性維持時に使用されることが多いです。
Unicode(UTF-8)への移行
多言語対応や絵文字を含む近代的なテキスト処理の要請から、ISO-8859 系はほぼすべて Unicode(特に UTF-8)へ移行しました。移行時には以下の点に留意する必要があります。
- 正確な文字マップの利用:ISO-8859-3 と Unicode の正式なマッピング表を使ってバイト列を正しく変換する。
- 誤った文字集合の自動判別に注意:文字化けの原因となるので、ソースデータの文字セットを明確に識別する。
- 既存データの検証:変換後に意図した文字が復元されているか、特に特殊記号やマルチバイト混在部分を検査する。
実務的なまとめ
- ISO-8859-3(Latin-3)は、エスペラントやマルタ語など特定言語向けに設計された 8 ビットエンコーディングで、歴史的に一定の用途があった。
- しかし採用範囲は限定的であり、ユーロ導入後の記号追加や多言語環境への対応では Unicode(UTF-8)に置き換えられている。
- レガシーデータを扱う場合は、公式の文字マッピングを参照して慎重に Unicode に変換することが推奨される。


