文字コード完全ガイド｜UTF-8・Shift_JIS・EUC-JPの違いと文字化け対策（utf8mb4・BOM・正規化）

2025年11月18日 2025年11月18日

エバープレイ編集部

概要 — 「文字コード」とは何か

「文字コード（もじコード）」とは、人間の文字（日本語の「あ」や英字の"A"、記号、絵文字など）とコンピュータが扱う数値（ビット列・バイト列）を対応づけるルールのことです。一般には「文字集合（どの文字を含めるか）」と「符号化方式（文字にどんな整数を割り当てるか）」「バイト列への変換方法（エンコーディング）」の組み合わせを指して使われます。正しく扱わないと「文字化け（mojibake）」が発生します。

文字・符号位置・符号化の違い

文字（character）：人間が認識する最小の言語単位。例：あ、A、😊。
コードポイント（code point）：文字に割り当てられた整数（例：UnicodeでのU+3042は「あ」）。
コードユニット（code unit）：エンコーディングが実際に扱う単位（UTF-8は1バイト単位、UTF-16は16ビット単位など）。
エンコーディング（encoding）：コードポイントをバイト列に変換する具体的な方法（例：UTF-8、Shift_JIS、EUC-JP）。

主要な文字コードの歴史的背景と特徴

歴史的には、各国や用途ごとに独自の文字コードが作られました。代表的なものを簡単に整理します。

ASCII（7ビット）：英語中心の最初期の規格。0–127を使用。
ISO-8859系（Latin-1 など）：ASCIIを拡張した単一バイト符号化で多くの欧文をカバー。
Shift_JIS（Shift Japanese Industrial Standards）：日本語を扱うための可変長（1～2バイト）文字コード。Windows上で広く使われたが、省略された領域や拡張（CP932/Windows-31J）との違いがある。
EUC-JP：UNIX系で多用。JISコードを基にした可変長（1～3バイト）エンコーディング。JIS X 0212なども扱える。
ISO-2022-JP：メール用途でよく使われる「エスケープシーケンス」で文字集合を切り替える方式。7ビット経路でも使えるのが利点。
Unicode：世界中の文字を一元的に扱うための文字集合（コードポイント体系）。ただし「Unicode」は集合であって、バイト表現はUTF-8/16/32など別。

Unicode と UTF 系（UTF-8, UTF-16, UTF-32）の違い

Unicodeは各文字に一意の番号（コードポイント）を割り当てます（例：U+0041 = 'A'）。実際に保存・送受信する際はUTFというエンコーディングを使います。

UTF-8：可変長（1〜4バイト）。ASCIIとの互換性があり、現在Webで最も一般的。非ASCII文字はマルチバイトで表現される。BOMは存在するが必須ではない（UTF-8のBOMは0xEF 0xBB 0xBF）。
UTF-16：16ビット単位の可変長（1または2ユニット）。基本多言語面（BMP, U+0000–U+FFFF）は1ユニット、補助面（絵文字等、U+10000以上）はサロゲートペアを用いる。
UTF-32：固定長（4バイト）で1コードポイント＝1ユニット。単純だが容量が大きい。

RFC 3629 は UTF-8 の正式仕様、Unicode コンソーシアムは Unicode と正規化ルールを管理しています。

BOM（Byte Order Mark）とエンディアン

UTF-16/UTF-32 ではバイト順（エンディアン）の問題があるため、ファイル先頭に BOM（Byte Order Mark, U+FEFF）を置いてバイト順を示すことがあります。UTF-8 にも BOM を入れられますが、Webやスクリプトで問題を起こすことがあるため注意が必要です（例：PHPファイルの先頭にBOMがあるとヘッダ出力エラーを招くことがある）。

正規化（Normalization）と「見た目が同じ」問題

Unicodeには同じ見た目の文字が複数のコードポイントで表現できる場合があります（合成文字と分解文字）。例：「é」は単独コード U+00E9（é）としても、'e'（U+0065）＋アクセント（U+0301）で表せます。比較や検索、ハッシュ化を正しく行うためにはUnicode正規化（NFC／NFDなど）を行うことが重要です。

文字化け（mojibake）が起きる原因と見分け方

送信側と受信側で文字集合やエンコーディングの指定が一致していない。
HTTPヘッダ、HTML meta タグ、ファイルのBOM、データベース接続文字コードなどの不整合。
部分的に別のエンコーディングで再エンコードしてしまう二重エンコーディング（double encoding）。

文字化けの典型例：UTF-8 を Shift_JIS として解釈すると「ã‚」のような表示になることが多い。逆にShift_JIS を UTF-8 として解釈すると違うバイト列が不正文字に見える。

実務上の推奨と注意点（Web/データベース/アプリ）

原則として「UTF-8（現代はutf8mb4）」の一貫使用を推奨。MySQLでは utf8 はBMPのみで絵文字を扱えないため utf8mb4 を使う。
HTTPレスポンスヘッダ（Content-Type: text/html; charset=utf-8）と HTML の <meta charset="utf-8"> を一致させる。ブラウザはHTTPヘッダを優先する。
データベース接続時にクライアント側の文字エンコーディングを明示的に設定（例：SET NAMES utf8mb4 や各言語の接続オプション）。
ファイル入出力の際にエンコーディングを明示。エディタの保存設定、CI/CD の環境も確認する。
BOM は特に配布用のスクリプトやCSVで扱う際は注意（多くのツールはBOMを問題視する）。
正規化が必要な場面（ユーザー入力の比較、ファイル名比較など）では NFC を採用することが多い。

トラブルシューティングの手順とツール

まず「どのバイト列が」「どのエンコーディングで解釈されているか」を確認。ブラウザの開発者ツールや curl -I でヘッダ確認。
ファイルコマンドや iconv、enca、uchardet、chardet で自動検出を試す（万能ではない）。
問題箇所を切り分け。フロントエンド→バックエンド→DB→永続化（ファイル）という経路ごとにエンコーディングの一貫性をチェック。
必要ならバイト列を16進で確認して、意図したUTF-8のシーケンスになっているかを検証する。

セキュリティと文字コード

エンコーディングの扱いを誤るとセキュリティリスク（例：入力の正規化漏れによる認証バイパス、バイト列操作でのバッファオーバーフロー、XSS でのエンコード回避）を招くことがあります。常に正しいエンコーディング宣言、適切な入力検証・サニタイズ、出力時の正しいエスケープを心がけてください。

まとめ

文字コードは見た目には見えないが、ソフトウェア間のデータ交換や表示の土台となる重要な要素です。過去の歴史的経緯で多様な文字コードが存在しますが、現代のWeb・システム運用では「Unicode（UTF-8／utf8mb4）」を基本にし、HTTPやDB、ファイル入出力の各レイヤでエンコーディングを明示・統一することが最も重要です。また、正規化やBOM、サロゲート・絵文字対応など細部の実装にも注意してください。

参考文献

投稿者プロフィール

エバープレイ編集部

文字コード完全ガイド｜UTF-8・Shift_JIS・EUC-JPの違いと文字化け対策（utf8mb4・BOM・正規化）

概要 — 「文字コード」とは何か

文字・符号位置・符号化の違い

主要な文字コードの歴史的背景と特徴

Unicode と UTF 系（UTF-8, UTF-16, UTF-32）の違い

BOM（Byte Order Mark）とエンディアン

正規化（Normalization）と「見た目が同じ」問題

文字化け（mojibake）が起きる原因と見分け方

実務上の推奨と注意点（Web/データベース/アプリ）

トラブルシューティングの手順とツール

セキュリティと文字コード

まとめ

参考文献

投稿者プロフィール

最新の投稿

Soft Machine（ソフト・マシーン）入門ガイド｜名盤7枚と聴きどころ・選盤のコツ

マグマ（Magma）入門：コバイア語とゼウールの世界を解剖｜MDKほか代表作・聴きどころガイド

買取の申込・ご相談・ご質問などございましたら
お気軽にお問い合わせください！

概要 — 「文字コード」とは何か

文字・符号位置・符号化の違い

主要な文字コードの歴史的背景と特徴

Unicode と UTF 系（UTF-8, UTF-16, UTF-32）の違い

BOM（Byte Order Mark）とエンディアン

正規化（Normalization）と「見た目が同じ」問題

文字化け（mojibake）が起きる原因と見分け方

実務上の推奨と注意点（Web/データベース/アプリ）

トラブルシューティングの手順とツール

セキュリティと文字コード

まとめ

参考文献

投稿者プロフィール

最新の投稿

Soft Machine（ソフト・マシーン）入門ガイド｜名盤7枚と聴きどころ・選盤のコツ

マグマ（Magma）入門：コバイア語とゼウールの世界を解剖｜MDKほか代表作・聴きどころガイド

買取の申込・ご相談・ご質問などございましたらお気軽にお問い合わせください！

買取の申込・ご相談・ご質問などございましたら
お気軽にお問い合わせください！