Unicodeには大文字でも小文字でもないアルファベットがある
大規模文字セットのUnicodeは世界中のあらゆる文字を収録することを目指しており、個性的な絵文字も数多く登録されているほか、正体不明の記号もいくつか含まれています。さらに、Unicodeに存在する「大文字でも小文字でもないアルファベット」について、ソフトウェアデベロッパーであるレイモンド・チェン氏がMicrosoftの開発者ブログで解説しています。
What has case distinction but is neither uppercase nor lowercase? - The Old New Thing
https://devblogs.microsoft.com/oldnewthing/20241031-00/?p=110443
Unicodeにはラテン文字をはじめいろいろな言語の文字が収録されていますが、その中に「大文字」「小文字」とともに別の種類が登録されている文字が4つだけ存在します。チェン氏によると、それは以下の「DZ」「DŽ」「LJ」「NJ」の4つ。表記では「DZ」「NJ」のように2文字に見えますが、それぞれUnicodeのコードポイント1つで指定された1文字です。
「DZ」はハンガリー語アルファベットの7つ目の文字です。ハンガリー語アルファベットの最初の10文字は以下のような感じ。
これらの文字は、小文字(Lowercase)だと「dz」「dž」「lj」「nj」という表記になります。
さらにこれらの文字には、もう1種類の「Dz」「Dž」「Lj」「Nj」という表記があります。これは大文字や小文字ではなく「Titlecase(タイトルケース)」と分類されます。以下は、Unicode文字を変換・検索できるrakko.toolsで「U+01F2」を検索してみた結果。グラフィカルシンボルには「Dz」と表示され、「Uppercase_Letter(大文字)」や「Lowercase_Letter(小文字)」と表示される「一般カテゴリ」には、「Titlecase_Letter」と表示されています。
タイトルケースとは文頭を大文字にする文章形式を指します。そのため、「Dz」などの文字が文頭にくる場合は大文字でも小文字でもなくタイトルケースが用いられますが、チェン氏の開発者ブログに寄せられたハンガリー語話者たちのコメントによると、そもそも「Dz」などの複合文字は現在実際に使用されているとは言いがたく、たとえば英語の「technic」では「ch」2文字で1つの発音としているのとほとんど変わらないそうです。
チェン氏は「これは、世界があなたが思っているよりも複雑であるという状況を示す1つの例です。アルファベットには大文字と小文字があるという理解とは別に、あなたが知らなかった別のケースがあります」と言語の興味深さについて語りました。
・関連記事
新しい絵文字を追加した「Unicode バージョン16.0」公開、「目の下にクマのある顔」「ヒエログリフ」「矢印の追加」「日本の文字情報基盤の情報を追加」など盛りだくさん - GIGAZINE
全ての開発者が知っておくべきUnicodeについての最低限の知識 - GIGAZINE
目に見えないUnicode文字をコピペして使えたり元のUnicode文字を検索したりできる「Invisible Characters」 - GIGAZINE
Unicodeに含まれる謎の記号「⍼」の起源を追ったレポートが公開中 - GIGAZINE
最初期の絵文字セットが1988年のシャープ製電子手帳から発見される - GIGAZINE
・関連コンテンツ