個人情報テスト用データを一気に5000件出力する「なんちゃって個人情報」


プログラムなどで個人情報などのデータを大量に扱ったり、あるいはExcelのお勉強などで大量の偽データが入ったデータが欲しい場合がありますが、そういう際に極めてお役立ちな無料で利用できるネットサービスです。

出力形式はHTML、XML、CSV、タブ区切りテキストの4種類。出力件数は最大5000件まで。それ以外にも名前や電話番号などなど、いろいろなデータをミックスさせることができます。それも適当なランダム値ではなく、日本でよく使われている名字上位1000位までとか、平成16年の年齢別・男女別の未婚率に基づいて性別を出力とか、かなりのこだわりが見えます。

詳細は以下の通り。
なんちゃって個人情報

出力される値はそれぞれ以下のようになっています。

名前:
苗字は日本でよく使われる苗字のうち上位1000位まで(日本人の7割が含まれます)。名前は150種類ほど。

ふりがな:
名前のふりがなを出力

性別:
男女比は1:1でランダムに出力。性別の表し方をいくつかのフォーマットから選択可能。

年齢:
指定された範囲でランダムな年齢を出力します。

婚姻:
既婚または未婚を出力。20歳~50歳までについては、平成16年の年齢別、男女別の未婚率に基づいて出力。20歳未満と51歳以上については未婚率を補間して計算。

血液型:
日本国内の血液型の比率 A : B : O : AB = 38 : 22 : 31 : 9 と同じ割合で出力。

都道府県:
2007年1月1日現在の人口比率と同じ割合で出力。東京、神奈川、大阪と続き、鳥取が最も少なくなる。

電話番号:
都道府県とは全く関係なく、10桁のランダムな番号を出力。

携帯:
090、080のどちらかで始まる11桁のランダムな番号を出力。

キャリア:
携帯番号とは関係なく、ドコモ、au、ツーカー、ソフトバンクのいずれかを出力。比率は2006年11月時点での契約数と同じ割合で出力されるとのこと。

カレーの食べ方:
この人のカレーの食べ方を適当に出力。

一番最後のカレーの食べ方がいい感じ。海外ではこういうランダムなデータを生成するというのはいろいろあるのですがなぜか日本では非常に少ない中、このネットサービスは非常に優秀な部類ではないかと。すばらしいです。

ほかにも、文字入りQRコード作成サービスという一風変わったものもあります。

文字Qメーカー

・関連記事
ランダムな英字トラックバックスパムをブロックする方法 - GIGAZINE

データセンターを箱に入れる「Project Blackbox」 - GIGAZINE

新しいGoogleデータセンターを発見する「New Google Data center tool」 - GIGAZINE

CRCエラーでも無理矢理コピーするフリーソフト「CD Recover」 - GIGAZINE

五大新聞の記事を収集してデータベースを構築する「新聞つんどく」 - GIGAZINE

Wii、PS3、Xboxなどの全世界売上グラフを見ることができる「Videogame Charts」 - GIGAZINE

Googleのデータセンターで火事、6台の消防車が出動して消火活動 - GIGAZINE

「プログラムの追加と削除」を高速化できるフリーソフト「Safarp」 - GIGAZINE

プログラムを2倍から4倍早くする方法 - GIGAZINE

「svchost.exe」の正体を探る - GIGAZINE

0

in ネットサービス, Posted by darkhorse