統計表における機械判読可能なデータの表記方法の統一ルールの策定

hagi に投稿

今日、Twitterを見ていたら、総務省統計局から「統計表における機械判読可能なデータの表記方法の統一ルールの策定」という報道資料が出ていることが紹介されていて、統一ルールの内容という別表が掲載されていた。2020年12月のものである。内容は、Excelの表記をプログラム等で扱いやすくするために好ましい表記に変えようという話だ。

 

 

ITの世界でも、マネジメントは人間の可読性に焦点をあててデータ処理に向かないExcelを求めるケースが少なくない。特に非ITステークホルダーが関わる進捗管理やデータ仕様管理でそういう方法が選択される事が多い。しかし、そうしてしまうと変更がある度に、具体的には進捗会議を行う度などに、ステークホルダーへのプレゼンテーションのための転記作業が発生し、転記ミスも発生するし整合性検証もできなくなって矛盾が発生する。進捗会議の時に承認を取っていると整合性矛盾の解消が難しくなってプロジェクト崩壊の原因になることがある。

この統一ルールは、セルの結合をやめるなど、合理的な提案をしているから、統一ルールという推奨でなく、法制化して強制しても良いと思う。このルールで解決できない問題もあるけれど、多くのムダが解消され、整合性検証も外部から可能な範囲が増える。データを準備する側も曖昧な記述が難しくなるので、ごまかしが効かない。ついでに電子署名をつけることを強制すれば責任も明らかになる。

背景にはデータ記述の正規化の理論がある。恐らく中学生でも理解・習得することが可能な知識なのだが、知っている人も少ないし、現実世界での重要性を意識している人は極めて少ないと感じている。

Wikipediaでは「関係の正規化」として整理されていて、統一ルールは概ね第3正規形の表となるように記述を行えという推奨となっている。ワークシートの分割についても言及されており、データベース関数を定義して、正規化されたワークシート群から展開されたシートを(目的にあわせて複数)生成しておくこともできる。展開されたシートを直接修正しない限りデータの整合性は損なわれない。

ただ、統計データあるいは正規化応用で難しいのは、時系列の扱いだ。2つの問題があって、時間軸のとり方と、分類軸の変化の取り扱いが難しい。統一ルールでは、時間軸コードを導入して、前者の問題を解決しようとしている。まあ、これはこれで良いだろう。

統計データは、実際には、一つ一つの細かい事象の記録をまとめたものだから、時間軸のとり方は統計データで明らかにしようとする目的によって変わる。例えば、明治アーモンドチョコレートの販売統計だと、2022年1月24日の9:00にセブンイレブン文京千駄木店のPOS-Aで購入されたというような個別事象の集約だから、時間軸のとり方は2022年1月というような集約もあれば、2022年の月曜日というようなとり方もあれば、2022年の9:00から10:00という集約もある。時間軸コードの設定方法は無数にある。もう一つの分類軸の変化は「香るカカオ」モデルが出たりすると、これって統計的にはどう扱えば良いの?という問題がおきる。明治アーモンドチョコレートは単一の分類と考えていたものが、2つの製品の集約として捉えなければいけなくなったり現実に日々起きている環境変化がデータの記述方法に影響を与えてしまうのである。

ICTの進化で、一つ一つの細かい事象(トランザクション)が記録可能になり、ロット管理ではなく単品で管理可能になり、付随する問題管理に手が届くよう(affordable)になる。大括りの政策がザルであることが目に見えるようになる。個別トランザクションにはプライバシーの問題や営業機密の問題もあるので、そのまま開示できるわけではない。あなたがいつどの駅の改札でSUICAを使ったかとか、どの店で何を買ったかもトランザクションだから、適切に隠せないと安全が損なわれる。トランザクションを開示しなくても統計の制度が細かくなれば、個の特定が可能になるのも悩ましい問題である。

デジタル・ガバメント時代は、誰がどの(事象)データに責任を持つかは別として、一定のルールに基づいて、あらゆる事象がデジタルデータとして記録されることになり、データのオーナーは制度に基づいて管理義務と開示義務を負うことになる。だから、個の特定と事象の記録精度の標準化が極めて重要となる。ICT的に捉えれば、正規化された関係スキーマの標準化の問題となる。つまり、この統一ルールは、行政の関係スキーマを正規形で定義せよという推奨に等しく、デジタル・ガバメントの重要な一歩そのものだ。Excelの標準としてではなく、各省庁にERダイヤグラムを提案させ、デジタル庁にコンソリを行わせる必要があると思う。この標準化の過程で、住民基本台帳から個を特定するマイナンバー制度は破綻する。同時に今の家制度も破綻するだろう。それでも、このような動きが起きていることを私は歓迎したい。

※画像は、Wikipediaの「関係の正規化」英語版の一部をキャプチャしたもの

タグ