メタデータの不備が何をひきおこすか
この場所を借りて、数回にわけて筆者が経験したメタデータ管理の難しさや勘所を述べたい。
DMBOK2の12章にメタデータ管理 という領域がある。
データマネジメントを進める時、まず自社にどのようなデータが存在するかを知る必要があるが、それには「データに関するデータ」、すなわちメタデータが必要である。
データマネジメントという地味な活動(失礼)の中でも、メタデータ管理はさらに漢方薬的、下支え的な存在である。重要性もなかなか認知されにくい。
しかしながらデータ活用やデータ連携/統合を進める中で、自社のデータ定義の未整備さが足枷になって活動に支障をきたすことが多々ある。
あるデータ分析を行おうとしたときに、
-データの定義が見つからない・古いDB設計書に記載があるが最新かわからない・知識が属人化している-
このような状況により、データ分析そのものにかける時間よりも、信頼できるデータ定義の確定するまでに時間がかかってしまうのである。
このような問題が続き、データ定義の不足・不備がボディブローのように効いてくることで、初めてメタデータ管理の重要性が認識されることも多い。
領域横断で問題が顕在化するケース
またメタデータが未整備であっても、単一のシステムをベースにしたデータ活用においては、問題は顕在化しないことがある。 一部の担当者の知識でなんとか解にたどり着けるからである。
しかしながら、 複数のシステム・部門/事業に跨ってのデータ活用やデータ統合を行おうとすると、さらに様々な問題が発生する。
複数領域をまたがったデータの扱い時に頻繁に発生する課題として、同音異義語(ホモニム)・異音同義語(シノニム)があげられる。
一例をあげよう。
A事業・B事業がそれぞれ独自のシステムを持っており、それぞれに「納期日」「納入実績日」 というデータ項目が存在する。
納期日 > 納入実績日 という式で 「納期遵守率」というKPIが求められるとする。
この場合、そのままA事業・B事業の納期遵守率の優劣を比較することは出来るだろうか?
それはデータの定義とコンテキスト次第である。
当然のことながら、同じ土俵に立っていない2者を比較することはできない。
「納期日」 という項目が、
・顧客への納入なのか、社内の次工程への納入なのか?
・当初設定のものか・途中の納期調整をふまえたものか?
・確約なのか目安なのか?
そのようなコンテキストが同一でないと、当然のことながら比較は出来ない。
A事業システムでは「当初設定の納期日」、B事業システムでは「納期調整の都度アップデートした納期日」である場合、
B事業はA事業よりも圧倒的に納期遵守率が高い!
というような間違えた結論を導出してしまう危険性さえある。
これは同音異義語のケースである。
逆に別の項目名が同じ意味を指していることもある(異音同義語)
解決のために
上記の課題の解決方法としては、
「顧客納入当初納期日」 というような十分にコンテキストを含んだ正式項目名を、あらためて定義し、そのうえで現データ定義とはマッピングを確保していく。
この作業により、同音異義語・異音同義語を紐解いていくのである。当然、業務エキスパートの参画・支援も必要となる。
またこの作業の成果を、個々に散在させては意味がない。
これら定義を蓄積する統合的な辞書(リポジトリ)を用意し、育てていく必要がある。
これらを体系的・継続的に行うのがメタデータ管理である。
次回はどのようなアプローチでメタデータ管理を進めるかについて述べたい。
コメント