こんにちは!
消費財メーカーのデータサイエンティストを経て現在は会社経営をしている、ウマたん(@statistics1012)です!
データを扱う仕事をしていると必要になるのがデータマネジメント。
攻めのデータ分析を行うためには、地道な守りのデータマネジメントが非常に重要になってくるのです。
そんなデータマネジメントを体系的に学ぶ上で非常に有用なのが、DMBOK(ディンボック)
データマネジメントに関する知識を体系立ててまとめた書籍であり、DMBOK はData Management Body of Knowledgeの略です。
それを分かりやすくまとめた「データマネジメントが30分でわかる本」という書籍も非常におすすめです。
この記事では、そんなデータマネジメントに関してそれらの書籍を参考にしながら、より簡潔に分かりやすくまとめていきたいと思います。
以下のYoutube動画でも分かりやすく解説していますので是非チェックしてみてください!
もっと詳しく動画で学びたい方は、私自身がデータマネジメントについてアニメーションで分かりやすく学べる講座を公開しておりますので以下を参考にしてみてください!
【初学者向け】データマネジメント入門!DX推進やAI 導入を支える重要な要素をDMBOKに沿ってみていこう!
【オススメ度】 | |
---|---|
【時間】 | 1.5時間 |
自分で言うのもなんですが、データマネジメントについてDMBOKに沿ってこれでもかというくらい分かりやすくまとめています!
目次
なぜデータマネジメントは重要なのか
なぜデータマネジメントは重要なのでしょうか?
データマネジメントがしっかり行われていないデータ分析は、船底に穴の空いた船のようなもの。
最初は素晴らしい船出に見えても、その船はみるみる沈んでいきます。
データ活用も同じ。
多額のコストをかけて作り上げたデータマネジメントプラットフォームDMPやそれに付随するモデルもデータマネジメントが行き届いていないと形骸化していってしまいます。
このような状況を避けるために徹底したデータマネジメントが重要になってくるのです。
データのリスクが表出するたびに、場当たり的な対応でその場しのぎを続けることはできません。
DMBOK(ディンボック)とは
データマネジメントの領域が大切なのは分かりましたが、どのように学べばよいのでしょうか?
そこで活躍するのがDMBOK(ディンボック)です。
DMBOKはデータマネジメントに関する知識を体系立ててまとめたものであり、DMBOK はData Management Body of Knowledgeの略です。
米国のデータマネジメント組織である「Data Management Association International」が刊行していて、データマネジメントについて網羅的にまとめられています。
DMBOKではデータマネジメントの領域を11個に分けています。
・データアーキテクチャ
・データストレージとオペレーション
・データ統合と相互運用性
・データモデリングとデザイン
・マスターデータ管理
・ドキュメントとコンテンツ管理
・データセキュリテイ
・データ品質管理
・データウェアハウジングとビジネスインテリジェンス
・メタデータ管理
・データガバナンス
以下のようにデータマネジメントの領域が10個に分かれており、それぞれの領域を全体として管理するデータガバナンスが存在するDAMAホイール図が有名です。
DAMAは、Data Management Associationの略です。
そして、それらの領域をベースとして、DMBOKでは
・データ取り扱い倫理
・データサイエンス
・データマネジメント組織
の項目をデータマネジメントを推進する上で考慮すべき要素としてまとめられています。
DMBOKによるデータマネジメントの領域をそれぞれ簡単に解説
それでは、以下のDAMAホイール図のそれぞれの領域について簡単に見ていきましょう!
これらを簡単に見ていきましょう!
データアーキテクチャ
まずは、データアーキテクチャ。
DMBOKでは、データアーキテクチャを以下のように定義しています。
「企業の(組織構造に関係なく)データニーズを明確にし、ニーズに合うマスターとなる青写真を設計し、維持する。マスターとなる青写真を使ってデータ統合を手引きし、データ資産をコントロールし、ビジネス戦略にあわせてデータへの投資を行う。」
ちょっとわかりにくいのですが、要はどのようにデータを活用するのかを明確にし、それに基づいたデータ取得データ管理設計をしなさいということです。
控えめに言ってもめちゃくちゃ重要な領域です。
データアーキテクチャが描けていないと、無駄なデータを取得して形骸化していくシステムが残り続けてしまったり肝心な時に本来データ活用に必要なデータが取れていなかったりという事故が起きかねません。
そのデータは何のために取得しているのか、データとビジネスをしっかり紐付ける絵を描くことが大事なのです。
必ずデータマネジメントの基本であるデータアーキテクチャについてしっかり理解して使いこなせるようになっておきましょう!
データアーキテクチャを考える際は
・どこからデータを取得して
・どのようにデータを管理して
・最終的にどのようにビジネスに活用するのか
の3つのポイントをおさえておくことが大事です。
この3つのポイントをおさえながら、現状とあるべき姿、As isとTo beを描きましょう!
「ビジネスにおいてどのようなゴールを目指しそのゴールを達成するためにはどのようなデータが必要か」
という観点で考えましょう!
データストレージとオペレーション
2つ目がデータ・ストレージとオペレーション
データストレージとオペレーションはそのまま日本語に直すと、
データ保管場所と運用
です。
すなわちデータをどこにどのように貯めて運用していくかという部分を指します。
データアーキテクチャを描いたとしても、
・それを実現するデータをためておくためにどんな箱を使うのか
・それをどのようにメンテナンスしていくのか
を考えなくてはいけません。
その役割を担うのが、このデータストレージとオペレーションになるのです!
データモデリングとデザインの領域とも密接に関わってくる部分、データモデルに適したデータ保管場所と運用を定めます。
さて、それではデータストレージとオペレーションの領域ではどんな視点が大事になるのでしょうか?
データストレージとオペレーションはビジネスを持続的にグロースさせていくために必要不可欠。
そしてそのためには、
・可用性・・・システムが継続して稼働し続け、必要な時にデータにアクセスできるかどうか
・完全性・・・データの改ざんや過不足のない正確な情報が保持されている状態かどうか
・機密性・・・データの機密度に応じて高いセキュリティでデータが守られているかどうか
が担保されたデータベースを構築し管理していくべきなのです。
また、オペレーションも非常に重要な部分です。
最初に可用性、完全性、機密性が担保されたデータ・ストレージを構築することができたとしても、月日が経つと形骸化してきてしまうものです。
・どこにどのようなデータがあるのか?は把握できているか?
・個人情報はどの程度保持するのか?期間が過ぎたら消去するのか?
などさまざまな観点で管理していくことが重要です。
構築して終わりではなく、そのあとも持続的にビジネスを拡大し続けることのできるオペレーションの構築が必要になるのです。
データ統合と相互運用性
3つ目がデータ統合と相互運用性データ活用の観点から使いやすいデータを作り適切な場所への移動を行うことです。
データ統合と相互運用性とは、簡潔に言うとデータをスムーズに使える形に連携し管理・運用することです。
データを連携する工程は、抽出(Extract)、変換(Transform)、取り込み(Load)、に分かれ、それらをETLと呼びます。
日々ビジネス活動を行っていく上で、様々なデータが様々な粒度で様々なデータソースに貯まっていきます。
例えば蓄積されるデータには顧客の個人情報データや顧客のトランザクションデータ、そしてWebサイトのログデータなどがあるでしょう。
その際にそれらの生データにビジネス・マーケサイドの人間がそのままアクセスしてしまうような体制は効率が悪いです。
生データのままでは、集計・分析・可視化する上で効率が悪いことは一目瞭然でしょう
様々なデータソースから汚いデータを取ってきて、各自で試行錯誤して集計するよりも、使いやすい形で1つのデータソースに一元化されていた方がいいことは言わずもがなです。
適切なデータをビジネスに活用しやすい形にして適切な場所に保存しましょう!
データモデリングとデザイン
4つ目がデータモデリングとデザイン
このデータモデリングとデザインは、簡潔に言うとデータの関係性を図で示し可視化して管理することです。
DMBOKでは以下のように言っています。
データモデリングとは、データ要件を洗い出し、分析し、取扱スコープを定めるプロセスであり、データ要件を記述し伝えるために、明確に定義されたデータモデルと呼ばれる様式が用いられる。
データアーキテクチャを描く上でもこのデータモデリングとデザインが非常に重要になってきます。
データアーキテクチャでは、現在の状況を整理して、将来のデータ活用をビジネス観点から定義し、それを実現するためにどんなデータが必要かどうやってデータを取得してどこで管理するかを考えていきます
この際に将来的なデータの関係性を可視化するのがデータモデリングとデザインの役割になります。
これを元に実際の実装に落とし込んでいきます。
ではどうやってデータモデリングをおこなっていけばよいのでしょうか?
いわゆるER図というのが一般的によく使われるデータモデリングの設計図です。
ER図とは、Entity Relationship Diagramの略です。
Eはエンティティ(Entity)の略で、Rはリレーションシップ(Relationship)の略です。つまりER図は「エンティティ=モノ」と「リレーションシップ=関係」の組み合わせを指します。
要はデータの関係性を表した図です。
ER図は形骸化してしまうと使い物にならないので、誰がどのタイミングで更新するか決めて運用を行いましょう。
マスターデータ管理
5つ目がマスターデータ
マスターデータの管理は大規模組織のデータマネジメントに非常に重要です。
マスターデータとは全てのデータの基礎となる一貫したデータであり、常に最新で常に完全であることが求められます。
例えばECサイトであれば、顧客マスターや商品マスターなどが非常に重要になってきます。
そして、その顧客マスター上の顧客会員レベルが1,2,3と分類されていて、その顧客会員レベル1,2,3が何を表すのかを示すテーブルが参照データです。
マスターデータは1人1人の顧客に紐づく静的なデータが最新かつ完全な状態で管理されていることが望まれます。
顧客には性別や年齢やメールアドレスなど様々な情報がひも付きます。それを常に最新な状態で管理しておく必要があります。
そしてトランザクションデータにおいて顧客IDと紐付けて顧客の詳細データを顧客マスターから参照できるような状態を作っておくことで健全な分析やデータに紐づくアクションを打つことができるのです。
また商品に関しても同様です。1つ1つの商品にも価格やカテゴリ分類など様々な情報が紐づきますので、トランザクションデータと商品IDで紐付けて常に参照できるように設計しておく必要があります。
マスターデータと似たデータテーブルがあると混乱を招きます。
マスターデータの管理と運用ルールのガバナンスをきかせましょう!
ドキュメントとコンテンツ管理
6つ目がドキュメントとコンテンツ管理
ドキュメントとコンテンツ管理はその名の通り、社内に貯まったドキュメントとコンテンツをしっかり管理していく領域です。
今まで登場した顧客データやトランザクションデータなどは、構造化データと呼ばれ、データの持ち方や属性や型が事前定義されているものです。
今まで見てきたように構造化データはビジネスに直結するデータであり、どんな形でデータを保持しどのようにビジネスに活用していくかを描くのが重要です。
ただし企業活動において生まれるデータは構造化データだけではありません。
非構造化データと呼ばれるデータも非常に生まれ、それらを管理していくことも組織においてビジネスをグロースさせていく上で非常に重要なポイントになってくるのです。
それこそが、このドキュメントとコンテンツ管理の領域です。
データセキュリテイ
7つ目がデータセキュリティ
ビジネス観点でデータを運用するとともに、セキュリティ観点で管理することも重要です。
顧客の個人情報を誰にでもオープンな形で保存していることはNGなように、データのセキュリティレベルを管理し、アクセス権限をコントロールすることが重要です。
地味に思えますが、万が一のリスクを防ぐために企業活動として重要な部分です。
時代の流れでセキュリティの考え方は変わりますので、それにあわせてアップデートすることが必要です。
データ品質管理
8個目がデータ品質管理
データ品質管理とはその名の通り、データの品質そのものです。
・扱うデータには欠損がないか
・最新のデータに更新されているか
・他のデータの不整合は起きていないか
などの観点からデータの品質は見られます。
いくらデータアーキテクチャをしっかり描き、それに沿うデータモデリングを行いデータの流れや管理の仕方を設計したとしても肝心のデータそのものの品質が低ければ最終的なビジネスアウトプットが信頼のおけないものになってしまいます。
そのような事態を防ぐためにもデータ品質を監視し、常にデータ品質が高いレベルに保たれているかを把握できる仕組みを作りましょう。
このデータ品質では、最終的にアウトプットされるデータだけではなく、生データの取得から最終的なビジネスアウトプットに至るまで全ての工程において品質が担保されているかを確認する体制を整えておくべきです。
品質に異常が発生した時点で検知しアラートが飛ぶような設計にしたり、定期的に品質を確認する業務フローを整えたりすることでデータ品質を高い水準に保ちましょう。
しかし、この際に逆に問題になるのが過剰品質という問題です。
全てのデータ管理やレポーティングやデータ連携のフローの品質を完璧に保っていることは非常に工数がかかります。
また企業活動を行う上で、どんどん新たなデータやレポーティング業務や連携フローが発生します。
増え続ける全ての事象において品質を常に高い水準に保ち続けるのは過剰品質につながりかねません。
実際は全く使っていないデータテーブルを保守していたり、誰も見ていないレポートを定期的に発行していたりすることが往々にしておきてしまうのです。
それを防ぐためには、どのデータがどのような用途でどれだけ使われているかを定期的に把握し、断捨離を行う必要があるのです。
データウェアハウジングとビジネスインテリジェンス
9個目がデータウェアハウジングとビジネスインテリジェンス
DMPでデータをビジネス活用しやすいような形で保持し、BIツールを用いて効果的なPDCAサイクルをまわしましょう!
BIダッシュボードはターゲットと目的を明確にしないと形骸化してしまいます。
無駄に作られたBIが乱立することになってしまうんです・・・
それを避けるためにビジネス要件からデータ活用のターゲットと目的は明確にしましょう!
メタデータ管理
10個目がメタデータ管理
他の項目とも関係していますが、データを管理するためのデータのこと。
どのデータがどこにどのセキュリティレベルで置いてあるかを一元把握できるようにしておきましょう!
データガバナンス
最後にデータガバナンス
今までのデータマネジメントの内容を統制する役割がデータガバナンス。
データマネジメントが正しく行われるように統制し、事業計画に紐づく形で設計し、かつ組織の人員配置を考え経営層のコミットを促し、全社的にデータ活用を推進する役割を担うのがデータガバナンスです。
今までお伝えしてきたデータマネジメントの各論をしっかりおさえて設計することももちろん大事ですが、枝葉末節にこだわってしまい全体感を見失っては本末転倒です。
それを防ぐ役割を担うのがデータガバナンスなのです!
ただ、この時に注意したいのがデータガバナンスを目的にしないようにすること。
データガバナンスはあくまでデータマネジメントを統制する手段です。
本来の目的はデータマネジメントを行いデータ活用を推進しビジネスに大きな利益をもたらすこと。
そこがぶれてデータガバナンスを徹底すること自体が目的になってしまい、本来の目的を見失わないようにしましょう。
DMBOKに基づくデータマネジメント まとめ
ここまでで、データマネジメントにおける要諦についてまとめてきました!
データマネジメントの領域は以下の11個に分かれるのでした!
・データアーキテクチャ
・データストレージとオペレーション
・データ統合と相互運用性
・データモデリングとデザイン
・マスターデータ管理
・ドキュメントとコンテンツ管理
・データセキュリテイ
・データ品質管理
・データウェアハウジングとビジネスインテリジェンス
・メタデータ管理
・データガバナンス
データマネジメントは守りの仕事に見えますが、攻めの経営をする上で非常に重要な部分なので是非おさえておきましょう!
短期的には地味な仕事ですが、おろそかにすると長期的にボディブローのように効いてきます。
もっとデータマネジメントについて知りたい!という方は是非
・データマネジメントが30分でわかる本
・DMBOK
を手に取ってみてください!
また私自身がデータマネジメントについてアニメーションで分かりやすく学べる講座を公開しておりますのでそちらも参考にしてみてください!
【初学者向け】データマネジメント入門!DX推進やAI 導入を支える重要な要素をDMBOKに沿ってみていこう!
【オススメ度】 | |
---|---|
【時間】 | 1.5時間 |
自分で言うのもなんですが、データマネジメントについてDMBOKに沿ってこれでもかというくらい分かりやすくまとめています!
ぜひデータマネジメントをしっかりおこなって健全なデータ活用の土台を作っていきましょう!
その上でデータサイエンス手法や機械学習を使ってデータ活用を実現しましょう!