15の視点から見るデータの品質について
データ分析において、一番重要なのは分析する基となるデータの品質と透明性です。いくら優れた分析のためのテクノロジーや人材を揃え分析をしたとしても、データが汚ければ何の知見も得られないどころか、正しい分析が行われないことによって間違った意思決定に繋がる可能性があります。
汚いデータを扱うことによってそれ以降の全てのプロセスに悪影響を及ぼします。
今回は、汚いデータを綺麗なデータに変えるために必要な要素についてまとめてみました。
目次
綺麗なデータとは
分析の価値を最大化するには、綺麗なデータを扱うことが欠かせません。
では、何をもってデータが綺麗というのでしょうか。まず、綺麗なデータとは、言い換えると品質と透明性が高いデータとも言えます。
そこでデータ品質の評価の参考にしたいのが、ISO/IEC 25012のデータ品質の評価の15項目です。
- 正確性
- 完全性
- 一貫性
- 信憑性
- 最新性
- アクセシビリティ
- 標準適合性
- 機密性
- 効率性
- 精度
- 追跡可能性
- 理解性
- 可用性
- 移植性
- 回復性
データ品質の評価軸15項目
正確性
データの基本は正確であること。例えば、データの誤り、誤字脱字、書式の相違などがないかを表します。正確性が低いことで、そもそもデータとして成り立っていないという状況となってしまいます。
完全性
データの完全性も重要な要素です。例えば、データが特定の行で抜け落ちていたり、連絡を取るための顧客リストで電話番号データが無いなどです。完全性が低いことで活用することができないデータとなってしまいます。
一貫性
他のデータと首尾一貫して矛盾がないことを示す要素です。データ内、データ間で矛盾がないことが求められます。例えば、和暦と西暦が混在しているなどです。一貫性を損なうことで扱いづらいデータとなってしまいます。
信憑性
信憑性とは業務状況下においてそのデータが信頼できる内容であることを指します。例えば、月の販売数量が3000個に対して、1人の顧客の購入数が80000個などのように業務上あり得ないデータとなってしまっている場合などです。
最新性
データが最新の状態で保たれているかどうかを表します。例えば、顧客データにおいて特定の顧客の連絡先が変更になっていてもデータがそのままであれば最新性は低くなってしまい、業務において使えないデータとなってしまいます。
アクセシビリティ
データへのアクセスのしやすさを表します。そのほか、利用のしやすさという観点で例えば、文字データを自動読み上げする目的に対して文字データではなく、イメージデータで保存しているなどもアクセシビリティが低くなる要因とも言えます。
標準適合性
規格,協定又は規範,及び類似の規則など、一定のルールに基づいているかを指します。例えば、郵便番号をがXXX-XXXXとXXXXXXXが混在しているなど、フォーマットが揃っていないなどです。
機密性
機密性は特定のユーザーだけが利用できる、解釈できるなどの要素を表します。データには個人情報なども含むため、セキュリティが重要です。ユーザー制限や暗号化などで特定のユーザーしか利用・解釈できないことが必要です。
効率性
データの効率性です。効率性の例としては、顧客マスタ内の住所データを東京都渋谷区渋谷XX-X-Xではなく、東京都/渋谷区/以下住所のようにデータを保持することで、その後効率的に処理・評価できるようになる、などが該当します。
精度
データの精度についてです。例えば、比率を表すデータにおいて、30%に対して30.25%のように、必要な精度を備えているかを評価します。
追跡可能性
データへのアクセス及びデータに実施された変更の監査証跡が可能であることを指します。誰がいつ閲覧したか、そしてデータに変更を加えたかがわかり、追跡できることが必要です。
理解性
適切な言語,シンボル及び単位で表現され、利用者がデータを読み,説明することができるかどうかを示します。例えば、言語を表すコードは数字コードよりもenやjaなどです。
可用性
情報をいつでも使える状態を保持することを示します。データ活用に関する目的を果たすまでアクセスやデータ処理が中断されないシステムは可用性が高いといえます。例えば、クラウドサービスなどが該当します。
移植性
既存の品質を維持しながら,データを一つのシステムから他のシステムに実装したり,置き換えたり,移動したりできることを指します。
回復性
何らかの障害などが起こった際にもバックアップなどでデータを回復させ品質維持ができることを示します。
まとめ
今回は、データの品質についてみるべき15の視点についてまとめてみました。
データ分析からインサイトを見出し、それを基に意思決定を行い、事業の成果に結びつける。しかし、まだまだデータの利活用ができていない企業も多くあります。
そういった企業がまず最初に始めるべきことは、目的から逆算しどういったデータをどのように保持するかを決めることです。
品質の悪いデータしかなければ、その後のデータクレンジングの労力、間違ったデータで分析してしまう労力、間違った意思決定を行った後の損失、など多くの無駄が発生してしまいます。
データ分析における価値の最大化は、データ品質によってもたらされます。データの品質を保つことは、どんな事業においても重要な機能ではないでしょうか。
中小企業診断士 | 薬剤師
独立開業←店舗運営改善・人材教育←法人営業←ドラッグストア。中小企業の増収増益の仕組みづくりのサポートをしています。得意分野はデータ分析、営業、マーケティング。