既存資料のデータ化

既存資料のデータ化

 インフラDBなどのデータベースを導入する際に、過去の橋梁定期点検結果などをどのように取り扱うべきかご相談をいただくことがあります。既存の紙資料やExcel、PDFなどのファイルをデータベースに蓄積する際に、どのような資料の種類があり、それらをどのようにデータ化していくのか、整理してみました。

資料の分類

資料にはどのような種類があるのか、整理してみました。

項番 分類 データ 参考例
1 印刷物(コピー紙) アナログ A4, A3
2 印刷物(製本) アナログ 製本, 非定型
3 マイクロフィルム アナログ
4 PDFファイル デジタル
5 Excelファイル デジタル 定形的な様式のもの。台帳や調書など
定形的ではないものは、文書ファイルの位置づけ
6 文書ファイル デジタル Word, Excel, PowerPintなど
7 写真ファイル デジタル jpeg, pngなど
8 図面ファイル デジタル CAD形式, jpeg, pngなど
9 その他のファイル デジタル 実行プログラム, 圧縮ファイルなど

データ化の方法

紙の資料やファイルをデータベースやストレージに格納する場合、どのようなデータ化の方法があるのか整理してみました。
※ストレージとは、ハードディスクなどのファイルを格納する記憶装置のことです。

◎【タイプⅠ】ファイル保存(索引情報のみ)

資料のカテゴリーやタイトルなど、共通的な索引情報をデータベースに蓄積した上で、資料をファイルとしてストレージに保存する。

特徴 索引情報を検索キーワードとして、関連する資料(ファイル)を探しだすことができる。
検索キーワードが資料内に含まれていても、索引情報にない場合は探しだすことができない。
適応性 図面や写真などのテキスト情報を含まない資料に適している。
資料内のテキスト情報を利活用する予定がない場合は、ひとまず索引情報のみを整理しておくとよい。
データ化の方法 アナログデータの資料はスキャナを使ってデジタルデータに変換し、索引情報を手入力で割り当てる。
デジタルデータの場合はソフトウェアを使って索引情報を自動抽出できる場合がある。索引情報の割り当て方によっては、プログラムで一括処理が可能。

◎【タイプⅡ】ファイル保存(全文検索対応)

索引情報のほか、資料内のテキスト情報をデータベースに蓄積した上で、ファイルをストレージに保存する。

特徴 資料内のテキスト情報を検索キーワードとして、関連する資料(ファイル)を探しだすことができる。
特定の数値範囲や分類など、構造化されたデータ条件を与えて、関連するファイルを探しだすことはできない。
適応性 報告書や議事録など、文章中心の情報で構造化が難しい場合やその必要性がない資料に適している。
データ化の方法 アナログデータの資料はスキャナを使ってデジタルデータに変換し、OCR(光学的文字認識)をつかってテキスト情報を抽出する。画像形式のデジタルデータについても同様。文字を正しく認識できない場合や誤認識が発生する。その修正には人のチェックと手作業による訂正が必要。
画像形式以外のデジタルデータの場合は、ベンダーなどから提供されているソフトウェアをつかってテキスト情報を抽出する。ファイル形式によっては抽出手段がない場合もある。その場合はOCRをつかって文字認識により抽出する。

◎【タイプⅢ】データ構造化

資料の内容をデータ項目単位に構造化し、その構造をもつデータベースに保存する。

特徴 検索キーワードのほか、特定の数値範囲や分類など、構造化されたデータ条件を与えて、関連するファイルを探しだすことができる。データはシステム間の自動連携や分析など、広く高度に利活用できる。
資料の内容を分析して構造化し、データベース設計と構築を行わなければならない。
適応性 台帳や調書など、資料の内容が構造的で、継続的に管理される資料に適している。
データ化の方法 ソフトウェアを使って構造化されたデータを取得できる場合は、個別に抽出プログラムを開発して半自動・一括でデータを取り込む。それ以外の場合は手入力でデータを取り込む。

まとめ

 データの編集や加工など、システムの計算処理で取り扱うデータは必然的にタイプⅢのデータ構造化が必要となります。システム導入後に蓄積していくデータは、このデータ構造化された形式で格納されていくことが望ましいでしょう。

 一方で過年度のデータなどは、タイプⅢのデータ構造化を行うことで分析や加工の可能性が広がるものの、そのデータ化のコストが膨大となる場合は、タイプⅠまたはⅡのファイル保存を検討すべきです。タイプⅠかⅡの判断は、そのユースケースを十分に検討して判断するのが良いでしょう。実施年度や対象構造物名、工事名などの大まかな分類さえ検索できれば目的の情報を引き出せる(利活用できる)場合、タイプⅠのデータ化に留め、将来的に必要性が生じたときにタイプⅡやⅢ、あるいはさらに高度なデータ化を行うのが良いでしょう。もとの情報は欠損・喪失することなくストレージに格納されていますので、最低限のデータ化は保たれています。