Search Posts

Visits: 845

Preliminary test results of each file format


2019年10月にISO FDIS 21378がApproveされましたので、当時の状況を紹介します。
2017年9月13日、14日北京の审计署(China National Audit Office)でISO PC295の技術検討会を行いました。 現地のソフトウエアベンダーも含めた監査データ出力テストの検討会です。 事前テストと出張についてはXBRL JAPANの支援をうけて実施しました。

監査データ出力テストの検討会

これは、中国主導のテストが計画されている時期にあたり、Working Draftの最終段階でした。 中国が計画しているテストの目的は、異なった4種類のファイル形式をISO 21378でサポートするとすれば、それらの形式に対応した出力をベンダーソフトが実際に行えるか確認することでした。 

実際のデータの使用では、出力処理と入力処理が実行されます。 出力されたファイルをソフトウエアで処理するために必要な要件についての議論しかされていなかったので、入力処理における課題を指摘するために事前にデータ入力テストを行いその結果報告並びにデータ形式を設計する上で必要な入力処理の要件を提案することを目的としていました。

テスト結果説明

実際の処理時間は、大きく分けて次の3段階に分かれ、ファイル形式の違いはファイル転送とメモリに読み込む時間に影響します。

  1. ファイルを転送し、コンピュータのメモリに読み込む時間
  2. メモリ上に読み込んだデータを出力用に変形する時間
  3. 出力用に変形したデータを画面に表示する時間

テストの結果、次の2点を提案しました。

  1. 実際の処理時間の多くは、データの変形および出力に多くの時間がかかっており、ファイル形式の違いの影響はそれほど大きくない
  2. データ入力処理では、データチェックを自動的に行うためにスキーマが必要

テストで使用したスキーマは、CSVは使用せず、XMLは私が独自にXBRL GLを参考に設計したもの、XBRL GLはXBRL International勧告、JSONはJSON-LDを使用しました。
ファイル形式による処理の比較は、次のサイトからご覧いただけます。
Results page
画面右上にファイル形式のボタンがあります。ボタンをクリックするとファイル名が表示されますので、いづれかのファイル名をクリックするとファイルを画面に表示します。なお、ファイル名の横のアイコンでファイルダウンロードできます。

Prepare, Extract, Ingest

No one want to read extracted data with text editor and look up relevant data without any help from software.
Data accessibility requires Ingesting data to data store and/or software service.

Test results for following 3 steps; Data Preparation, Extraction, and Ingestion

Extraction Results

Extract time and file size for each file format.
One year (12,352 records) of General Ledger entry data of Small Entity. Generated 4 files for each quarter periods.

There is difference among each file. XBRL GL took more time and file size.
BUT these difference has less importance with today’s IT environment.
Software is written in PHP
Hardware Amazon Web Service EC2 Instance
Model:t2.small vCPU:1 Memory:2GiB Storage EBS-Only
model name : Intel(R) Xeon(R) CPU E5-2670 v2 @ 2.50GHz cpu MHz : 2500.060 cache size : 25600 KB

Ingest Result


There is no significant difference among each file
Step 1 depends on network speed and file size but it is negligible .
Step 2 ~ 3 differs by file format but it is negligible.
Execution time consists mostly of Step 4 ~ 5.
Software is written in Javascript(jQuery) and DataTables library
Hardware MacBook Pro Processor 2.5GHz Core i5 Memory 8 GB 1600 MHz DDR3

Findings

Extract

Extracted file size differs by file format but these difference has little effect for todays rich IT environment.
Extraction time also differs by file format but we should think total turnaround time including preparation time.

Ingest

Difference by file format is negligible for ingesting. Execution time consists mostly of formatting table.

Schema file

Schema is necessary for ingesting software to verify data and to import data correctly.

Ingest Results

Results


テーブルの左上のファイル名の末尾にあるアイコンをクリックするとデータ構造を次のようなグラフで表示します。

Difference by file format is negligible for ingesting. Execution time consists mostly of formatting table.
Results page
Select file to view from upper right menu.

Execution time for different file format.
One year (12,352 records) of General ledger entry data of SME.
CSV: 0.4sec
XML: 1.2sec
XBRL GL: 1.9sec
JSON: 1.1sec

Hardware Amazon Web Service

EC2 Instance
Model:t2.small vCPU:1 12 CPU Credits/hour Memory:2GiB Storage EBS-Only
vendor_id : GenuineIntel
model name : Intel(R) Xeon(R) CPU E5-2670 v2 @ 2.50GHz
cpu MHz : 2500.060
cache size : 25600 KB