お盆休みやけど、毎日暑いし、コロナで出歩けないし、、、仕方ないので家でパソコンをいじくっています。
最近、オープンデータを収集して可視化することに興味を持って色々挑戦しているのです。
オープンデータと言っても人口等のデータは面白くないので、今は新型コロナウィルス関係のデータを収集しようとしています。
しかし、これが中々厄介なのです。
国は全国のデータを集計したデータを公開しています。そして、各都道府県は、それぞれの都道府県ごとのデータを集計して公開しています。
最近の国が公開するデータは、曲がりなりにもオープンデータとして再利用可能な形で公開してくれることが多くなりました(以前は、さっぱりだったのですが、、、)。
とは言え、国のデータは各都道府県のデータを集計したデータなので、詳しいデータは都道府県公表のデータを見る必要があるのです。
で、これが大変なのです。
各都道府県によって公開方法がバラバラ。CSVであれば良いのですが、エクセルであったり、WEB上に表形式で公開したり、PDFのところもあります。
そして、公開方法だけでなく公開基準もバラバラなのです。同じ「年代」でも表現方法が違っていたり、発生場所と記載されていたり居住地と記載されていたり。
日時の表示も西暦だったり、和暦だったり、へんてこりんな形態で日時表示をしていたり、数字と文字が混在していたり、、、
苦労して、苦労して、データをスクレイピングしても簡単にデータとして扱えない形態。
東京は流石にCSV形式で再利用可能な方法で公開されていますが、大阪や兵庫はなぜかエクセルをそのまま公開、京都はWEB上での表とPDF。
しかし、自治体ではエクセル形式で情報公開をしているところが多いですよね。エクセルが標準ソフトとでも思っているのでしょうか?
新型コロナウィルスに関する情報公開に関しては、周辺の自治体で協議して同じ項目のデータを同じ形式(CSVやJSON)で情報を公開してほしいものです。
PDFはご法度です。エクセルで公開するのはやめてほしいです。特に見やすいと思って注釈を付けたり、コメントを挿入したりされると扱いに困ります。
ホント、自治体の多くはマイクロソフトの毒に侵されているな〜と思います。