この業界、頭が異様に悪くて何故か表をAutoCADで描いたりします。
電子納品とか言っても単にCAD上に表が描かれてるとかページに吐き出されたpdfだから機械がデータ構造認識できないから何の価値も意味もないんや!!!!!!
— にょる。 (@W53SA) August 28, 2015
構造をもった電子データであるという認識を捨てて単なる画像として処理することを考えて手段を探すと色々と術が見つかってきました。紙で渡されるのとほとんど同じ処理をするハメになるわけですね。ひたすらOCROCROCR,,,,,
で、AutoCADで描かれた表を手打ちしたら死ぬのでOCRです。
取り敢えずAutoCADデータのままではお話しにならないので、CubePDF使ってPDFに書き出します。
このPDFを処理します。
Renee PDF Aide
前回のクソPDFテキスト化で使ったRenee PDF AideはExcelデータも吐けるので試してみた。
しかし、セルが統合しちゃったりして微妙に扱いにくいので、もう少し頑張る。
DocuWorks
本社に転属した際にインストされたソフトウェアの一つにAcrobatのパチモンDocuWorksってのがあって、使えという指示がない限り使ってなかったんだけど、ぐぐったらOCR機能があってExcelが吐けるらしい。
無償ソフトよりは期待できるかなぁと思って試したら、何も言わず処理終了してもファイルを吐かない。
これやっぱりウンコなのでは、と思って調べたら、内部でのデータ保存形式が画像じゃないとダメとか出てきた。教室とかやってる暇があったらダイアログでも表示しとけよ*1。
引っかかったのはそこだけで、PDF Aideよりは綺麗なExcelが吐けました。でも、Excelに食わせたら「セキュリティ上の問題があるファイル」とかなんとか怒られたしてもにょい*2、
感想
いいからCSVでデータよこせ。