表をOCRで処理する

この業界、頭が異様に悪くて何故か表をAutoCADで描いたりします

構造をもった電子データであるという認識を捨てて単なる画像として処理することを考えて手段を探すと色々と術が見つかってきました。紙で渡されるのとほとんど同じ処理をするハメになるわけですね。ひたすらOCROCROCR,,,,,

で、AutoCADで描かれた表を手打ちしたら死ぬのでOCRです。

取り敢えずAutoCADデータのままではお話しにならないので、CubePDF使ってPDFに書き出します。

このPDFを処理します。

Renee PDF Aide

前回のクソPDFテキスト化で使ったRenee PDF AideExcelデータも吐けるので試してみた。

しかし、セルが統合しちゃったりして微妙に扱いにくいので、もう少し頑張る。

DocuWorks

本社に転属した際にインストされたソフトウェアの一つにAcrobatのパチモンDocuWorksってのがあって、使えという指示がない限り使ってなかったんだけど、ぐぐったらOCR機能があってExcelが吐けるらしい。

無償ソフトよりは期待できるかなぁと思って試したら、何も言わず処理終了してもファイルを吐かない。

これやっぱりウンコなのでは、と思って調べたら、内部でのデータ保存形式が画像じゃないとダメとか出てきた。教室とかやってる暇があったらダイアログでも表示しとけよ*1

引っかかったのはそこだけで、PDF Aideよりは綺麗なExcelが吐けました。でも、Excelに食わせたら「セキュリティ上の問題があるファイル」とかなんとか怒られたしてもにょい*2

感想

いいからCSVでデータよこせ。

*1:会社で使ってるのはVer,6だったかで古いので、Ver.8あたりでは改善されているのが普通ですが。

*2:これもVer.6使ってるからなんですかね?