Access开发培训
网站公告
·Access专家课堂QQ群号:151711184    ·Access快速开发平台下载地址及教程    ·欢迎加入Access专家课堂微信群!    ·如何快速搜索本站文章|示例|资料    
您的位置: 首页 > 技术文章 > 综合其它

文本型PDF文件中数据导入成数据表

时 间:2017-04-21 16:10:02
作 者:健利宝   ID:4396  城市:无锡
摘 要:报关单PDF文件格式解析输出数据表格式。
正 文:

      我是做关务工作,经常会接触到报关单,而对于关务来说,报关单数据非常重要,在以前没有大型关务软件时,报关单的每条数据都是人工输入到EXCEL表里的,其工作量非常大。

一张报关单是这样的:

点击图片查看大图


最终要的得到的数据是这样的:

点击图片查看大图


报关行使用的QP系统可以导出套打版的PDF文件,都是文本字符, 所以思路就是采用第三方PDF TO TXT软件转成TXT文件,然后TXT导入到临时表里,根据规律分割字段,提取字段写入到最终的数据表里。

其中碰到的主要问题时: 找一个合适的PDF TO TXT非常困难,我试过好几十种,才找到了一个合适的。但由于报关单的格式经常变,字符的上下左右位置稍有不同,解析出来的格式经常会不一样,导致后期经常要增加逻辑分析。最近海关改版很大,原先的PDF转换软件彻底乱了,不得不重新找了一款,分析下来,索性直接提去PDF TEXT RAW 数据,自己解析正常有规律的文本,现在基本转化率基本到了100%了,不过这个工具需要收费的。

界面截屏如下:

点击图片查看大图


点击图片查看大图

点击图片查看大图


也支持报关单PDF文件的批量解析导入。


下一步的打算:目前采用SHELL方式调用 第三方程序将PDF 转换成TXT的,后面打算学习API调用的方式。



Access软件网QQ交流群 (群号:54525238)       Access源码网店

常见问答:

技术分类:

相关资源:

专栏作家

关于我们 | 服务条款 | 在线投稿 | 友情链接 | 网站统计 | 网站帮助