数据处理,不可不知的常用工具
? ? a).?CometDocs是用于从PDF中抓取表格数据最简单有效的工具。用户可以直接进入网站,上传文件,选择输出文件类型,输入你的邮件地址,完成。 缺点:不能免费处理图片,需要订购OCR服务。 ? ? ? b).?Tabula?是一款你可以直接下载安装到电脑上的免费软件,它可以帮助你导入PDF文件并输出单份表格。在你导入相应的PDF文件之后,你需要手动将需要的表格框出来,Tabula会试图在保留行列的前提下转化数据。 Cogniview和Tabula类似,你可以将需要的表格框起来,但是如果Congniview猜错了,你可以很容易地调整它的范围。更棒的是,它有光学字符识别版本,这样即便是图片它也可以识别。 ABLE2EXTRACT是纽约时报图像部门钟爱的程序,界面和使用方式和Cogniview都很类似。 缺点:大多数时候Able2Extract都表现很好,但它的调试系统不如Cogniview。 ? https://github.com/gebelo/nicar2016/blob/master/refine.pdf 辅助数据资料: https://github.com/gebelo/nicar2016/blob/master/prof.csv (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |