PDF无表格线和有表格线表格抽取
描述:从PDF中抽取无表格线表格和有表格线表格。上传PDF,对每一页利用ResNet进行图片分类,判断是否包含无表格线表格。然后对包含无表格线表格的页面,利用ALBERT进行文本分类,判断每一行是否属于表格,完成表格外框抽取。然后利用文字间隙和语义信息画表格内框线。有表格线表格采用Opencv抽取线条进行表格抽取。合并无表格线表格和有表格线表格结果作为pdf抽表结果。其中无表格线抽表经历了使用U-net进行像素分类,判断每一个点是黑色像素还是白色像素,进行画线;经历了使用Yolov3, Cornernet,Centernet等进行目标检测,采用目标检测的方法进行画矩形框抽取线条;行分类抽取外框和规则抽取内框等三个阶段,其中行分类抽取外框和规则抽取内框抽表结果最好。
标签:图像分类,文本分类,像素分类,目标检测