企业如何获得财报个性化OCR处理能力？合合信息文字识别训练平台来助力

来源：互联网作者： 2024年02月26日 16:00

导语：

现阶段,OCR(光学字符识别)技术在各行各业的应用越来越广泛。随着企业对于信息抽取精度、版式覆盖全面性、迭代速度与灵活度等要求的提升,常规的文字识别技术已难以满足日益增长的个性化需求。为此,合合信息基于深度学习算法和能力,推出文字识别训练平台,旨在为企业提供低代码、自动化的一站式OCR开发解决方案。此前,合合信息深度学习技术已助力表格识别等行业难题的突破,在财报相关表格识别测试中,合合信息文字识别训练平台无线表识别检测准确率较传统方法显著提升。

该平台很大程度上简化了OCR的开发过程,实现了全可视化开发,使零算法的开发者与业务人员都能轻松参与模型的开发。通过简单的框选和点击操作,用户可以在Textin Studio的可视化界面中迅速完成模型的创建、数据标注、训练、测试以及部署,有效解决了定制化识别开发门槛高、周期长的问题。

值得一提的是,合合信息文字识别训练平台内置了五大预训练算法模型,包括信息抽取(锚点)、信息抽取(K-V)、信息抽取(NLP)、信息抽取(长文本)以及分类识别,能够灵活应对固定版式、半固定版式、不固定版式的单页与多页文档的信息抽取与分类需求。这一设计不仅提升了识别的准确性,还降低了模型训练的难度。

此外,平台还具备数据回流功能,能够通过搭建数据回流交换平台连接业务平台与文字识别训练平台,将实际业务中产生的标注信息数据进行整合、统计后回流至训练平台,从而不断提升模型的识别准确率,实现真正的智能化和终身自主学习。

对于数据标注这一环节,合合信息文字识别训练平台也进行了大胆的创新。通过系统自动标注数据,人工仅需进行复核,极大地降低了数据标注的耗时与人力成本。同时,当训练数据不足时,平台还能基于模板和语料知识库自动生成海量虚拟训练数据,从而快速扩充训练集,提升模型训练效果。

据了解,某某外资行基于合合信息文字识别训练平台,实现了对报关单、进账单、海外发票、订单合同、运输单等固定与不固定版式的贸易凭证的智能分类、信息抽取、审核。基于AI技术改造审核流程,该行实现了跨境业务的合规审核自动化,业务处理时间较原来缩减了90%,在大批量处理时效果尤为明显,录入错误也明显减少,整体业务处理效率得到极大提升。

（文章为作者独立观点，不代表贝塔网立场）

资讯新闻互联网网络科技研究数据