立足于解决各类影像单据的字符识别,即借助自主研发的AI模型,以AI+OCR的方案解决文字高精度识别,文本内容高质量检测,结构化信息高准确度输出,从而满足文字录入、证照识别、单据识别、合同识别与对比等各类业务场景。
单据分类 | 可对用户上传的各类型单据进行快速分类和归档,并根据分类结果进行结构化处理。
外事证照识别 | 可对各类型公务普通护照、因公赴港澳通行证、因私护照、因私赴港澳通行证(卡片)、各个国家的护照信息识别(160个国家)、外国颁发的商务签证(美国、日本、法国、德国、英国、加拿大、韩国、瑞士、瑞典等10个国家)、工作许可通知、工作许可证、签证/居留许可、高端人才申请函的批复、国际会议批复等证件及纸质文件进行智能识别。
图像预处理 | 采用印章检测、印章消除、角度矫正、降噪等技术进行图像预处理,如歪斜、褶皱和印章干扰票据。
文本检测 | 通过预训练专属行业的文本检测模型,实现高精度的有效文本位置检测。
版面分析 | 对于一些有固定表格的票据,通过版面分析的辅助判断,大大提升结构化识别准确率。
文字识别 | 该产品文字识别模型包括400种常见的印刷体,字符集覆盖GB18030的一二级常用字符和生僻字符集以及大量手写字体样本,且能识别中英文混合的文字。
结构化输出 | 能对版式不一的各类合同、凭证进行分析,以最优的方式进行结构化处理,从而得到较高的结构化准确识别率。
智能自动化场景 | 如自动收取邮件,使用AI技术分析邮件内容,识别出邮件意图,自动发起相应的业务流程,协同人工共同完成端到端的业务流程。
借助AI技术,构建出四大核心模型:
-
ICR识别模型
自主知识产权的模型,利用机器学习算法和开源框架进行深度定制开发,并通过大量文本样本和真实单据样本进行训练,识别快且准确度高,可进行二次开发和再训练。
-
文本监测模型
用于识别单据影像资料的文字,如角度倾斜、变形等,需要使用基于深度学习的方法进行文字检测,文本定位模型的算法和训练数据完全自有,也可进行二次开发和再训练。
-
印章检测/识别/去除模型
单据上有一些印章覆盖在待识别的内容上,需要对印章进行检测,并识别其中的环形文字,再去除,避免意向被覆盖内容识别。
-
二值化模型
二值化就是为了自动生成二值化阈值,将图片像素灰度设置成0和1两个值。以便取得最理想的图像分析效果,从而提升文本识别率和检出率。