AI如何与票据交易场景结合

   日期:2024-12-26    作者:zbzyf 移动:http://mip.riyuangf.com/mobile/quote/56192.html

本文基于之前做过的票据交易服务平台,思考AI技术如何与票据交易场景相结合。应用OCR和NLP技术,可以辅助票据录入和票据签收,从而提高企业的工作效率。本文按以下几个部分作说明

这是我一年前参与的从0开始设计的项目,当时没有在业务场景中应用AI技术。但现在回顾,还是有不少场景可以通过AI技术来提高效率的。下面内容是对当时业务作的简单回顾

一些概念

  • 将票据持有到期,由银行托收后回款,但时间较长(通常3月~12月);
  • 把票据贴现给银行,获得现金,但贴现流程繁琐;
  • 质押给金融机构,获得现金,需办理质押流程;
  • 转让给第三方(企业,获得现金。

3.票据中介,一般指通过买断票据,再贴现给银行,赚取差价的企业。这类企业的优势之一在于在收票端有大量的票源,出票端对接多家合作银行,可以找到最低的价格来贴现。

票据作为支付或融资手段,关于票据或其衍生品的金融产品很多。票据业务的知识广泛,本文只作最简单的说明,票据知识入门推荐看 什么是票据?终于有人说明白了

用户画像

平台主要服务的用户是票据中介和具备票据流转操作需求的企业,此类客户有高频交易的特性。此类客户的业务诉求,简单概要为
1.能高效率地获取精准的票源客户
2.资金交易安全
3.交易及时,实现秒打款(从有交易意向到钱票交换完成,通常在30分钟以内是可接受范围

产品介绍

我们的票据服务平台主要分为三个技术核心系统
1.票据撮合系统:为持有票据的中小企业获取贴现渠道,让收票机构高效率低成本的获取精准客户,解决市场信息匮乏和不对称等问题。
2.票据交易系统:让企业完成在线“钱票交换”,即资金、票据的安全流转。包括资金的收付、票据的转让和签收。
3.SaaS票据审批管理系统:基于SaaS结构的业务审批系统,包括企业的收票、出票业务审批、库存管理、报价管理、统计报表管理等

业务主流程及解决方案

2)业务发起
业务发起根据发起角色,发起方式,不同会影响后续的交易和审批流程。但发起的表单的内容较为固定,包含信息有:票据信息、票据报价、平台费用。此部分在业务层面上,是有提高效率的需求的。
当时的解决方案:人工录入票据信息,在创建卖票时从“票据库”选中相关票据,对缺少的信息作人手补充。

3)业务审批
业务审批部分,企业可根据内部审批政策来自定义审批流程,一般包含运营审核、财务审核,运营通常关注票据及价格信息,财务关注票据、价格、费用、收款人/付款人信息等。

4)钱票交换
此部分操作主要在票据交易系统完成,系统间作信息的交换,审批系统会收到交易对手方的相关操作信息,如操作状态和结果等。

5)记账
记账分为收票记账和出票记账。对票据信息进行完善,并对票据库存作更新。
当时的解决方案:登录网银查看,人手检查并在系统中记录。未能自动记账的原因主要是票据签收中有线下维护的信息,为了保证交易时效把此部分放在交易后维护。

从业务规则是否简单/固定、业务流程的耗时和频率、出错率、容错率等维度出发,得出以下适用结合AI技术的业务场景。

场景一:票据录入
1.需求背景
在票据交易的卖票业务场景下,企业询价通常需要先录入票据,所以票据录入是企业用户询价的第一步,是用户的高频需求。票据的关键信息众多。任何一个关键信息都可能会影响交易。如果要添加多张票据,一个个添加是很低效率的行为,且不能保证准确性,还需人工一个个校验。

2.使用场景
如果在我们的平台交易的票据,信息就已经在签收、收票记账时维护好了,不需要再录入。需要录入票据的场景有
1)从其他线上平台收回来的票据,财务登录企业网银将票据的正背面截图保存下来,共享给运营部门,然后在在PC端录入到票据库中;
2)还有一种场景是运营或业务员在移动端录入票据。

综合来说,识别的图像主要以截图图片为主,识别的文本有中文、数字、金额符号。操作平台为:移动端和PC端。

上述描述的业务场景,可以使用OCR技术辅助,将票据录入到系统,并对票据的正面和背书信息过行分析。

1.卖票询价-票据录入

2.票据签收与记账

文字识别,俗称OCR光学字符识别(Optical Character Recognition)是对输入图像进行分析识别处理,获取图像中文字信息的过程。

OCR主要分为两类

  • 印刷体、手写体识别
  • 复杂场景文字识别

1.OCR技术流程

2.OCR识别技术

字符识别技术从字符模板匹配,到以特征提取为主的识别模型(SVM分类器,再到基于深度学习的CNN字符识别、最后向端到端的方向发展。

字符模板匹配–>传统机器学习–>深度学习CNN字符识别–>端到端系统

字符模板匹配
比如识别只有数字的场景,需要首先定义10个数学模板(0~9,然后用模板匹配图像上的字符,这种策略虽然简单但相当有效,且只需要维护好模板库就可以了。但这个方法只限于一些很简单的场景,对于稍微复杂的场景,并不太实用。显然不适合我们文中的需求

传统机器学习方法(基于特征提取
传统机器学习方法做字符识别的步骤为:特征提取—>模型选择—>数据训练—>语言模型—>输出识别结果
首先需要对原始数据进行处理,抽象出关键特征(字符的结构特征:字符的端点、交叉点、圈的个数、横线竖线条数等,将关键特征作为算法模型的输入 ; 使用分类器(如SVM)作为OCR识别模型; 用数据对模型进行训练; 为了减少识别错误率,还可以将识别问题跟语言模型结合起来,通过动态规划的方法给出最优的识别结果。

此类方法存在的问题

  • 特征获取困难,且不一定绝对正确。另外,文字的位移,笔画的粗细,断笔,粘连,旋转等因素的影响,也极大影响特征提取的难度。
  • 单一的特征在字体变化、模糊或背景干扰时,泛化能力迅速下降。
  • 过度依赖字符切分的结果,字符切分准确率影响最终识别准确率。(长度为L的文字行,其识别的平均准确率=(字符切分准确率*单字符识别准确率)的L次方。
  • 在复杂场景的文字识别方面,表现不好。

2)文字检测的算法
基于深度学习的文本检测方法使用效果更加鲁棒的高层语义特征,利用更多的数据去拟合更复杂、泛化能力更强的模型。要执行文字检测任务现在主流算法是基于CNN的,例如

  • 基于回归的YOLO、SSD,它的特点是:精度较低,但速度较快。
  • 基于Faster RCNN的方法,它的特点是:精度较高,但速度较慢。

CNN的网络结构
1.卷积层提取图片初步特征
2.池化层提取图片主要特征
3.全连接层将各部分特征汇总
4.产生分类器,进行预测识别

使用CNN的好处
1.对原始图像自动提取特征,免除传统模型的人工提取特征这一比较困难的核心部分
2.比传统模型有更高的精度
3.比传统模型更好的泛化能力

该任务根据是否有先验信息和自身的复杂性又可以划分为:受控场景文字检测、非受控场景的文字检测。
1.受控场景的文字检测,如身份证识别、银行卡识别、发票识别等场景。
本文中讨论的票据识别就属于这种,它的正面的先验信息有
a.大部分银行的电票的正面是长宽度固定的;b.字体及大小一致;c.文本的相对位置是较为固定;d.存在固定文字。e.电票的背面的长度是跟随着处理的业务,业务类型是可以穷举出来的,也可以转化成结构化的信息。
主要算法:Faster RCNN(是一种用于任意方向文本的端到端文本检测方法,能够有效解决文字尺度不一、形态各异,和检测器对尺度过于敏感等问题,大幅提高了检测环节的精度。)

2.非受控场景的文字检测,适用为复杂的场景图像文本检测任务,例如广告文字这类背景复杂的随意文字。
主要算法:CTPN、FSTN、RRPN、DMPNet、EAST、SegLink、WordSup

  • 简单的CNN+softmax网络结构,可以识别不定长的序列,适合简单的文字识别。
  • 基于CTC训练RNN的方法:CRNN算法(CNN+Bi-LSTM+CTC)是目前较为流行的图文识别模型,可识别较长的文本序列
  • 基于注力Attention model+CNN+RNN

–深度学习OCR方法需要考虑

  • 需要大量的训练数据,那么如果我们没有办法得到大量训练数据时,这种方法很可能没有效果。
  • 神经网络的训练需要花费大量的时间
  • 需要用到的硬件资源一般都比较多

端到端系统
同时完成文字检测和文字识别任务的端到端的系统,论文中的到的算法比如:STN-OCR、FOTS等

关于各类算法,参考了以下文章
场景文字识别(OCR)调研
OCR技术浅析
美团-深度学习在OCR中的应用
腾讯-OCR检测与识别技术

3.OCR算法的指标

衡量OCR系统的好坏有两部分内容
1)是否成功地圈出了文字
2)对于圈出来的文字,有没有成功识别

常用量化指标有准确率召回率F-值识别速度
准确率=正确识别的文字数量占所有被识别字符的比例。
召回率=正确识别的文字数量占所有字符的比例。
F-值= 2 X 召回率X 准确率/(召回率+准确率,此值越大越好

识别异常的情况为:识别错误字符、漏识别字符、识别多余字符。OCR技术识别结果要结合人工确认,允许用户对识别结果进行修改。

使用OCR技术进行字符识别有如下几种策略

  • 内部AI自研团队
  • 使用开源OCR引擎
  • 对接OCR开放平台获得技术服务

要选择采用哪种策略或方法,首先需要从构成OCR产品的三大要素:算法、数据、算力来考虑。

1.算法:关于技术实现的各类算法在技术预研中已经有描述。

2.云服务器:AI模型的训练对服务器的运算能力有较高要求,GPU服务器比一般云服务器更适合深度学习项目,企业通常可以采用租用GPU云服务器或购买GPU服务主机进行模型训练。

4.深度学习开源框架:文字识别技术研究已久,从传统OCR到深度学习OCR,有少成成熟的OCR技术和产品产生。比如Tesseract、OpenCV、Tensorflow

  • Google的Tesseract OCR引擎,最新版本能支持深度学习OCR,它的特点是开源、免费、支持多语言多平台,可以快速搭建图文识别系统,可以读取各种格式的图像并将它们转化成超60种语言的文本。如果应用是要识别英文或数字的,可以考虑使用Tesseract OCR; 如果是识别中文,效果并不理想,需要自己去改善,开发符合自身需求的OCR引擎,但要达到高识别率,后期微调/优化还是要下很多功夫。
  • OpenCV,是一个跨平台的开源计算机视觉库,可以运行在Linux、Windows和Mac OS操作系统上,它轻量级而且高效,实现了图像处理和计算机视觉方面的很多通用算法。OpenCV模块支持Caffe、TensorFlow、Torch、PyTorch等深度学习框架应用于OCR领域,可用于检测、识别自然场景图像中的文本。OpenCV在数据增强方面价值尤其突出,通过合成数据集,训练算法,提高OCR识别率。
  • Tensorflow,该框架由Google研发开源,是目前最火的深度学习框架之一。尤其是对图像处理有很好的效果,基于其深度学习库,可以很好的进行OCR文字识别训练。基于深度学习库的使用,可以设计出更适应业务需求的网络结构,更好的提高OCR识别效率。

如果要使用自研团队来实现算法模型,就需要了解深度学习OCR的开源框架,根据业务选择合适的开发平台,设计网络结构。

5.OCR开放平台:行业知名的OCR技术和产品,如百度OCR、腾讯优图、阿里云通用文字识别、京东、有道、ABBYY fineReader等。衡量OCR系统核心指标包括:准确率、识别速度、接口稳定性、QPS、用户界面的友好性、易用性及可行性等。
是否对接开放平台,除了考虑以上指标外,还需要考虑到此方法的两个问题
1)成本。要关注调用服务的价格。一般平台都会有免费的调用量。
2)企业对AI产品的控制程度不足。我们想要提升识别准确率,不可以从OCR识别上做改进,因为平台作为技术提供方,toB企业直接做改善,只能做图像的预处理和识别后处理来提高准确率。

以下是几家平台的指标对比图

公司/对比百度-通用文字识别腾讯-通用印刷体识别阿里云-通用文字识别有道-通用OCR识别准确率印刷体识别准确率99%。复杂场景的手写体识别率准确率比较低。印刷体的平均准确率可达90%以上,手写体的识别平均准确率高达85%以上。普通版,对临近边界、笔画多字体、中英混合的识别效果不理想,高精版准确率可达95%以上。印刷体文字识别测试效果比较好的。手写体识别效果一般,复杂场景识别不好。服务方式云端Paas服务接口,用户可直接调用API或使用SDK对图片中的文字进行识别。提供离线SDK和本地私有化部署。提供直接调用的全面的 API 接口和SDK 供开发者使用。提供直接调用的 API 接口云端Paas服务接口,支持IOS/Android SDK和API接入。提供离线及本地私有化OCR部署SDK支持语言支持Android、iOS、Java、PHP、Python、C++、C#、Node.js多种编程语言Java、PHP、Python、Node;SDK不支持移动端开发语言IOS/Android识别速度测试接口识别速度1s-2s,同时识别时间会受图片大小、字数多少及网络环境影响。一般在200ms - 1s内,识别时间会受图片大小、字数多少及网络环境影响。使用通用GPU识别,识别速度快,一般200ms测试识别速度比较快,识别时间会受图片大小、字数多少及网络环境影响。QPS免费服务不保证,付费服务10/s通用印刷体识别:20次/秒;高速版:10次/秒;高精度版:10次/秒3600/小时价格通用版:价格0.0025—0.005/次,50000次/天免费调用量;高精度版:价格0.01—0.03/次,500次/天免费调用量;含位置版本:价格0.0047—0.01/次,500次/天免费调用量.通用版:价格0.15元/次—0.06元/次,1000次/月免费调用;高速版:价格0.50元/次—0.20元/次,1000次/月免费调用;高精度版:价格0.50元/次—0.20元/次,1000次/月免费调用.按资源包形式购买,资源包有效期1年。有500次免费调用量。通用版:价格0.238元/次—0.023元/次;高精版:价格0.50元/次—0.10元/次通用版:价格0.0045元/次—0.01元/次,每月没有免费调用量

6.确定方案
通过上述分析,我们要确定最终方案,需要根据OCR技术实现的候选方法/策略出发,一方面需要与客户反复沟通需求,思考清楚业务场景; 另一方面需与开发一起选用适合的技术以及算法,然后综合公司的实际情况决定哪些场景都需要用AI解决,投入多少资源(成本)进行研发。


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号