在金融行业,只有15%的知识是整理好的,85%的知识隐藏在公告、研报、图片、邮件中。“金融民工”在日常工作中需要花费大量时间找数据、抠数据、填数据和画图表,做这些基础性的重复工作,不但耗时,而且出错率高,还将导致企业的人力成本上升。
现实中,大部分企业还停留在将数据数字化的初始阶段,缺少挖掘数据、可供精细化运营和决策的工具,加上互联网企业的竞争与监管层的压力,让企业处于“内忧外患”的窘境。
得益于云计算、大数据、物联网、人工智能等信息技术的快速发展,数据处理技术近年来在基础理论、算法模型、创新应用、软件支持等方面不断取得突破。亿欧金融专访北京阿博茨科技有限公司联合创始人兼首席产品官余宙,作为金融业的“变革者”,阿博茨是如何利用技术解决金融行业的痛点呢?
al赋能,改进金融数据处理流程阿博茨科技,英文名称为“al、big data、cloud”(abc),也就是人工智能、大数据和云服务,是一家al赋能金融业的科技公司。致力于使用ai技术改进金融数据的产生、提取、分析、沉淀以及呈现,基于自然语言处理、机器视觉技术和知识图谱三项核心技术, 目前已拥有覆盖数据生产和流转、数据呈现和分析与决策支持全业务链条的ai产品矩阵。
余宙告诉亿欧金融,区别于替代别人实施决策的“雇佣兵”模式,阿博茨更像是“军火商”模式,为企业和专业人员提供可以适应各种环境的“武器”,起到辅助决策的作用。
那么,阿博茨如何通过自身的金融大脑,利用al进行数据的处理,做好一个“军火商”呢?
ai的作用,在整个数据处理过程中,主要体现在以下三分层次:
第一层是认知引擎层。从无到有,无论是人还是机器,都需要一个学习过程。
对于一些分析师,需要在长篇幅的研究报告里寻找特定数据,仅翻看理解专业内容这一过程,就需要耗费大量的时间,还不包括分析师因为疲劳而造成的低效和错误。
那么对于机器的话,是如何实现人类数据查询这个环节呢?机器首先要阅读大量的报告,不断地学习,然后才能把这些数据找到,认知层就是把所有非结构化的数据解析出来。机器相当于在做填空题,知道不同数据在什么位置。
第二层是感知层。这是一个从有到精的过程,举个例子,认知层让机器知道水是无色、无味的液体,而感知层让机器知道水可以解渴,在口渴时会想到水。
在解析一张财务报表中,比如说里面出现了1.98,数据中间是一个“.”,这到底是属于分隔符,还属于金融单位呢?都是要结合上下文,并且具备专业的金融知识,才能把这些数据整理得更好,这就是对数据的理解,并不容易。
对于阿博茨这样的初创公司,余宙表示,ai的技术必须专注于非常垂直、非常细分的领域,才有可能做好。
第三层是可视化。这是一个从精到美的过程,当机器找到信息,读懂信息之后,如何把这些信息通过一套能够绘图的引擎进行加工,用更美观的方式呈现给分析师,也是不可或缺的重要一步。
对于一个刚入门的新手分析师,可能对于手中的数据都不知道是什么含义,生成图表又谈何容易?
而阿博茨目前的可视化引擎经过反复的文本训练,已经学习并储存了超过3千万份金融的文档和报告,阅读了超过10亿张的金融图片和信息,几乎已经涵盖了金融数据的所有类型。
量的积累,带来的是质的改变,当分析师丢进去一些数据样本后,引擎可以迅速反应,输出标准化格式的表格、图纸。
三大核心技术,夯实金融领域专家地位既作为阿博茨的核心技术,同时也是人工智能关注的三大信息类型(语音、视觉、语言)之一,自然语言文本是典型的无结构数据,由语言符号(如汉字)序列构成,作为人类使用的最庞杂的符号系统,其理解一般被认为是最难的一项。
数据来源:清华大学nlp实验室刘之远团队
阿博茨通过三步,理解文档内容以及自然语言互动:
1、解析非结构化文本,提取领域知识,分析出结构化信息,相当于上图中“part of speech”与“named entity recognition”这两个过程;
2、汇聚多数据源非结构化信息,理解关联关系,进行结构化分,相当于上图中“co-reference”与“basic dependencies”这两个过程;
3、理解客户自然语言输入,识别用户意图,转换为机器搜索指令;
以上市公司的一份普通增发公告为例,通常有三四百页内容,要实现对文本的完整理解,需要建立更完备的语义结构表示空间,这种更完备的语义表示经常成为上述nlp任务进行结构预测的依据。
阿博茨的另一项核心技术是计算机视觉,是人工智能关注的三大信息类型之二。不同于人脸识别技术,自20世纪60年代开始研究,到现在其技术成熟度已经达到较高的水平;文本的形式具有多样性,内容具有天然的复杂性。
余宙也表示,专业类型文档,很难进行信息的识别和提取,工具化是非常重要的能力
在文字识别技术(ocr)的基础上,阿博茨更进一步,不仅可以从纸质文件、pdf、图片中识别图表,直接生成excel文档,还可以通过理解图表的坐标和数值关联关系,重建excel公式、重新绘制可编辑的图表。
在具备了自然语言理解和机器视觉两项核心技术后,阿博茨利用知识图谱对数据进行存储,将行业经验和知识沉淀,构建领域知识大脑。
核心技术的实现,背后是阿博茨强大的技术团队作支撑。
8 位高管中5 位曾在微软亚洲研究院从事操作系统底层研发工作,公司技术人员占比80%。创始人兼ceo杨永智在2010年创立基于安卓移动端的海豚浏览器,在全球成功俘获2亿多用户,2014年被搜狐畅游并购后良性退出。
卓越的技术能力,让阿博茨一举囊获2019年全球文字识别(ocr)领域最顶级赛事——国际文档分析与识别竞赛(icdar)多项第一,并荣获2019年五道口金融学院主办的“全球金融科技创业大赛10强”荣誉。截至目前,阿博茨拥有20多项全球技术专利,核心ai技术已列入中美禁运清单。
技术能力的最终体现,便是产品。数据处理系统的模块化,使得阿博茨拥有较强的普适性,可以随意进行拼装,适应不同的环境;并且可以快速复制,应用到不同的场景中去。
截至目前,阿博茨在金融领域成为服务专家的基础上,触角已经在不断延伸。大资管领域的券商、基金、资管,泛金融领域的银行、保险、交易所,以及大数据领域的酒店集团、地产、电力、垂直电商都是阿博茨的服务客户。
生态闭环,助力阿博茨持续拓展在拿下港交所的过程中,阿博茨综合运用了自身的技术、产品、销售优势,形成生态闭环。
在港交所全球招标,征集数据处理服务商的这场竞赛中,不乏像微软、google、ibm这样实力强劲的国际选手参与其中。但他们大而不精,只做通用能力,针对具体的金融文档,却无从下手,是由下面具体的供应商来完成;而阿博茨已经过大量的训练和学习,能够从容应对和识别各种不同类型的文档。
在具体的合作阶段,余宙认为,“最差的生意就是只做it的生意,不能服务业务部门,因为服务客户赚的更多。”
所以阿博茨选择与港交所的技术部门——技术创新中心进行前期的对接,最终的服务对象是港交所的业务部门——清算与投资代理人服务部门。
在具体的服务效果层面,在提取公告、处理文本信息的整个过程中,阿博茨可以极大的提高效率,降低80%以上的人工,决策时间从3-5天可以降低到2小时。
标杆式案例,也对上述生态闭环产生积极的正向作用。
未来,阿博茨将继续进行市场拓展,形成行业解决方案,并加大人才补充和研发投入。
在融资方面,自2015年成立至今,阿博茨已获得天使轮、a轮、b轮合计5亿元的融资,投资方包括源码资本、启明创投、sig海纳亚洲等知名投资基金,技术与产品得到资本的青睐。亿欧金融通过观察发现,阿博茨的历次融资平均间隔时间一年左右。
君盛投资合伙人兼副总经理李昊认为,国内企业的精细化运作一定是整体的趋势。而阿博茨用科技赋能b端,与金融业深度耦合,冲着解决企业数据处理的刚需问题,使得“数据化、专业化和国产化”成为自身的标签。
瑞·达利欧在《原则》一书中表示,人应该成为机器的一部分而不是机器。随着科技的发展,人工智能技术的迭代,人类越来越多的重复性工作会被机器人替代,而作为金融业的“变革者”阿博茨,所做的也仅仅是一个开始。
编辑:梁杰民
作者:amos马晓龙来源:亿欧