客服语义实体分析平台是融合客服数据接入、数据转换、数据存储、数据分析等功能的平台;其主要能力包含了自然语义分析能力、数据迁移、数据清洗、大数据存储、分布式数据计算能力,通过公司研发的DataExchange、DataHouse、UGraph三款数据产品的强力支持,打造客服大数据从治理到存储、计算的生态并结合tenserflow算法引擎与DataHouse整合后支持分布式模型训练的能力,可以更好的服务于客服语义分析等,实现客服工单分类、潜客挖掘、智能客服、精准营销等业务场景的语义分析支撑。
技术特点如下:
1、结构化非结构化统一处理
2、数据采集清洗同步
3、分布式内存处理
4、多种数据灾备方式
5、高并发、大吞吐、高可靠
6、数据实时处理不落地
7、100%兼容现有Hadoop环境和传统数据库环境
核心功能如下:
1、语义模型管理
语义模型管理的目标是,尽量降低成熟语义模型开发工作量,降低模型开发过程中的交易成本,平滑学习曲线。助推语义能力开发技术的推广。
其中,模型从需求采集、语料搜集、标签/标注、模型网络搭建设计、模型训练、验证、发布可形成一个流水线管理模式。
(1)样本管理
样本管理负责采集、维护、管理领域类标签、标注完成的样本集。提供按标签体系,按项目,按场景等多维管理功能。
(2)模型管理
模型训练管理负责承载既有算法模板管理复用,算法模型参数调优,多算法模型对比等功能。同时承担模型存档、维护等功能。
(3)模型指标验证
验证、测试管理承担各类模型有效性验证,各参数指标测试等功能,同时提供模拟各落地场景测试环境的能力。提供功能性测试和非功能性测试环境管理。
2、数据汇聚与流式处理
平台利用Dataexchange数据流水线的方式对数据进行实时及批量抽取数据、清洗、转换、过滤等流式处理,支持文件、数据库、数仓、网络、日志、大数据平台等几乎所有数据源及数据格式。
(1)操作简便:
一键部署,开箱即用,无需专业技术背景,简单易学,普通业务人员即可操作,降低使用及维护成本。
(2)多种数据采集适配接口:
Oracle、SQLServer、MySQL、DB2、PostgreSQL数据库适配器;Oracle日志采集适配器;Hadoop/HDFS/HBase/Kafka/Spark、MongoDB、Redis、TCP/UDP等多种采集适配器。
(3)更好的兼容性,开发门槛低:
100%兼容现有Hadoop环境和传统数据库环境,无需用户在流计算框架上进行编程开发工作,提供了SQL语义的流数据分析功能,降低了使用门槛。
高并发、大吞吐、高可靠
数据传输可按照优先级任务调度、支持定时批量、实时批量数据传输,具有大吞吐、高并发、集群化、高可靠等特点。
(4)数据实时处理不落地:
数据处理过程不落地,降低存储开销数据实时计算,实时处理。
3、数据汇聚与流式处理
可完成所有的数据采集、传输、复制、预处理、融合和内存计算功能;采集来自各种数据库、消息系统、网站、移动设备、物联网等数据;内置计算平台对采集的数据进行实时清洗和计算分析;分析后的数据结果可实时呈现在用户分析中心。
4、数据对象分析
针对对象、属性和方法利用关系流对其中的关联关系进行配置。对象做为属性与方法的载体,属性与方法进行关联,同时继承面向对象的思想,属性也可以关联其他对象,通过关系流配置映射业务场景,可以根据不同的业务场景,定义不同的分析对象。
(1)对象管理
对象管理是以抽象的概念来支持业务的定义,以库的形式来进行承载,每一个对象都是一个业务的转化,将业务以对象的概念进行抽象的实现;同时对象也是属性与方法的载体,以对象实体表的身份存在。
(2)属性管理
属性以独立的形式存在,可以通过配置与对象和方法进行组合,属性代表业务场景的一个元数据,属性通过关联方法提取的内容做为元数组的值。
(3)方法管理
方法实际指的就是提取数据的功能实现,以库的形式存在,包含算法和功能方法两部分,算法目前是指面向NLP领域的算法,方法主要是数据查询、处理功能的方法;方法可以独立使用也可以与对象、属性进行关联。