自然语言处理是人工智能' target='_blank'>人工智能发展最早,且率先商业化的技术,是未来人机交互的趋势,现在很多智能产品都离不开自然语言处理。近几年,随着深度学习技术的不断突破,自然语言处理技术也趋于成熟发展,广泛应用于多个行业领域。
自然语言处理应用场景丰富,一方面主要应用于智能设备上,包括移动设备、智能车载、智能家居等,改变了传统的人机交互模式;另一方面针对垂直领域需求应用,智能语音机器人' target='_blank'>语音机器人的出现,提高了人工效率,除了传统的呼叫中心对话系统外,还应用于金融、教育、保险等行业。
自然语言处理的市场仍然在持续发展,据Tractica报告显示,到2025年,自然语言处理领域的软硬件及服务总市场规模将达233亿美金;我国人工智能市场增长中,自然语言处理也将居于重要地位。
1、自然语言处理的定义
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。简单说,它就是为了让机器能够既理解人类的自然语言文本意义,也能以自然语言文本来表达给定的意图、思想等,实现人机之间的通信。
2、自然语言处理的基础结构
分词
词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。
在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。其技术可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。
词性标注
词性标注(part-of-speechtagging),又称为词类标注或者简称标注,是指为确定每个词是名词、动词、形容词或者其他词性的过程。它是很多NLP任务的预处理步骤,如句法分析预处理、词汇获取预处理和信息抽取预处理。
在汉语中,大多数词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说单纯选取最高频词性,就能实现80%准确率的中文词性标注程序。
命名实体识别
命名实体识别(NamedEntityRecognition,简称NER),又称作专名识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
命名实体识别通常包括两部分:实体边界识别和确定实体类别(人名、地名、机构名或其他)。它是信息提取、问答系统、句法分析、机器翻译、面向SemanticWeb的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。
3、自然语言处理的应用场景
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是自然语言处理最为人知的场景。
整个机器翻译的过程可以分为原文分析、原文译文转换和译文生成3个阶段。根据输入的媒介不同,又可以细分为文本翻译、语言翻译等。如今国内外都有一些比较成熟的机器翻译产品,比如Google翻译、百度翻译等等。
信息提取
信息抽取是从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。在很多搜索引擎的公司,都会采集各种数据,然后进行信息的提取分析。将电子邮件程序自动添加实践到日历中,就涉及信息提取技术了。
智能问答系统
智能问答系统以一问一答形式,精确的定位网站用户所需要的提问知识,通过与网站用户进行交互,为网站用户提供个性化的信息服务。需要对自然语言查询语句进行某种程度的语义分析,然后到知识库中查找适合的答案并通过一个排序机制找出最佳的答案。
智能问答系统是将积累的无序语料信息,进行有序和科学的整理,并建立基于知识的分类模型;这些分类模型可以节约人力资源,提高信息处理的自动性,降低网站运行成本。
当然,自然语言处理的应用场景还不仅如此,随着技术的成熟,自然语言处理还会应用于更多的场景之中。
扩展:【悟空揭秘】电话机器人' target='_blank'>电话机器人的「识别」秘密1——语音识别