自然语言处理

自然语言处理(Natural Language Processing,简称NLP) 是人工智能语言学领域的交叉学科。在这此领域中探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类语言

自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

自然语言处理的主要范畴


自然语言处理研究的难点


单词的边界界定

词义的消歧

句法的模糊性

有瑕疵的或不规范的输入

语言行为与计划

当前自然语言处理研究的发展趋势


第一,传统的基于句法-语义规则理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。

第二,统计数学方法越来越受到重视,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识

第三,浅层处理与深层处理并重,统计与规则方法并重,形成混合式的系统。

第四,自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”的倾向。词汇知识库的建造成为了普遍关注的问题。

统计自然语言处理


统计自然语言处理运用了推测学概率统计的方法来解决上述,尤其是针对容易高度模糊的长串句子,当套用实际文法进行分析产生出成千上万个可能性时所引发之难题。处理这些高度模糊句子所采用消歧的方法通常运用到语料库以及马尔可夫模型(Markov models)。统计自然语言处理的技术主要由同样自人工智能下与学习行为相关的子领域:机器学习数据挖掘所演进而成。

自然语言处理 (2009-12-12 00:01:02由192编辑)