= 自然语言处理 = '''自然语言处理'''(Natural Language Processing,简称NLP) 是[[人工智能]]和[[语言学]]领域的交叉学科。在这此领域中探讨如何处理及运用[[自然语言]];自然语言认知则是指让[[电脑]]“懂”[[人类]]的[[语言]]。 自然语言生成系统把[[计算机]][[数据]]转化为自然语言。[[自然语言理解]]系统把自然语言转化为[[计算机程序]]更易于处理的形式。 == 自然语言处理的主要范畴 == ---- * [[文本朗读]](Text to speech)/[[语音合成]](Speech synthesis) * [[语音识别]](Speech recognition) * [[中文自动分词]](Chinese word segmentation) * [[词性标注]](Part-of-speech tagging) * [[句法分析]](Parsing) * [[自然语言生成]](Natural language generation) * [[文本分类]](Text categorization) * [[信息检索]](Information retrieval) * [[信息抽取]](Information extraction) * [[文字校对]](Text-proofing) * [[问答系统]](Question answering) * [[机器翻译]](Machine translation) * [[自动摘要]](Automatic summarization) == 自然语言处理研究的难点 == ---- [[单词]]的边界界定 在[[口语]]中,[[词]]与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的[[上下文]]最为通顺且在[[文法]]上无误的一种最佳组合。在书写上,[[汉语]]也没有词与词之间的边界。 [[词义]]的消歧 许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。 [[句法]]的模糊性 自然语言的文法通常是模棱两可的,针对一个句子通常可能会[[句法分析|分析]](Parse)出多棵[[句法树]](Parse Tree),而我们必须要仰赖语意及前后文的信息才能在其中选择一棵最为适合的句法树。 有瑕疵的或不规范的输入 例如[[语音处理]]时遇到[[外国]][[口音]]或[[地方口音]],或者在[[文本]]的处理中处理[[拼写]],[[语法]]或者[[光学字符识别]](OCR)的错误。 语言行为与计划 句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数[[上下文]]环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。 == 当前自然语言处理研究的发展趋势 == ---- 第一,传统的基于句法-语义[[规则]]的[[理性主义]]方法受到质疑,随着[[语料库]]建设和[[语料库语言学]]的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。 第二,[[统计数学方法]]越来越受到重视,自然语言处理中越来越多地使用[[机器自动学习]]的方法来获取语言[[知识]]。 第三,浅层处理与深层处理并重,统计与规则方法并重,形成混合式的系统。 第四,自然语言处理中越来越重视[[词汇]]的作用,出现了强烈的“[[词汇主义]]”的倾向。[[词汇知识库]]的建造成为了普遍关注的问题。 == 统计自然语言处理 == ---- [[统计自然语言处理]]运用了[[推测学]]、[[概率]]、[[统计]]的方法来解决上述,尤其是针对容易高度模糊的长串[[句子]],当套用实际[[文法]]进行分析产生出成千上万个可能性时所引发之难题。处理这些高度模糊句子所采用[[消歧]]的方法通常运用到[[语料库]]以及[[马尔可夫模型]](Markov models)。统计自然语言处理的技术主要由同样自人工智能下与[[学习行为]]相关的子领域:[[机器学习]]及[[数据挖掘]]所演进而成。