发布日期:
2022-09-26
文章字数:
573
阅读时长:
2 分
阅读次数:
1. 绪论
1.1 自然语言处理的内容
1.1.1 自然语言处理的研究内容
- 机器翻译(machine translation,MT)
- 自动文摘(automatic summarizing或automatic abstracting):将原文档的主要i内容和含义自动归纳、提炼出来,形成摘要或者缩写。
- 信息检索(infomation retrieval):从海量文档中找到符合用户需要的相关文档。面向两种或两种以上语言的信息检索叫做跨语言信息检索(cross-language/trans-language information retrieval)
- 文档分类(document categorization/classfication):对大量文档按照一定的分类标准进行自动归类。情感分类(sentiment classification)或称文本倾向性识别(text orientation identification)称为本领域研究的热点,情感分类已经称为支撑舆情分析(public opinion analysis)的基本技术。
- 问答系统(question-answering system):问答技术有时与语音技术和多模态输入、输出技术,以及人-机交互技术等相结合,构成人-机对话系统(human-computer dialogue system)。
- 信息过滤(information filtering)
- 信息抽取(information extraction):从文本中抽取特定的时间(event)或事实信息,有时候又称为事件抽取(event extraction)。信息抽取与信息检索不同,信息抽取通常以信息检索的输出作为输入,而信息抽取技术又可以用来提高信息检索系统的性能。
- 文本挖掘(text mining):又称为数据挖掘(data mining),是指从文本中获取高质量信息的过程。一般涉及文本分类、文本聚类(text clustering)、概念或实体抽取(concept/entity extraction)、粒度分析、情感分析(sentiment analysis)、自动文摘和实体关系建模(entity relation modeling)等多种技术。
- 舆情分析(public opinion analysis)
- 隐喻计算(metaphorical computation)
- 文字编辑和自动校对(automatic proofreading)
- 作文自动评分
- 光读字符识别(optical character recognition,OCR)
- 语音识别(speech recognition)
- 文语转换(text-to-speech conversion)
- 说话人识别/认证/验证
1.1.2 自然语言处理涉及的几个层次
1.2 自然语言处理的基本方法及发展
1.2.1 自然语言处理的基本方法
- 基于规则
- 基于统计
2 预备知识