《统计自然语言处理》笔记


1. 绪论

1.1 自然语言处理的内容

1.1.1 自然语言处理的研究内容

  1. 机器翻译(machine translation,MT)
  2. 自动文摘(automatic summarizing或automatic abstracting):将原文档的主要i内容和含义自动归纳、提炼出来,形成摘要或者缩写。
  3. 信息检索(infomation retrieval):从海量文档中找到符合用户需要的相关文档。面向两种或两种以上语言的信息检索叫做跨语言信息检索(cross-language/trans-language information retrieval)
  4. 文档分类(document categorization/classfication):对大量文档按照一定的分类标准进行自动归类。情感分类(sentiment classification)或称文本倾向性识别(text orientation identification)称为本领域研究的热点,情感分类已经称为支撑舆情分析(public opinion analysis)的基本技术。
  5. 问答系统(question-answering system):问答技术有时与语音技术和多模态输入、输出技术,以及人-机交互技术等相结合,构成人-机对话系统(human-computer dialogue system)。
  6. 信息过滤(information filtering)
  7. 信息抽取(information extraction):从文本中抽取特定的时间(event)或事实信息,有时候又称为事件抽取(event extraction)。信息抽取与信息检索不同,信息抽取通常以信息检索的输出作为输入,而信息抽取技术又可以用来提高信息检索系统的性能。
  8. 文本挖掘(text mining):又称为数据挖掘(data mining),是指从文本中获取高质量信息的过程。一般涉及文本分类、文本聚类(text clustering)、概念或实体抽取(concept/entity extraction)、粒度分析、情感分析(sentiment analysis)、自动文摘和实体关系建模(entity relation modeling)等多种技术。
  9. 舆情分析(public opinion analysis)
  10. 隐喻计算(metaphorical computation)
  11. 文字编辑和自动校对(automatic proofreading)
  12. 作文自动评分
  13. 光读字符识别(optical character recognition,OCR)
  14. 语音识别(speech recognition)
  15. 文语转换(text-to-speech conversion)
  16. 说话人识别/认证/验证

1.1.2 自然语言处理涉及的几个层次

  • 形态学
  • 语法学
  • 语义学
  • 语用学

1.2 自然语言处理的基本方法及发展

1.2.1 自然语言处理的基本方法

  1. 基于规则
  2. 基于统计

2 预备知识


文章作者: fdChen
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 fdChen !
评论
  目录
加载中...