书籍详情
《汉语自动分词的关键问题与技术研究》[27M]百度网盘|亲测有效|pdf下载
  • 汉语自动分词的关键问题与技术研究

  • 出版社:科技生活自营旗舰店
  • 出版时间:2020-12
  • 热度:10241
  • 上架时间:2024-06-30 09:08:33
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

内容简介

  《汉语自动分词的关键问题与技术研究》共包含19章。第1章是绪论,首先简要介绍了汉语自动分词的研究背景及意义,然后对汉语自动分词的研究历程进行了简要回顾,接着较详细论述了汉语自动分词实现过程中要解决的3个关键问题。第2章是汉语分词方法和技术概述,首先简要介绍了常见的汉语分词方法和技术,然后对汉语分词评测、性能评价指标、系统衡量标准进行了论述,接着介绍了汉语分词的一些已有研究,对有一定影响的汉语自动分词系统进行了概述。后面的17章依据研究内容的不同可分为5个部分,依次是:首部分——汉语自动分词的关键问题及解决方案;第二部分——基于词典的汉语分词技术;第三部分——基于字的词位标注汉语分词技术;第四部分——基于深度神经网络的汉语分词技术;第五部分——汉语词法分析一体化中的汉语分词。
  《汉语自动分词的关键问题与技术研究》最后是4个附录,附录1是信息处理用现代汉语分词规范(GB/T 13715-1992),附录2是现代汉语语料库文本分词规范(Ver3.0),附录3是词位标注汉语分词研究中用到的部分特征模板集,附录4是三位一体字标注汉语词法分析中词法信息标记。

作者简介

  于江德,博士,安阳师范学院计算机与信息工程学院教授,中国计算机学会会员,中国中文信息学会会员,中国人工智能学会会员,河南省高等学校青年骨干教师,河南省师德先进个人。主要研究方向为自然语言处理、中文信息处理、机器学习等。在中文核心期刊和国内外学术会议上发表学术论文40余篇,其中被SCI、EI收录16篇。

内页插图

目录

第1章 绪论
1.1 汉语自动分词的研究背景及意义
1.1.1 汉语的特点
1.1.2 汉语自动分词的概念
1.1.3 汉语分词的背景及意义
1.1.4 汉语分词的应用领域
1.2 汉语分词的研究历程
1.3 汉语分词的关键问题
1.3.1 配套语言资源建设
1.3.2 切分歧义问题
1.3.3 未登录词识别问题
1.4 小结
参考文献

第2章 汉语分词方法和技术概述
2.1 常见的汉语分词方法和技术
2.1.1 基于词典的汉语分词方法
2.1.2 基于统计的汉语分词方法
2.1.3 词典和统计相结合的汉语分词方法
2.1.4 基于字标注的汉语分词方法
2.1.5 基于深度神经网络的汉语分词方法
2.2 汉语分词评测、性能评价指标和系统衡量标准
2.2.1 国际国内汉语分词评测简介
2.2.2 汉语分词性能评价指标
2.2.3 汉语分词系统衡量标准
2.3 汉语分词的已有研究
2.3.1 已有的汉语分词系统
2.3.2 汉语分词的现有水平
2.4 小结
参考文献

第3章 汉语分词语言资源建设
3.1 概述
3.2 汉语分词标准建设
3.2.1 国家标准简介
3.2.2 北京大学分词标准简介
3.2.3 《现代汉语语料库文本分词规范》(Ver3.0)简介
3.3 汉语分词词典建设
3.3.1 汉语分词通用词典建设
3.3.2 汉语分词专用词典建设
3.3.3 汉语语言知识库建设
3.3.4 知网简介
3.3.5 《同义词词林》简介
3.4 汉语分词语料库建设
3.5 汉语字频词频计量数据建设
3.5.1 汉语基本字频词频统计阶段
3.5.2 汉语常用字词统计阶段
3.5.3 利用计算机进行的字频词频统计阶段
3.5.4 基于统计的字频词频研究阶段
3.5.5 汉语计量语言学的初步研究阶段
3.6 小结
参考文献
……

第4章 汉语分词中歧义消解研究
第5章 汉语分词中未登录词识别研究
第6章 基于词典的汉语分词
第7章 面向汉语分词的电子词典构建与维护
第8章 基于字的词位标注汉语分词
第9章 基于朴素贝叶斯分类器的词位标注汉语分词
第10章 基于隐马尔可夫模型的词位标注汉语分词
第11章 基于条件随机场的词位标注汉语分词
第12章 基于最大熵模型的词位标注汉语分词
第13章 词位标注汉语分词特征模板定量研究
第14章 一种基于字和子串联合标注的汉语分词方法
第15章 基于深度神经网络的汉语分词技术
第16章 基于感知机模型的汉语分词研究
第17章 基于Bi-LSTM的汉语分词研究
第18章 一体化汉语词法分析中的汉语分词
第19章 基于隐马尔可夫模型的三位一体字标注汉语词法分析系统

附录

前言/序言

  词是自然语言中最小的能够独立运用的有意义的构成单位。汉语书写时以字为基本书写单位,词语之间不存在分隔标记,汉语自动分词是借助计算机将中文文本中连续的字序列按照一定的规范切分为词语序列的过程,是汉语词法分析的3项子任务之一,也是中文信息处理领域的一项基础性研究课题。汉语自动分词不仅是句法分析、语义分析、篇章理解等深层中文信息处理的基础,也是机器翻译、自动问答系统、信息检索和信息抽取等应用的关键环节。
  汉语分词作为中文信息处理的基础与关键环节,自20世纪80年代提出至今,一直深受众多专家学者的青睐,近40年来,国内外学者对汉语分词进行了大量研究,研究内容不断深入扩展,所采用的方法技术持续创新发展。本书是笔者及所在科研小组10多年来在汉语分词上思考与探索、研究与实践工作的总结,主要涉及进行汉语自动分词需要解决的关键问题及解决方案、汉语自动分词主要的技术方法等。书中围绕汉语自动分词的关键问题与技术方法这一研究主题,对汉语分词中语言资源建设、歧义消解、未登录词识别这3个关键问题及解决方案进行了论述;对基于词典的汉语分词技术、基于字的词位标注汉语分词技术、基于深度神经网络的汉语分词技术、汉语词法分析一体化中的汉语分词技术进行了深入研究与实验分析,并在此基础上开发相应的汉语分词系统、三位一体字标注汉语词法分析系统等原型系统。
  本书共包含19章。第1章是绪论,首先简要介绍了汉语自动分词的研究背景及意义,然后对汉语自动分词的研究历程进行了简要回顾,接着较详细论述了汉语自动分词实现过程中要解决的3个关键问题。第2章是汉语分词方法和技术概述,首先简要介绍了常见的汉语分词方法和技术,然后对汉语分词评测、性能评价指标、系统衡量标准进行了论述,接着介绍了汉语分词的一些已有研究,对有一定影响的汉语自动分词系统进行了概述。后面的17章依据研究内容的不同可分为5个部分,依次是:第一部分——汉语自动分词的关键问题及解决方案;第二部分——基于词典的汉语分词技术;第三部分——基于字的词位标注汉语分词技术;第四部分——基于深度神经网络的汉语分词技术;第五部分——汉语词法分析一体化中的汉语分词。本书最后是4个附录,附录1是信息处理用现代汉语分词规范(GB/T 13715-1992),附录2是现代汉语语料库文本分词规范(Ver3.0),附录3是词位标注汉语分词研究中用到的部分特征模板集,附录4是三位一体字标注汉语词法分析中词法信息标记。
  第一部分——汉语自动分词的关键问题及解决方案,包括第3章至第5章。第3章是汉语分词语言资源建设,首先对汉语分词语言资源建设进行了概述,然后依次对汉语分词标准建设、汉语分词通用词典和专用词典建设、汉语分词语料库建设和汉语字频词频计量数据建设进行了较详细的论述。第4章是汉语分词中歧义消解研究,针对汉语分词中切分歧义消解问题,提出了一种基于最大熵模型的切分歧义消解方法。对于交集型歧义字段,采用6种特征模板;对于覆盖型歧义字段,采用3种特征模板。第5章是汉语分词中未登录词识别研究,探讨了未登录词之命名实体识别,提出一种基于类语言模型的汉语命名实体自动识别方法,将分词和命名实体识别有机地结合起来,并且在汉语组织机构名称识别的类语言模型中采用基于字的模型和基于词的模型,使得嵌套有人名、地名等实体的机构名称能够较好地识别出来。
  第二部分——基于词典的汉语分词技术,包括第6章和第7章。第6章是基于词典的汉语分词,首先对基于词典的汉语分词进行简要概述,其次分别对正向最大匹配汉语分词、逆向最大匹配汉语分词的基本思想、算法流程、核心算法代码和相应的汉语分词系统进行详细介绍,最后又简要介绍了正向逆向最大匹配汉语分词一体化系统。第7章是面向汉语分词的电子词典构建与维护,电子词典是在汉语分词系统中包含信息量最大的一个基础部件。电子词典的质量和容量直接影响汉语分词系统的质量和应用范围。开发了一套面向汉语分词的电子词典构建与维护系统,使用该系统的用户可以方便快捷地构建和维护面向汉语分词的电子词典。
  第三部分——基于字的词位标注汉语分词技术,包括第8章至第14章。第8章是基于字的词位标注汉语分词,首先对词位标注汉语分词方法进行简要概述,然后介绍基于字的词位标注汉语分词方法的相关研究,接着论述了该方法的基本思想和本质,阐述了样本窗口和特征模板在词位标注汉语分词中的地位与作用,并给出了研究词位标注汉语分词常用的训练语料和测试语料。第9章至第12章依次对基于朴素贝叶斯分类器、隐马尔可夫模型、条件随机场、最大熵模型等统计语言模型的词位标注汉语分词建模原理、建模关键、实验结果、实现的原型系统进行论述。第13章是词位标注汉语分词特征模板定量研究,从多个角度定量分析了词位标注汉语分词中的特征模板。第14章是一种基于字和子串联合标注的汉语分词方法,针对一些领域文本中含有较多的英文词汇、缩写、数字等非汉字子串,提出了一种基于字和子串联合标注的汉语分词方法。是字标注汉语分词技术在特定领域的扩展应用。