典型文献
危化品领域专业分词库构建与应用研究
文献摘要:
现有通用分词库无法在危化品领域专业文本中取得良好的分词效果,因此采用结合机器学习分词结果与人工筛选整理的方式提取专业语料,设计包含词表、词条及词条属性的分词库分级架构,提出基于标识树结构的词库特征向量索引方法,形成危化品领域专业分词库,并将该分词库作为自定义词典应用于分词模型中进行验证.结果表明,与通用分词库相比,专业分词库能够提升危化品领域文本分词准确率,有助于对危化品领域文档数据进行深化分析.
文献关键词:
危化品;分词库;机器学习;自然语言处理;文本挖掘
中图分类号:
作者姓名:
蒋瀚
作者机构:
中石化安全工程研究院有限公司,山东青岛 266104
文献出处:
引用格式:
[1]蒋瀚-.危化品领域专业分词库构建与应用研究)[J].安全、健康和环境,2022(06):66-70
A类:
专业文本
B类:
危化品,分词库,词库构建,构建与应用,语料,词表,词条,树结构,库特,特征向量,索引,自定义词,词典,文本分词,文档,深化分析,自然语言处理,文本挖掘
AB值:
0.267638
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。