典型文献
基于Word2vec的铁路工程地质语料库构建与词嵌入
文献摘要:
随着铁路工程地质工作的不断开展,相关文本资料大量累积.但由于文本具有非结构化、不直观等特点,难以在信息化进程中得到高效利用.为将文本资料转化为计算机可直接读取的形式,该文面向铁路工程地质领域,收集文献、报告、规范及手册等多种类文本,利用Jiaba函数库,构建4192189词规模的铁路工程地质语料库;利用Word2vec模型,将非结构化文本分词嵌入词向量空间中,转化为具有语义信息的数值.经过降维可视化、聚类和语义相似度计算的检验,结果表明,该文构建的语料库及其所训练的词向量能有效记录语义信息.为铁路工程地质语义分析、实体识别和知识图谱构建等工作提供数据基础.
文献关键词:
铁路;工程地质;NLP;语料库;词向量
中图分类号:
作者姓名:
戴均豪
作者机构:
中铁第一勘察设计院集团有限公司,西安 710043
文献出处:
引用格式:
[1]戴均豪-.基于Word2vec的铁路工程地质语料库构建与词嵌入)[J].科技创新与应用,2022(35):89-92
A类:
Jiaba
B类:
Word2vec,铁路工程,工程地质,语料库构建,词嵌入,地质工作,断开,非结构化,信息化进程,读取,地质领域,手册,函数库,结构化文本,文本分词,词向量,向量空间,语义信息,语义相似度,相似度计算,语义分析,实体识别,知识图谱构建,数据基础,NLP
AB值:
0.361516
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。