首站-论文投稿智能助手
典型文献
一种面向PDF文档的文本复制优化方法研究
文献摘要:
针对当前主流PDF阅读器复制文字尤其是中英文混合排版文字时存在的全角字符、错误标点符号、多余换行符和空格等问题,提出了一种面向PDF文档的文本复制优化方法,通过剪贴板监听自动感知复制内容变化,基于正则表达式分析复制文本内容特点并采用不同优化策略修正文本格式错误,并提出了3种不同的段落切分策略正确识别文本中的段落,实现了用户"无感知"情况下的复制文本自动优化.在报纸、社科、理工和国防类期刊等4类PDF数据集的实验表明,与直接复制相比,提出的方法能够消除95%以上的格式错误,极大地减轻了人工负担,提高了处理效率.
文献关键词:
PDF文档;文本复制;文本优化;段落切分
作者姓名:
贺伟雄;柏林元;郭文娟
作者机构:
武警部队研究院,北京 100010;陆军工程大学,江苏南京 210001
文献出处:
引用格式:
[1]贺伟雄;柏林元;郭文娟-.一种面向PDF文档的文本复制优化方法研究)[J].软件,2022(07):63-67
A类:
文本复制,全角字,换行符,剪贴板,段落切分
B类:
PDF,文档,阅读器,中英文,排版,字符,标点符号,多余,空格,监听,动感,内容变化,正则表达式,文本内容,内容特点,略修,正文本,文本格式,无感,自动优化,报纸,社科,处理效率,文本优化
AB值:
0.330001
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。