典型文献
大数据环境下Spark性能优化分析研究与应用
文献摘要:
针对长时间序列、多站点和多气象要素的大数据量查询需求,现有的CIMISS(China Integrated Meteorologi-cal Information Sharing System)存在支撑能力严重不足的问题.本研究使用广西气象站点建站至今的历史地面气象记录月报表数据资料和现有Hadoop集群物理资源,重新设计数据ETL流程,构建Parquet格式数据集并完成HDFS转换存储;嵌入Spark的Broadcast广播变量,优化Spark集群执行参数,提高了集群的处理并行度和SparkSql的关联查询效率.结果表明,Parquet格式数据集的最高压缩比超过95%,一次性大数据量的查询效率比原来提升了 1~5倍,并支持高并发访问,为各类相关预报预测业务的开展提供了有效的技术支撑.
文献关键词:
Hadoop;Spark;ETL;Parquet;列式存储;Broadcast
中图分类号:
作者姓名:
黄志;苏传程;苏晓红
作者机构:
广西壮族自治区气象信息中心,南宁530022
文献出处:
引用格式:
[1]黄志;苏传程;苏晓红-.大数据环境下Spark性能优化分析研究与应用)[J].气象科技,2022(01):51-58
A类:
Meteorologi,Parquet,SparkSql,列式存储
B类:
大数据环境下,性能优化,优化分析,长时间序列,多站点,多气象要素,大数据量,CIMISS,China,Integrated,cal,Information,Sharing,System,支撑能力,严重不足,气象站点,建站,史地,地面气象,气象记录,报表,数据资料,Hadoop,重新设计,ETL,HDFS,Broadcast,并行度,关联查询,查询效率,高压缩比,效率比,高并发
AB值:
0.407251
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。