博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
ClouderaManager之CDH-LZO配置
阅读量:7050 次
发布时间:2019-06-28

本文共 1427 字,大约阅读时间需要 4 分钟。

CDH-LZO配置

下载和CDH版本对应的hadoop-lzo版本

如下:

 

下载地址:http://archive.cloudera.com/gplextras5/parcels/

需要下载如下三个文件:

GPLEXTRAS-5.4.0-1.cdh5.4.0.p0.27-el6.parcel

GPLEXTRAS-5.4.0-1.cdh5.4.0.p0.27-el6.parcel.sha1(使用的时候重命名成.sha)

manifest.json

配置包到cloudera-manager共享目录

因为使用的是parcels安装,首先将下载好的文件放到cloudera-manager共享的目录中,此处为:

 

进入到cloudera-manager的控制页面,主机àparcelà位置,在CNNIC(CM集群的名字)选项中目录改为/opt/cloudera-manager/cloudera/parcel-repo。

安装激活lzo服务

Cloudera-manager控制页面,主机àparcelà检查新Parcel,如果配置正确,则出现如下界面:

 

点击分配,进行到如下界面:

 

之后进入激活状态中:

 

步骤完成后,状态一列会出现“已分配。已激活”。

 

至此,lzo服务安装工作已经完成。

修改配置集群的lzo服务

修改HDFS配置

在io.compression.codecs属性值中追加如下值:

com.hadoop.compression.lzo.LzoCodec

com.hadoop.compression.lzo.LzopCodec

如下图所示:

 

修改YARN配置

将mapreduce.application.classpath的属性值增加一项:/opt /cloudera/parcels/HADOOP_LZO/lib/hadoop/lib/*

如下图所示:

 

修改MR应用程序环境

修改mapreduce.admin.user.env的属性值,增加一项:

/opt/cloudera/parcels/GPLEXTRAS/lib/hadoop/lib/native,如下图所示:

 

重启集群生效。

Lzo使用步骤:

将文件以lzop命令进行本地压缩;

将压缩好的.lzo文件上传put到Hadoop集群;

Hive建表指向刚上传的文件;

create external table testlzo(

id int comment ‘id’,

name string comment ‘name’

)

row format delimited fields terminated by '\001'

stored as inputformat 'com.hadoop.mapred.deprecatedlzotextinputformat'

outputformat 'org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat'

location '……';

使得查询结果以压缩的格式输出:在hive脚本执行之前进行环境的设置

其中set hive.exec.compress.output=true;

set mapred.output.compression.codec=com.hadoop.compression.lzo.lzopcodec;

 

Congratulations!!!

转载地址:http://jopol.baihongyu.com/

你可能感兴趣的文章
Java第九次作业
查看>>
.Net Discovery系“.NET技术”列之-深入理解平台机制与性能影响 (中)
查看>>
1.文件重命名工具
查看>>
【java】json格式解析
查看>>
Linux开始结束ping命令
查看>>
开源一款私藏Management Studio插件,ProjkyAddin,送给所有使用SQLServer的园友们
查看>>
jQuery判断checkbox是否选中的3种方法
查看>>
LinkedList源码分析
查看>>
【算法介绍】哈希排序算法
查看>>
UpdatePanel and JQuery Plugin
查看>>
centos5.7下的kdump
查看>>
[JavaEE笔记]Cookie
查看>>
ELK+Filebeat (1)
查看>>
leetcode 443. String Compression
查看>>
在没联网环境下,启动tomcat出错
查看>>
关于Git bash-127.0.0.7:8888拒绝访问的小问题--环境变量
查看>>
有价值的数据
查看>>
LayUi超级好用的前端工具
查看>>
[Ubuntu] ubuntu的tty下挂载移动硬盘拷贝数据
查看>>
犯了个低级错误
查看>>