Hadoop DistributedCache使用案例
背景
公司数据处理具有两个计算框架,单机框架和MR框架。目前我已经抽象出一套API interface, 供业务计算开发人员使用。并分别在两个计算框架下实现了API的执行调度。应用开发人员有时间需要通过上传override的配置文件,来调整业务计算参数。单机框架易于实现,但在MR框架里,需要解决override的配置文件的分发问题。
实现
1. 通过命令行传入配置文件路径;
2. MR job client端读入本地配置文件,并加入DistributedCache;并把命令行参数不加修改,附加到MR child JVM启动参数数组中。
3. MR child JVM启动后检查启动参数, 发现有配置文件,且配置文件不存在,则将配置文件路径替换为DistributedCache对应的本地路径。
4. child JVM job读入替换后的配置文件,并应用到mr job中,实现计算参数的修改。
参考
http://dongxicheng.org/mapreduce-nextgen/hadoop-distributedcache-details/
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。