博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
理解Mapreduce
阅读量:5070 次
发布时间:2019-06-12

本文共 1227 字,大约阅读时间需要 4 分钟。

import sysfor line in sys.stdin:     line=line.strip()     words=line.split()     for word in words:          print '%s\t%s' % (word,1)from operator import itemgetterimport syscurrent_word=Nonecurrent_count=0word=Nonefor line in sys.stdin:     line=line.strip()     word,count=line.split('\t',1)     try:          count=int(count)     except ValueError:          continue     if current_word==word:          current_count+=count     else:          if current_word:              print '%s\t%s' % (current_word,current_count)          current_count=count          current_word=wordif current_word==word:     print '%s\t%s' % (current_word,current_count)

3.将其权限作出相应修改

 

5.查看运行结果

 

2. 用mapreduce 处理气象数据集

编写程序求每日最高最低气温,区间最高最低气温

  1. 气象数据集下载地址为:ftp://ftp.ncdc.noaa.gov/pub/data/noaa
  2. 按学号后三位下载不同年份月份的数据(例如201506110136号同学,就下载2013年以6开头的数据,看具体数据情况稍有变通)
    wget -D --accept-regex=REGEX -p data -r -c ftp://ftp.ncdc.noaa.gov/pub/data/noaa/2013/6*

      

  3. 解压数据集,并保存在文本文件中
    zcat ftp.ncdc.noaa.gov/pub/data/noaa/2013/6*.gz >qxdatazwt.txt

     

  4. 对气象数据格式进行解析

.编写map函数,reduce函数

 

将其权限作出相应修改

chmod a+x /home/hadoop/mapper.pychmod a+x /home/hadoop/wc/reducer.py

放到HDFS上运行

 

将之前爬取的文本文件上传到hdfs上

用Hadoop Streaming命令提交任务

查看运行结果

 

 

转载于:https://www.cnblogs.com/jianzhihao/p/9022001.html

你可能感兴趣的文章
css3动画——基本准则
查看>>
输入月份和日期,得出是今年第几天
查看>>
pig自定义UDF
查看>>
spring security 11种过滤器介绍
查看>>
代码实现导航栏分割线
查看>>
大数据学习系列(8)-- WordCount+Block+Split+Shuffle+Map+Reduce技术详解
查看>>
【AS3代码】播放FLV视频流的三步骤!
查看>>
枚举的使用
查看>>
luogu4849 寻找宝藏 (cdq分治+dp)
查看>>
日志框架--(一)基础篇
查看>>
关于源程序到可运行程序的过程
查看>>
转载:mysql数据库密码忘记找回方法
查看>>
scratch少儿编程第一季——06、人在江湖混,没有背景怎么行。
查看>>
C# Async与Await的使用
查看>>
Mysql性能调优
查看>>
iOS基础-UIKit框架-多控制器管理-实例:qq界面框架
查看>>
自定义tabbar(纯代码)
查看>>
小程序底部导航栏
查看>>
poj1611 简单并查集
查看>>
Ubuntu 14.04下安装CUDA8.0
查看>>