更新时间:2021-04-15 来源:黑马程序员 浏览量:
对MapReduce的编程思想和模型有了了解以后,下面我们借助MapReduce编程的一个典型案例——词频统计, 来学习实现MapReduce编程开发。
假设我们有两个文本文件,这两个文本文件位于HDFS中,文件如1,2所示:
文件1 text1.txt
Hello World Hello Hadoop Hello itcast文件2 text2.txt
Hadoop MapReduce MapReduce Spark
根据MapReduce编程模型,那么单词计数的实现过程,如图1所示。
图1 词频统计过程
在图1演示中,首先,MapReduce通过默认组件TextInputFormat将待处理的数据文件(如text1.txt和text2.txt),把每一行的数据都转变为<key,value>键值对(其中,对应key为偏移量,value为这一行的文本内容);其次,调用Map()方法,将单词进行切割并进行计数,输出键值对作为Reduce阶段的输入键值对;最后,调用Reduce()方法将单词汇总、排序后,通过TextOutputFormat组件输出到结果文件中。
猜你喜欢:
【AI设计】北京143期毕业仅36天,全员拿下高薪offer!黑马AI设计连续6期100%高薪就业
2025-09-19【跨境电商运营】深圳跨境电商运营毕业22个工作日,就业率91%+,最高薪资达13500元
2025-09-19【AI运维】郑州运维1期就业班,毕业14个工作日,班级93%同学已拿到Offer, 一线均薪资 1W+
2025-09-19【AI鸿蒙开发】上海校区AI鸿蒙开发4期5期,距离毕业21天,就业率91%,平均薪资14046元
2025-09-19【AI大模型开发-Python】毕业33个工作日,就业率已达到94.55%,班均薪资20763元
2025-09-19【AI智能应用开发-Java】毕业5个工作日就业率98.18%,最高薪资 17.5k*13薪,全班平均薪资9244元
2025-09-19