`

hadoop在windows下的配置与运行(运行环境和开发环境配置)

阅读更多

在Windows下部署hadoop前,都需要安装cygwin软件,那么我们先来看一下,如何安装和配置cygwin

一、cygwin的安装与配置

  1、什么是cygwin
 cygwin是一个在windows平台上运行的unix模拟环境,是cygnus solutions公司开发的自由软件(该公司开发了很多好东西,著名的还有eCos,不过现已被Redhat收购)。它对于学习unix/linux操作环境,或者从unix到windows的应用程序移植,或者进行某些特殊的开发工作,尤其是使用gnu工具集在windows上进行嵌入式系统开发,非常有用。随着嵌入式系统开发在国内日渐流行,越来越多的开发者对cygwin产生了兴趣。
2、cygwin的安装
  (1)下载安装程序,下载地址为: http://www.cygwin.com/setup.exe
   (2)选择必须安装的包,根据实践有如下包必须选择安 装,否则很可能cygwin安装失败!
   Net Category下的OpenSSL,OpenSSH;
   Base Category下的sed;
   Editors Category下的vim,Emacs;
   Devel Category下的subversion,binutils,gcc,gcc-mingw,gdb

(3)点击下一步。一直到完成
   说明:虽然cygwin提供在线安装,个人建议先  完全下载到本地,再进行安装,因为在线安装会出现许多莫名奇妙的问题。

2、cygwin的配置
 (1)配置环境变量
 CLASSPATH= .;C:\Java\jdk1.6.0_11\lib\dt.jar;C:\Java\jdk1.6.0_11\lib\tools.jar
  CYGWIN=ntsec;
JAVA_HOME=C:\Java\JDK1.6.0_11;C:\Java\jre6;
 在PATH环境变量中加入如下路径C:\cygwin\bin;C:\cygwin\usr\i686-pc-cygwin\bin;C:\Java\jdk1.6.0_11\bin;

(2)安装sshd服务
    启动cygwin输入命令:ssh-host-config;
    根据提示进行相应的操作直至安装完成,安装成功后立即启动名称为“CYGWIN sshd”的服务。

(3)配置ssh登录
      执行ssh-keygen命令,然后根据提示按三次回车键,最后输入如下命令:
   cd ~/.ssh/;
   cp id_rsa.pub authorized_keys

至此,cygwin的安装与配置成功,你可以享受cygwin带来的乐趣。

 

二、hadoop多节点的安装与部署


1、下载hadoop;
       本实验用的版本是:hadoop-0.20.1;
2、外部配置
   选中一台机子做为jobTracker,namenode, datanode这个机子为master,这个机器的ip设置为192.168.1.140。另外两台做datanode,TaskTracker为slave,这个机器的ip为192.168.1.141,192.168.1.142

3、为了实现无密码登录ssh服务器,在master机器cygwin的控制台中输入如下命令:
  cd ~/.ssh;
   chmod 600 authorized_keys;
  scp authorized_keys  Administrator@192.168.1.141:~/.ssh/ authorized_keys;
scp authorized_keys  Administrator@192.168.1.142:~/.ssh/ authorized_keys;

假如是所用的客户端计算机是第一次登陆SSH服务器,命令行中会提示“Are you sure you want to continue connecting (yes/no) ?”,只要输入yes即可,SSH服务器会自动将这次的登陆信息存储在/.ssh/known_host文件中。当显示“Fanfare!!! You are successfully logged in to this server!!!”时,说明已经成功登陆到ssh服务器计算机内了,需要注重的是,此时在当前控制台内输入的命令都将在ssh服务器计算机里运行。

4、master机器Hadoop机器环境部署:
  (1)将安装包解压到F:\hadoop\run中;
  (2)修改conf目录下的hadoop-env.sh
     export JAVA_HOME="/cygdrive/c/Java/jdk1.6.0_11"
   (3)修改conf目录下的core-site.xml;

           <property>

                   <name>fs.default.name</name>

                   <value>hdfs://192.168.1.140:9000<value>

                    ......................................

  (4)修改conf目录下的hdfs-site.xml;

         <property>

                   <name>dfs.datanode.handler.count</name>

                   <value>1<value>

                    ......................................

          <property>

                   <name>dfs.replication</name>

                   <value>1<value>

                    ......................................

 (5)修改conf目录下的mapred-site.xml

             <property>

                   <name>mapred.job.tracker</name>

                   <value>192.168.1.140:9001<value>

                    ......................................

 (6)修改conf目录下的masters文件
         输入192.168.1.140
 (7)修改conf目录下的slaves文件
       输入:192.168.1.140
                 192.168.1.141
                 192.168.1.142

(7)配置hadoop在cygwin中的环境
      用vi打开/etc/profile文件,在文件的末尾追加如下代码:
       export HADOOP_HOME=/cygdrive/f/hadoop/run
       export PATH=$PATH:$HADOOP_HOME/bin


(8)格式化一个新的分布式文件系统
    cd $HADOOP_HOME
    bin/hadoop namenode -format
5、slave机器Hadoop机器环境部署
     把master机器上的F:\hadoop拷贝到slave机器上的F盘的根目录下即可。
6、关闭master,slave机器上的Cygwin,然后重启Cygwin。

7、启动master上的hadoop,执行如下命令:
     ssh localhost
     cd $HADOOP_HOME
     bin/start-dfs.sh
     bin/start-mapred.sh
     jps
8、运行wordcount程序
   $ bin/hadoop dfs -put ./test-in input 
  $ bin/hadoop jar hadoop-0.16.0-examples.jar wordcount input output
   $ bin/hadoop dfs -cat output/*
9、停止hadoop进行
    $ bin/stop-all.sh
10、配置hadoop的开发环境
   (1)下载hadoop-0.20.1-eclipse-plugin.jar
   (2)将其复制到Eclipse安装目录下的   plugins子目录下。
   (3)删除org.eclipse.update目录,重启   Eclipse.
  (4) 配置一个Map/Reduce对象,即DFS location ,将Map/Reduce   Master一栏中的host设置为192.168.140,port设置为9001;将DFS Master 一栏中的host设置为192.168.140,port设置为9000;
 (5)运行wordcout程序
     创建一个Map/Reduce  Project,将wordcount.java拷贝到该工程的src目录下,运行程序。
   

 

 

至此,如果以上没有问题的话,hadoop多节点的运行环境与开发环境配置完毕了,你可以开发Map/Reduce程序了。

        

  


分享到:
评论

相关推荐

    hadoop搭建与eclipse开发环境设置

    目的很简单,为进行研究与学习,部署一个hadoop运行环境,并搭建一个hadoop开发与测试环境。 具体目标是: 1.在ubuntu系统上部署hadoop 2.在windows 上能够使用eclipse连接ubuntu系统上部署的hadoop进行开发与测试 3...

    hadoop3.3.3-winutils

    hadoop基于linux开发和布署运行,故不能将hadoop环境原始运行在windows上。 操作系统环境差异说明 因为模拟linux环境,所以在linux原生环境中就不需要他了 在windows环境中需要配置 如何配置: 配置到运行环境当前目录...

    hadoop的安装与配置

    目前,hadoop可以运行在linux,unix,windows系统上。实际上hadoop是为在linux平台上使用而开发出来的。...如果想在windows上运行hadoop,那么必须先安装Cygwin以模拟linux环境,然后再安装hadoop。

    大数据云计算技术系列 hadoop搭建与eclipse开发环境设置-已验证通过(共13页).pdf

    1. Windows下eclipse开发环境配置 1.1 安装开发hadoop插件 将hadoop安装包hadoop\contrib\eclipse-plugin\hadoop-0.20.2-eclipse-plugin.jar拷贝到eclipse的插件目录plugins下。 需要注意的是插件版本(及后面开发...

    hadoop-common.2.7.4.rar

    在开发工具中(例如Eclipse)使用Java语言开发Hadoop程序,调用API,可以在Windows环境运行。配置步骤大致是1 解压缩,2 配置Windows的环境变量HADOOP_HOME,添加bin目录到path中。3 把hadoop文件夹bin中的hadoop....

    hadoop.dll和winutile

    在windows上的eclipse上配置Hadoop开发环境时,由于Hadoop的安装包是在Linux下编译的,所以如果要在windows下运行Hadoop,需要在hadoop安装目录下的bin目录下放这两个东西

    spark本地开发模式配置

    在自己的机器上配置spark的本地开发模式,可以用来测试spark代码是否正确,如果没问题,可以提交到spark集群上去运行,免去每次都要打包放到集群上去测试的麻烦。因为在网络上没找到合适的资源可以快速构建,所以就...

    eclipse里运行hadoop程序出现的错误总结

    在win10中配置hadoop开发环境时没有在c:\windows\system32目录中拷贝hadoop.dll文件 2、 错误: org.apache.hadoop.io.nativeio.NativeIO$Win dows.createDirectoryWithMode0(Ljava/lang/String;I)V 解决办法: ...

    基于SpringBoot+Hadoop+Vue开发的企业级网盘分布式系统源码+项目说明(本科毕设).zip

    开发环境:Windows 10 + Mysql 开发工具:WebStorm、IDEA编译器、Git、Maven 应用部署服务器:SpringBoot内置Tomcat插件 Node服务器:Node v10.15.3 数据库:Mysql v5.5.59 缓存服务:Redis v2.8.9 代码仓库...

    大众点评开源的实时应用监控平台 CAT.zip

    Windows 则是对系统运行盘下的/data/appdatas/cat和/data/applogs/cat有读写权限 3、(Optional)如果安装了hadoop集群,需到/data/appdatas/cat/server.xml中配置对应hadoop信息。将localmode设置为false,默认...

    ferry:Ferry 允许您使用 Docker 在 AWS、OpenStack 和本地机器上定义、运行和部署大数据应用程序

    Ferry:使用 Docker 的大数据开发环境Ferry 可让您在 AWS、OpenStack 和本地机器上启动、运行和管理大数据集群。 它通过利用诸如类的技术来做到这一点。 渡轮目前支持: Hadoop/YARN(版本 2.5.1) 卡桑德拉(2.1.0 ...

    云计算第二版

    9.4.1 环境配置 274 9.4.2 运行样例程序 274 9.5 CloudSim的扩展 277 9.5.1 调度策略的扩展 277 9.5.2 仿真核心代码 280 9.5.3 平台重编译 286 习题 287 参考文献 287 第10章 云计算研究热点 288 10.1 云计算体系...

    fourinone-3.04.25

    跟Hadoop, Zookeeper, Memcache, ActiveMq等开源产品代码上没有任何相似性,不需要任何依赖,引用一个jar包就可以嵌入式使用,良好支持window环境,可以在一台机器上模拟分布式环境,更方便开发。 开发包里自带了一...

    CAT实时应用监控平台-其他

    DskipTests2、配置CAT的环境mvn cat:installNote:Linux\Mac 需要对/data/appdatas/cat和/data/applogs/cat有读写权限Windows 则是对系统运行盘下的/data/appdatas/cat和/data/applogs/cat有读写权限3、(Optional)...

Global site tag (gtag.js) - Google Analytics