假期学习【三】HDFS操作及spark的安装/使用

news/2024/7/2 21:03:26

1.安装 Hadoop Spark

进入 Linux 系统,参照本教程官网“实验指南”栏目的“Hadoop 的安装和使用”,完

Hadoop 伪分布式模式的安装。完成 Hadoop 的安装以后,再安装 Spark(Local 模式)。

2HDFS 常用操作

使用 hadoop 用户名登录进入 Linux 系统,启动 Hadoop,参照相关 Hadoop 书籍或网络

资料,或者也可以参考本教程官网的“实验指南”栏目的“HDFS 操作常用 Shell 命令”,

 

使用 Hadoop 提供的 Shell 命令完成如下操作:

(1 启动 Hadoop,在 HDFS 中创建用户目录“/user/hadoop”;

 

(2 Linux 系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件

test.txt,并在该文件中随便输入一些内容,然后上传到 HDFS “/user/hadoop”

目录下;

进入/home/hadoop目录,并创建test.txt文件

 

 

 输入内容

 

 

 

将文件上传到HDFS的/user/hadoop目录下,并查看。

可以发现已经上传成功

(3 HDFS “/user/hadoop”目录下的 test.txt 文件,下载到 Linux 系统的本地文

件系统中的“/home/hadoop/下载”目录下;

执行如下命令。

可以查看到已经下载到本地。

 

 

 

(4 HDFS“/user/hadoop”目录下的test.txt文件的内容输出到终端中进行显示;

执行如下命令

 

 

 可以显示

(5 HDFS 中的“/user/hadoop”目录下,创建子目录 input,把 HDFS

“/user/hadoop”目录下的 test.txt 文件,复制到“/user/hadoop/input”目录下; 

 

 

 

(6 删除HDFS“/user/hadoop”目录下的test.txt文件,删除HDFS“/user/hadoop”

目录下的 input 子目录及其子目录下的所有内容。

 

 

 

3. Spark 读取文件系统的数据

Spark安装

 

 

 

Spark官网:http://spark.apache.org/downloads.html  下载Spark

并在修改Spark的配置文件spark-env.sh添加输入下列命令:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

如图:

 

 

 测试输入图中命令将输出大量信息

 

 

 

 


 
将得到一个
π的近似数,说明安装成功

(1)在 spark-shell 中读取 Linux 系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数;

启动spark-shell

 

 

 

(2)在 spark-shell 中读取 HDFS 系统文件“/user/hadoop/test.txt”(如果该文件不存在,

请先创建),然后,统计出文件的行数;

 

 

 统计结果

 

 

 未理解的问题:

显示4行正确,但不理解为什么界面行数大于统计的行数。

 

(3)编写独立应用程序,读取 HDFS 系统文件“/user/hadoop/test.txt”(如果该文件不存在,

请先创建),然后,统计出文件的行数;通过 sbt 工具将整个应用程序编译打包成 JAR 包,

并将生成的 JAR 包通过 spark-submit 提交到 Spark 中运行命令。

1.安装sbt

 

 

 

 


http://www.niftyadmin.cn/n/2762496.html

相关文章

Runtime在工作中的运用

这篇文章是笔者结合一些参考文章和当初学习Runtime的心得而写的一篇总结,主要讲解Runtime在工作中的运用,没有涉及到太底层的知识,极尽详略,适合初中级学者,水平有限,有错误的地方,还请大佬在评…

如何做好大型数据中心的运维

什么叫数据中心?维基百科给出的定义是“数据中心是一整套复杂的设施。它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置”。在云大行其道的今…

走进 JDK 之 Enum

什么是枚举 什么是枚举?说实话,在我这些年的开发生涯中,用过枚举的次数大概两只手都可以数的过来。当然你不能说枚举一无是处,只能说是我对 Java 理解的还不够深刻,在可以使用枚举的时候并没有去使用。 假设我有两个孩…

精度与分辨率是一回事吗

编码器精度与分辨率的区别 对于传感器的分辨率与精度的理解,可以拿千分尺为例,分辨率代表千分尺最多可以读到小数点后几位,但精度还与尺子的加工精度,测量方法有关系。同样的,在旋转编码器的使用中,分辨率与…

ESX主机上虚拟机文件的组成

在这一系列的第一部分中,我们从硬件角度了解了什么是虚拟机。在本部分中,TechTarget中国的特约虚拟化专家Eric Siebert将介绍ESX主机上虚拟机文件的组成。与虚拟机相关的文件有很多,它们位于主机上虚拟机的目录里。 如果你使用像WinSCP或者Da…

SAP S4 会计科目主数据相关类型的解释

新项目上,使用S4系统,在创建会计科目表时,相关字段的解释: (1)总账科目类型: N:对于不需要创建成本要素的损益科目; P:需要创建成本要素的损益科目; S&#x…

企业如何选择阿里云服务器配置【小白新手攻略】

阿里云在国内云计算领域的地位是毋庸置疑的,市场占有率早已超过了半壁江山,目前无论个人站长还是企业,都将阿里云作为了上云的第一选择,那么作为企业用户应该如何选择阿里云服务器呢?购买什么配置的阿里云服务器是适合自己的呢&a…

假期学习【四】RDD编程实验一

1.今天把Spark编程第三个实验的Scala独立程序编程写完了。使用 sbt 打包 Scala 程序,然后提交到Spark运行。 2.完成了实验四的第一项 (1)该系总共有多少学生;map(t > t.split(",")(0))表示:lines这个RDD中…