Spark服务使用说明

1. 简介:

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark拥有Hadoop MapReduce所具有的优点;不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark与Hadoop相比较,但是两者之间还存在一些不同之处,比如 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

2. 版本:

当前订阅的Spark大数据服务的版本:1.6

3. 订阅及使用说明:

1 参考寄云应用开发与数据分析平台使用手册完成Spark大数据服务的订阅,订阅过程中,可以输入大数据服务的名称及访问密码。

2 目前平台提供通过Zeppelin的Web界面提交各种分析任务代码,在Spark处理完成后,将结果呈现出来。在Spark大数据服务订阅成功后,进入服务详情页面,选择右上方的管理服务按钮访问服务。

3 进入Zeppelin界面后,选择右上角的登录按钮,使用上一步获得的用户名和密码进行登录,即可进入到Zeppelin工作界面。

4. 登录zepplin后,选择“Create new note”,填写“note name”,点“Create note”。

5. 创建成功后,选择右上角的“管理依赖”,管理依赖可以上传files或jars到hdfs目录,上传方式参见HDFS服务使用说明。可以通过Maven仓库指定依赖库的group ID、artifact ID以及version来指定具体的依赖

6. 上传文件成功后将HDFS的路径填写到“livy.spark.files”中,点“Save”,执行方框示例代码后显示test.json.

7. 同样执行第4步操作,上传jars成功后将HDFS的路径填写到“livy.spark.jars”中,点“Save”,执行方框示例代码后结果如下。

8. 通过Maven仓库指定依赖库的group ID、artifact ID以及version来指定具体的依赖方式登录http://mvnrepository.com,搜索如kafka,

找到如下页面:

执行第4步操作后在“livy.spark.jars.packages”中,填写“org.apache.spark:spark-streaming-kafka_2.10:1.6.2”点“Save”,执行方框示例代码后结果如下。

results matching ""

    No results matching ""