Spark服务使用说明
1. 简介:
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark拥有Hadoop MapReduce所具有的优点;不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark与Hadoop相比较,但是两者之间还存在一些不同之处,比如 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
2. 版本:
当前订阅的Spark大数据服务的版本:1.6
3. 订阅及使用说明:
1 参考寄云应用开发与数据分析平台使用手册完成Spark大数据服务的订阅,订阅过程中,可以输入大数据服务的名称及访问密码。
2 目前平台提供通过Zeppelin的Web界面提交各种分析任务代码,在Spark处理完成后,将结果呈现出来。在Spark大数据服务订阅成功后,进入服务详情页面,选择右上方的管理服务按钮访问服务。
3 进入Zeppelin界面后,选择右上角的登录按钮,使用上一步获得的用户名和密码进行登录,即可进入到Zeppelin工作界面。
4. 登录zepplin后,选择“Create new note”,填写“note name”,点“Create note”。
5. 创建成功后,选择右上角的“管理依赖”,管理依赖可以上传files或jars到hdfs目录,上传方式参见HDFS服务使用说明。可以通过Maven仓库指定依赖库的group ID、artifact ID以及version来指定具体的依赖
6. 上传文件成功后将HDFS的路径填写到“livy.spark.files”中,点“Save”,执行方框示例代码后显示test.json.
7. 同样执行第4步操作,上传jars成功后将HDFS的路径填写到“livy.spark.jars”中,点“Save”,执行方框示例代码后结果如下。
8. 通过Maven仓库指定依赖库的group ID、artifact ID以及version来指定具体的依赖方式登录http://mvnrepository.com,搜索如kafka,
找到如下页面:
执行第4步操作后在“livy.spark.jars.packages”中,填写“org.apache.spark:spark-streaming-kafka_2.10:1.6.2”点“Save”,执行方框示例代码后结果如下。