Spark服务
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark拥有Hadoop MapReduce所具有的优点;不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark与Hadoop相比较,但是两者之间还存在一些不同之处,比如 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
HDFS服务
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。
TSDB服务
寄云基于开源产品二次开发了专门管理时间序列数据的专业化产品套件——寄云时序数据库。不同于传统关系型数据库,时序数据库在数据摄入、存储、索引、查询等方面都进行了特定的优化,从而达到更优的数据加载、数据压缩、查询性能,适用于工业传感器数据的应用分析场景。 系统架构包括: 1、加载服务:加载服务是采用主从结构实现,主节点负责接收和分发加载及数据索引任务,实际任务由作业节点承担。 2、数据服务:数据服务节点采用的是主从结构:协调节点和数据节点。协调节点负责数据节点的负载均衡,并通过规则管理数据的生命周期,所有数据分片的元数据信息都存储在PostgreSQL的元数据库中。协调节点通过监听元数据库,按照设定的规则通知数据节点加载数据在线/下线过期数据。 3、查询服务:查询服务节点负责接收用户请求、分发查询、收集和合并结果。 4、消息队列:为了实现实时/准实时数据的接入及多路分流,引入消息队列服务。在加载节点上启动consumer监听服务,采用pull的方式将队列中数据加载到时序数据库中。 5、统一用户界面:统一用户界面针对多种角色如管理员、报表开发人员提供不同的使用入口,对系统进行管理、发起加载作业以及进行各种可视化查询分析。 6、其它服务:PostgreSQL、Zookeeper、Hadoop集群。
可视化服务使用说明
寄云可视化系统作为一个数据探查和可视化平台,该工具在可视化,易用性和交互性方面非常有特色,用户可以轻松的对数据进行可视化分析,简化用户的数据探索和分析操作流程。 主要特性: 1、快速创建可视化互动仪表盘; 2、丰富的可视化图表模板,灵活可扩展; 3、可以灵活控制数据在UI上的展现方式; 4、兼顾数据的可扩展性,细粒度,复杂规则查询等。