搜索

java解决分布式存储计算

发布网友 发布时间:2022-04-20 08:05

我来回答

4个回答

热心网友 时间:2022-05-06 11:00

一、高性能计算
Hadoop:Hadoop的框架最核心的设计就是:HDFS和MapRece。HDFS为海量的数据提供了存储,则MapRece为海量的数据提供了计算。
Spark:Spark是UC Berkeley AMP lab所开源的类Hadoop MapRece的通用的并行,Spark,拥有Hadoop MapRece所具有的优点;但不同于MapRece的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map rece的算法。
CUDA:CUDA(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台。 CUDA是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。 开发人员现在可以使用C语言来为CUDA架构编写程序,C语言是应用最广泛的一种高级编程语言。所编写出的程序于是就可以在支持CUDA的处理器上以超高性能运行。CUDA3.0已经开始支持C++和FORTRAN。
二、Hadoop生态系统
(1)海量数据怎么存,当然是用分布式文件系统——HDFS。
(2)数据怎么用呢,分析、处理MapRece框架,让你通过编写代码来实现对大数据的分析工作。

(3)非结构化数据(日志)收集处理——Fuse、WebDAV、Chukwa、Flume和Scribe。

(4)数据导入HDFS中,RDBMS也可以加入HDFS的狂欢了——HIHO、Sqoop。

(5)MaoRece太麻烦,用熟悉的方式操作Hadoop里的数据——Pig、Hive、Jaql。

(6)让你的数据可见——Drilldown、Intellicus。

(7)用高级语言管理你的任务流——Oozie、Cascading。

(8)Hadoop自己的监控管理工具——Hue、Karmasphere、Eclipse Plugin、Cacti、Ganglia。

(9)数据序列化处理与任务调度——Avro、ZooKeeper。

(10)更多构建在Hadoop上层的服务——Mahout、Elastic Map Rece。

(11)OLTP存储系统——HBase。

(12)基于Hadoop的实时分析——Impala。

热心网友 时间:2022-05-06 12:18

那就用hadoop,自己实现数据的拼接过于复杂,而且还要是计算过后的,大数据的分布式计算最好是借助工具。追问所有这些大数据分布式框架都不能用

热心网友 时间:2022-05-06 13:53

一般来说,内存上的数据不共享,提供两个办法:

大数据 split 到文件,多服务器处理。

增加虚拟内存,RMI多台服务器。

追问能否通过zookeeper和activemq来实现呢,比如上述的8个长度的数组,有一个zookeeper集群,通过activemq发送消息到这个集群的每个节点,然后收到消息后,这个节点根据消息内容来申请内存呢?

热心网友 时间:2022-05-06 15:44

搞个简单的rpc调用追问能否发一份demo啊

声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
E-MAIL:11247931@qq.com
Top