java解决分布式存储计算

发布网友发布时间：2022-04-20 08:05

共4个回答

热心网友时间：2022-05-06 11:00

一、高性能计算
Hadoop：Hadoop的框架最核心的设计就是：HDFS和MapRece。HDFS为海量的数据提供了存储，则MapRece为海量的数据提供了计算。
Spark：Spark是UC Berkeley AMP lab所开源的类Hadoop MapRece的通用的并行，Spark，拥有Hadoop MapRece所具有的优点；但不同于MapRece的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map rece的算法。
CUDA：CUDA(Compute Unified Device Architecture)，是显卡厂商NVIDIA推出的运算平台。 CUDA是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构（ISA）以及GPU内部的并行计算引擎。开发人员现在可以使用C语言来为CUDA架构编写程序，C语言是应用最广泛的一种高级编程语言。所编写出的程序于是就可以在支持CUDA的处理器上以超高性能运行。CUDA3.0已经开始支持C++和FORTRAN。
二、Hadoop生态系统
(1)海量数据怎么存，当然是用分布式文件系统——HDFS。
(2)数据怎么用呢，分析、处理MapRece框架，让你通过编写代码来实现对大数据的分析工作。

(3)非结构化数据（日志）收集处理——Fuse、WebDAV、Chukwa、Flume和Scribe。

(4)数据导入HDFS中，RDBMS也可以加入HDFS的狂欢了——HIHO、Sqoop。

(5)MaoRece太麻烦，用熟悉的方式操作Hadoop里的数据——Pig、Hive、Jaql。

(6)让你的数据可见——Drilldown、Intellicus。

(7)用高级语言管理你的任务流——Oozie、Cascading。

(8)Hadoop自己的监控管理工具——Hue、Karmasphere、Eclipse Plugin、Cacti、Ganglia。

(9)数据序列化处理与任务调度——Avro、ZooKeeper。

(10)更多构建在Hadoop上层的服务——Mahout、Elastic Map Rece。

(11)OLTP存储系统——HBase。

(12)基于Hadoop的实时分析——Impala。

热心网友时间：2022-05-06 12:18

那就用hadoop，自己实现数据的拼接过于复杂，而且还要是计算过后的，大数据的分布式计算最好是借助工具。追问所有这些大数据分布式框架都不能用

热心网友时间：2022-05-06 13:53

一般来说，内存上的数据不共享，提供两个办法：

大数据 split 到文件，多服务器处理。

增加虚拟内存，RMI多台服务器。

追问能否通过zookeeper和activemq来实现呢，比如上述的8个长度的数组，有一个zookeeper集群,通过activemq发送消息到这个集群的每个节点，然后收到消息后，这个节点根据消息内容来申请内存呢？

热心网友时间：2022-05-06 15:44

搞个简单的rpc调用追问能否发一份demo啊

声明：本网页内容为用户发布，旨在传播知识，不代表本网认同其观点，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。
E-MAIL:11247931@qq.com