当前位置:网站首页 > Java基础 > 正文

java基础项目实战哈尔滨



学习版块 学习内容 第四阶段:大数据阶段
大数据离线数据分析 Linux基础
Linux操作系统是大数据学习的基础,是大数据开发的基本环境,通过本阶段的学习,可以掌握Linux文件及目录管理、Shell脚本、账号和进程管理、系统管理、网络管理等知识,为后续学习和工作打下坚实基础
大数据java加强
通过java编码实现zebra项目,熟悉分布式处理思想,了解zebra业务需求;学习java中关于高并发、NIO、序列化反序列化(AVRO)、RPC相关知识;掌握zookeeper、sqoop等大数据领域常用工具原理及使用
Hadoop
Hadoop是知名的大数据处理工具,包括分布式数据存储系统HDFS、分布式数据计算框架MapReduce和资源协调框架Yarn,HDFS全称为Hadoop分布式文件系统,用于分布式存储海量数据,具有高容错、高吞吐、高可用的特点,适合部署在廉价的机器集群上,提供了优秀的横向扩展能力。MapReduce是hadoop提供的一种编程模型,适用于大规模数据集的并行计算,包含Map和Reduce两个过程,为海量数据的离线处理提供了可能。HadoopYARN是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处
java基础项目实战哈尔滨 Flume
Flume是大数据生态环境中流行的日志收集框架;基于其灵活的可广泛配置的使用方式及优良的效率被广泛的应用在大数据生态环境中;课程中详细讲解了Flume的Source、Channel、Sink、Selector、Interceptor、Processor等组件的使用;并通过美团应用案例,展示了Flume企业级应用场景的实现方式
Hive
Hive是基于Hadoop的数据仓库工具;Hive通过将结构化的数据文件映射为HIVE中的表,并提供类SQL的语言实现处理数据。学习内容包括hive的安装配置、hive的元数据库、hive的内部表外部表、hive的分区表、hive的分桶表、hive的语法、hive的UDF等 Hbase
HBase是一种分布式的、面向列的基于hadoop的非关系型数据库;适合存储半结构化、非结构化的数据;基于其优良的设计,可以提供良好的实时数据存取能力,并提供横向扩展能力;是一种高可靠高性能面向列可伸缩的分布式存储系统;HBase利用HadoopHDFS作为其文件存储系统,利用Hadoop的MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具
Zebra项目
项目名称:zebra电信日志数据分析
应用的技术:flume收集日志,采用三层结构实现日志收集聚集最终持久化到hadoophdfs中并实现日志收集过程中的失败恢复负载均衡;hadoophdfs分布式存储收集到的日志数据;hadoopmapreduce进行日志清洗、格式转换;hive进行日志处理、业务规则计算,按照不同维度分时段统计应用受欢迎程度、网站受欢迎程度、小区上网能力小区上网喜好等信息;sqoop技术将处理完成的结果导出到关系型数据库;EChars通过传统web技术将关系型数据库中的数据展示到web页面中;Zookeeper作为集群协调、集群状态监控工具
大数据实时数据分析
Storm
Storm是流行的大数据实时分析框架,是一个分布式的、可容错的实时计算系统;Storm为分布式实时计算提供了一组通用原语,可被用于流处理之中,实时处理消息并更新数据库。Storm也可被用于连续计算,对数据流做连续查询,在计算时就将结果以流的形式输出给用户。Storm可被用于分布式RPC,以并行的方式运行昂贵的运算。课程中包括Storm基础、原理、Topology、StormSpout、StormBolt、StormStream、Strom并发控制、Storm可靠性保证、Storm高级原语Trident等内容
Kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统。可以处理消费者规模的网站中的所有动作流数据。是一种分布式消息队列,提供横向扩展能力。通过磁盘存储数据,实现了消息天然的持久化存储。可以实现数据的分区,为并发处理数据提供可能。以分区为单位实现负载均衡和失败恢复,实现了高可用
CDH
CDH是Cloudera提供的一个可伸缩,稳定,综合的企业级数据管理平台。用于管理快速增长的数据,使用户可以快速部署和管理Hadoop及相关大数据处理框架,操作、分析企业级数据,并保证数据的安全性。对包括ApacheHadoop和其他十多项重要重要开源技术进行了整合,满足企业级应用需求
Oozie
Oozie是一种框架,它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中。本质上是一种工作流引擎,以xml的形式写调度流程,可以调度mr,pig,hive,shell,jar等作业。是大数据生态环境下重要工具之一
EasyMall网站流量分析项目
网站流量统计是改进网站服务的重要手段之一,通过获取用户在网站的行为,可以分析出哪些内容受到欢迎,哪些页面存在问题,从而使网站改进活动更具有针对性。此项目通过在网站的前台页面中进行js埋点收集用户访问网站的行为信息,再由大数据技术进行分析进而得到网站的PV、UV、VV、BounceRate、独立ip、平均在线时长、新独立访客、访问深度等信息,来引导网站针对性的做出升级改进,提高整个网站的访问效率,提升用户粘度。整个系统分为数据收集、数据传递、数据分析三部分,数据分析又分为离线数据分析和实时数据分析,应对数据分析的不同的实时性需求。使用的技术包括JS、Nginx、Tomcat、Mysql、Flume、Hadoop、Hive、Sqoop、Kafka、Storm、Hbase、Zookeeper等
大数据内存计算框架
SCALA
Scala是一门多范式的编程语言,集成面向对象编程和函数式编程的各种特性。Scala视一切数据类型皆对象,且支持闭包、lambda等特性,语法简洁。使用Actor作为并发模型,与Akka框架自然契合,是一种基于数据共享、以锁为主要机制的并发模型。Scala可以和Java很好的衔接。Scala可以使用所有的Java库,同时对于一些Java类做了无缝的扩展Scala的traits对于java的面向对象来说做了很好的扩充,使得面向对象更加灵活
SPARK
知名的内存计算框架,可用来构建大型的、低延迟的数据分析应用程序,在迭代处理计算方面比Hadoop快100倍以上。SPARK构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且是Apache顶级项目。SPARK的内容有:SPARK的RDD、SPARK的SHUFFLE、SPARK的Stage、Work、Task、Partition、action、transformation等特性
SPARK的SQL、SPARK的DataFrame对象、SPARK的Stream

版权声明


相关文章:

  • java web面试基础知识2024-11-10 23:58:00
  • java零基础开发邮件群发2024-11-10 23:58:00
  • java语言的基础开发工具是2024-11-10 23:58:00
  • 杨中科零基础教学视频java2024-11-10 23:58:00
  • java零基础工具2024-11-10 23:58:00
  • java基础和高级有什么区别2024-11-10 23:58:00
  • 刘意java基础视频2024-11-10 23:58:00
  • java语言基础算法题2024-11-10 23:58:00
  • java基础3802024-11-10 23:58:00
  • java程序设计基础实验322024-11-10 23:58:00