• Hadoop 简介

    Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点 特别适合写一次,读多次的场景 适合 大规模数据 流式数据(写一次,读多次) 商用硬件(一般硬件) 不适…

    Hadoop 教程 2023年6月2日
  • Hadoop HDFS

    简介 Hadoop Distributed File System,分布式文件系统 架构 Block数据块; 基本存储单位,一般大小为64M(配置大的块主要是因为:1)减少搜寻时间…

  • Hadoop 写文件

    1.客户端将文件写入本地磁盘的 HDFS Client 文件中 2.当临时文件大小达到一个 block 大小时,HDFS client 通知 NameNode,申请写入文件 3.N…

    Hadoop 教程 2023年6月2日
  • Hadoop 读文件

    客户端向NameNode发送读取请求 NameNode返回文件的所有block和这些block所在的DataNodes(包括复制节点) 客户端直接从DataNode中读取数据,如果…

    Hadoop 教程 2023年6月2日
  • Hadoop 命令工具

    HDFS – 命令工具 fsck: 检查文件的完整性 start-balancer.sh: 重新平衡HDFS hdfs dfs -copyFromLocal 从本地磁盘…

    Hadoop 教程 2023年6月2日
  • Hadoop YARN

    旧的MapReduce架构 JobTracker: 负责资源管理,跟踪资源消耗和可用性,作业生命周期管理(调度作业任务,跟踪进度,为任务提供容错) TaskTracker: 加载或…

  • Hadoop ResourceManager

    负责全局的资源管理和任务调度,把整个集群当成计算资源池,只关注分配,不管应用,且不负责容错 资源管理 以前资源是每个节点分成一个个的Map slot和Reduce slot,现在是…

    Hadoop 教程 2023年6月2日
  • Hadoop NodeManager

    Node节点下的Container管理 启动时向ResourceManager注册并定时发送心跳消息,等待ResourceManager的指令 监控Container的运行,维护C…

    Hadoop 教程 2023年6月2日
  • Hadoop Container

    基本的资源单位(CPU、内存等) Container可以加载任意程序,而且不限于Java 一个Node可以包含多个Container,也可以是一个大的Container Appli…

    Hadoop 教程 2023年6月2日
  • Hadoop Failover

    失败类型 程序问题 进程崩溃 硬件问题 失败处理 任务失败 运行时异常或者JVM退出都会报告给ApplicationMaster 通过心跳来检查挂住的任务(timeout),会检查…

  • Hadoop MapReduce

    简介 一种分布式的计算方式指定一个Map(映#x5C04;)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相…

    Hadoop 教程 2023年6月2日
  • Hadoop 读取数据

    MapReduce – 读取数据 通过InputFormat决定读取的数据的类型,然后拆分成一个个InputSplit,每个InputSplit对应一个Map处理,Re…

    Hadoop 教程 2023年6月2日
  • Hadoop Shuffle

    对Map的结果进行排序并传输到Reduce进行处理 Map的结果并不是直接存放到硬盘,而是利用缓存做一些预排序处理 Map会调用Combiner,压缩,按key进行分区、排序等,尽…

    Hadoop 教程 2023年6月2日
  • Hadoop 编程

    处理 select:直接分析输入数据,取出需要的字段数据即可 where: 也是对输入数据处理的过程中进行处理,判断是否需要该数据 aggregation:min, max, su…

  • Hadoop IO

    输入文件从HDFS进行读取. 输出文件会存入本地磁盘. Reducer和Mapper间的网络I/O,从Mapper节点得到Reducer的检索文件. 使用Reducer实例从本地磁…

    Hadoop 教程 2023年6月2日
  • Hadoop 测试

    Hadoop 测试 MRUnit单元测试Mapper和Reducer类在内存上独立运行, PipelineMapReduceDriver单线程运行. LocalJobRunner单…

    Hadoop 教程 2023年6月2日
  • Hadoop 配置

    配置hadoop之前做好准备工作 1.修改主机名称,我这里创建了三个虚拟主机,分别命名node-1,node-2,node-3,进入 network 文件删掉里面的内容直接写上主机…

    Hadoop 教程 2023年6月2日
  • Hadoop 监控

    Hadoop 监控 Log yarn.log-aggregation-enable=true如果显示错误,则日志存储在节点管理器运行节点上。当聚集启用时所有日志进行汇总,任务完成后…

  • Hadoop 参考

    Yahoo教程 细细品味Hadoop HDFS 原理、架构与特性介绍 Hadoop MapReduce开发最佳实践 MapReduce的Shuffle阶段 Hadoop的最佳实践和…

    Hadoop 教程 2023年6月2日
  • Hadoop 拓展教程

    //www.w3cschool.cn/hadoop/hadoop_big_data_overview.html

    Hadoop 教程 2023年6月2日