Code-Cookbook
latest
博客
Blogs
Random ramblings
Random ramblings
大数据
Bigdata
Bigdata Tools
1. Apache Druid
2. Apache Flume
3. Flink
4. Hadoop搭建总体步骤
5. Hbase
6. Hive
7. Kafka
8. Kudu
9. Kylin
10. Redis
11. Spark
12. Spark Core
13. Spark SQL
14. Spark Streaming
15. Structured Streaming
16. Zookeeper
17. ZookeeperAndHadoop
18. 常用软件梳理
大数据辅助工具
Auxiliary tools
SQL相关
SQL
Code-Cookbook
Bigdata Tools
在 GitHub 上编辑
Bigdata Tools
1. Apache Druid
1.1. 架构
1.2. 预聚合-位图索引
1.3. 基本使用
1.4. 清理Druid
2. Apache Flume
2.1. 概述
2.2. 组件架构
2.3. Flume 安装
2.4. 案例
3. Flink
3.1. 环境搭建
3.2. Flink运行时组件
3.3. ExecutionGraph
3.4. 总体架构
3.5. 广播变量
3.6. 分布式缓存
3.7. State
3.8. 容错机制
3.9. End To End Exactly-Once
3.10. 并行度
3.11. Flink CEP
4. Hadoop搭建总体步骤
4.1. Linux集群环境
4.2. 节点规划
4.3. Hadoop分布式上安装
5. Hbase
5.1. 介绍
5.2. 功能
5.3. 应用场景
5.4. 特点及概念
5.5. HBASE架构
5.6. 配置
5.7. 客户端操作
5.8. 存储设计
5.9. 角色功能
5.10. HBASE Java API
5.11. Hbase与MapReduce的集成
5.12. BulkLoad
5.13. Hive与HBASE集成
5.14. HBASE热点
5.15. 预分区与Rowkey设计
5.16. LSM模型与列族属性
5.17. 常用列族属性
6. Hive
6.1. 本质
6.2. 功能
6.3. 应用场景
6.4. 架构
6.5. 常用配置
6.6. 元数据服务
6.7. 表的分类与结构
6.8. Join与排序
6.9. 复杂数据类型
6.10. 函数
7. Kafka
7.1. 消息队列
7.2. Kafka的介绍和以及应用
7.3. 自定义分区规则
7.4. 手动控制Offset
7.5. Kafka存储及检索
7.6. Kafka安全性保证
7.7. Kafka常用配置
7.8. Kafka常用操作指南
7.9. Kafka Rebalance
7.10. Kafka的分区策略
8. Kudu
8.1. Overview
8.2. 架构
8.3. API使用
9. Kylin
9.1. 概述
9.2. 启动
9.3. 使用
9.4. 工作原理
9.5. 碎片管理
9.6. Cuboid剪枝优化
10. Redis
10.1. 介绍
10.2. 应用场景
10.3. 特点
10.4. Windows上使用Redis
10.5. 数据类型和语法
10.6. 持久化
10.7. 集群搭建
10.8. 可能遇到的问题
11. Spark
11.1. Introduction
11.2. 框架模块
11.3. 运行模式
11.4. Quick Start
11.5. Spark应用组成
11.6. 使用Spark Shell
11.7. Spark Standalone集群
11.8. 提交程序运行Spark Submit
11.9. Spark Standalone HA
11.10. Spark On Yarn
11.11. Deploy Mode
12. Spark Core
12.1. RDD
12.2. 持久化
12.3. Checkpoint
12.4. 共享变量
12.5. Spark内核调度
12.6. Spark Shuffle
12.7. Job调度流程
12.8. 并行度
13. Spark SQL
13.1. 概述
13.2. DataFrame
13.3. Dataset
13.4. RDD、DataFrame和Dataset之间的转化关系
13.5. 如何理解RDD、DataFrame和Dataset
14. Spark Streaming
14.1. 计算思想
14.2. 编程步骤
14.3. 应用监控
14.4. 工作原理
14.5. DStream
14.6. 流式应用状态
15. Structured Streaming
15.1. Spark Streaming的不足
15.2. Structured Streaming 和其他系统的显著区别
15.3. 核心思想
15.4. 输入源
15.5. Streaming Queries
15.6. 集成Kafka
15.7. 事件时间窗口分析
15.8. Streaming Deduplication
15.9. 附录
16. Zookeeper
16.1. 辅助选举
16.2. ZK选举
16.3. 节点类型
16.4. 监听机制
16.5. 基本使用
17. ZookeeperAndHadoop
17.1. Zookeeper
17.2. Hadoop
18. 常用软件梳理
18.1. 软件及开放的端口
18.2. Zookeeper基本使用
18.3. Hadoop基本使用
18.4. Hive的基本使用
18.5. HBASE基本使用
Read the Docs
v: latest
版本
latest
main
下载
托管于 Read the Docs
项目主页
构建