ForwardXu

当你的才华还撑不起你的野心时，你就应该静下心来学习。

2018年面试过阿里、网易、海康的大数据总结的面试题

大数据

面试系列

publishDate: 2019-02-06 wordCount: 814 readTimes: 3 Minutes readCount:

2018年面试过阿里、网易、海康的大数据总结的面试题

(1)spark运行流程、源码架构

(2)Hbase主键设计、hbase为啥比mysql快、为什么项目选用hbase

(3)Hbase读写流程，数据compact流程

HBase写数据流程

1,Client先访问zookeeper，从meta表获取相应region信息，然后找到meta表的数据
2,根据namespace、表名和rowkey根据meta表的数据找到写入数据对应的region信息
3,找到对应的regionserver
4,把数据分别写到HLog和MemStore上一份
4,MemStore达到一个阈值后则把数据刷成一个StoreFile文件。（若MemStore中的数据有丢失，则可以总HLog上恢复）
5,当多个StoreFile文件达到一定的大小后，会触发Compact合并操作，合并为一个StoreFile，（这里同时进行版本的合并和数据删除。）
6,当Storefile大小超过一定阈值后，会把当前的Region分割为两个（Split），并由Hmaster分配到相应的HRegionServer，实现负载均衡

HBase读数据流程

1,Client先访问zookeeper，从meta表读取region的位置，然后读取meta表中的数据。meta中又存储了用户表的region信息。
2,根据namespace、表名和rowkey在meta表中找到对应的region信息
3,找到这个region对应的regionserver
4,查找对应的region
5,先从MemStore找数据，如果没有，再到StoreFile上读(为了读取的效率)。

compact流程

https://blog.csdn.net/ZYC88888/article/details/79666846

(4)Hadoop mapreduce流程

(5)Spark standalone模型、yarn架构模型(画出来架构图)

(6)Spark算子(map、flatmap、reducebykey和reduce、groupbykey和reducebykey、join、distinct)原理

https://blog.csdn.net/dream0352/article/details/62229977

(7)Spark stage的切分、task资源分配、任务调度、master计算资源分配

(8)Sparksql自定义函数、怎么创建dateframe

(9)Sparkstreaming项目多久一个批次数据

(10)Kafka复制机制、分区多副本机制

https://blog.csdn.net/lizhitao/article/details/51718185

(11)Hdfs读写流程，数据checkpoint流程

(12)Sparkshuffle和hadoopshuffle原理、对比

(13)Hivesql怎么转化为MapReduce任务

(14)Spark调优

(15)Spark数据倾斜解决方案

https://blog.csdn.net/weixin_42688876/article/details/82708580

(16)Yarn工作流程、组成架构

(17)Zookeeper首领选取、节点类型、zookeeper实现原理

(18)hbase的ha，zookeeper在其中的作用

(19)spark的内存管理机制，spark1.6前后对比分析

(21)spark rdd、dataframe、dataset区别

https://www.cnblogs.com/starwater/p/6841807.html

(22)spark里面有哪些参数可以设置，有什么用

(23)hashpartitioner与rangePartitioner的实现

(24)spark有哪几种join

https://blog.csdn.net/wisgood/article/details/80106639

(25)spark jdbc(mysql)读取并发度优化

(26)Spark join算子可以用什么替代

(27)HBase region切分后数据是怎么分的

(28)项目集群结构(spark和hadoop集群)

(29)spark streaming是怎么跟kafka交互的，具体代码怎么写的，程序执行流程是怎样的，这个过程中怎么确保数据不丢(直连和receiver方式)

(30)kafka如何保证高吞吐的，kafka零拷贝，具体怎么做的

https://www.jianshu.com/p/835ec2d4c170

(31)hdfs的容错机制

(32)zookeeper怎么保证原子性，怎么实现分布式锁

http://www.cnblogs.com/linjiqin/p/6052031.html

(33)kafka存储模型与网络模型

(34)Zookeeper脑裂问题

https://blog.csdn.net/u010185262/article/details/49910301

(35)Scala

(1)隐式转换

(2)柯理化

本文转载自: 原文

赏

转载请注明: ForwardXu 2018年面试过阿里、网易、海康的大数据总结的面试题

上一篇

Hbase hbck深入

Hbase hbck深入

Hbase hbck深入官网介绍:http://hbase.apache.org/book.html#hbck.in.depthHBaseFsck（hbck）是一个用于检查区域一致性和表完整性问题并修复损坏的HBase的工具。它工作在两种基

2019-02-11 Hbase

Hbase

下一篇

一文了解 OutOfMemory 及解决方案

一文了解 OutOfMemory 及解决方案

一文了解 OutOfMemory 及解决方案1. Java 堆空间发生频率5颗星造成原因无法在 Java 堆中分配对象吞吐量增加应用程序无意中保存了对象引用，对象无法被 GC 回收应用程序过度使用 finalizer。finali

2019-02-01 java

java虚拟机