在BOSS上进行简单沟通后预约了面试,面试的是一个小哥哥,感觉年纪也不大,全程根据之前的回答进行提问,问题和专业相关性很强,面试的过程也感觉非常愉快,目前结果还未出
面试官问的面试题: 1、MySQL的优化
2、MySQL的存储引擎
3、MySQL的事务特性
4、隔离性对应的隔离级别
5、B+tree索引
6、HDFS的读写流程
7、心跳机制,不返回心跳会怎么样
8、在宕机的时候还在写入数据,怎么恢复数据
9、HDFS的HA
10、MR的shuffle机制
11、Zookeeper的脑裂
12、Zookeeper的选举过程
13、客户画像项目的分层
14、怎么将ODS层的数据导入ES的,什么框架实现的
15、HiveSQL的优化
首先会有1个笔试,笔试内容包括公务员的考试题目:语言表达、图形推断、数据分析,然后就是性格测试题,全程需要开启摄像头,还有要求身旁用手机支架支起手机照着自己,但可以和HR说没有手机支架,就把手机放旁边就好了。一周左右就会安排技术面试,我的是技术一面、二面一起的。但因为要求用过flink所以被拒了。
面试官问的面试题: 技术一面
1、离职的原因
2、大学的专业
3、离职后想往哪些行业发展呢、有了解过本公司的业务、产品之类的吗?
4、技术的难点以及解决方法
5、除了ES,有没有考虑别的解决方案
技术二面
6、ES取top100是怎么取的呢?
7、ES分词器的原理
8、主要使用的语言是什么? 有用过Java吗?
9、Python中装饰器的作用 举例的使用场景 如果自己要写一个装饰器的话怎么实现呢
10、SQL问题,取出重复数据中最新的哪条,怎么写SQL
11、spark用的多不多 sparkSQL和算子哪个用的多
12、cache和persist有什么区别(不是persist和checkpoint的区别,需要审题)
13、spark中除了broadcast join之外,还有什么join
14、spark中checkpoint的作用是什么
15、checkpoint和cache的区别是什么呢
16、spark任务时,container日志会返回一个heart beat loss心跳丢失,可能的原因是什么?
17、flink用的多吗? regular join 和interval join的区别
18、对齐的checkpoint和非对齐的checkpoint有什么区别
19、你觉得checkpoint到底是什么呢?
20、checkpoint是用来恢复任务的,或者说并行度从5变到10,是怎么实现的呢?
21、介绍rocksDB是什么(因为我上一个问题回答了flink的3个状态后端,其中一个是rocksDB,所以问了这个问题)
22、有用过clickhouse、starrocks这类MPP吗?(MPP:Massively Parallel Processing大规模并行处理)
23、有接触过ice、hudi这些数据湖吗?湖表是如何实现行级更新和事务ACID的?
24、数仓用过的建模是什么? 维度建模和范式建模的区别是什么?
25、有没有用过范式建模做过业务?
26、对于变化比较快速的业务,如果用维度建模会不会存在什么问题?
27、对操作系统和网络掌握得如何(对底层有要求)
28、介绍一下TCP拥塞控制原理是什么
29、ping命令有用过吗? 它底层使用的协议是什么?(ICMP协议,Internet control Message Protocol)
30、traceroute命令,距离目标IP经过了几跳?原理是什么?
31、网络风暴的具体含义是什么(计算机中的)
32、自旋锁(操作系统里面的)
33、多线程开发的经验有吗?
34、计算密集型应用里,单核开多线程有意义吗? 会比单核单线程快吗?
35、这些相关的底层的知识点是平时自己学的,还是学校教的
36、算法题:给定一个链表、如何判断这个链表是否存在环?(头指针和尾指针)