1、自己介绍和自己的工作经历(讲最近两个公司就可以了)
Xxx
2、讲自己的项目
项目架构设计,自己负责的部分:
之前自己做过视频推荐,然后把数据处理,特征提取,模型部署和调优都讲了一遍
笔试:
二叉树遍历,非递归,二分查找,递归和非递归
字符串是否是子串
后面问了算法和大数据的相关知识:
你熟悉的机器学习/数据挖掘算法主要有哪些?
gbdt 的基本原理GBDT 和 决策森林 的区别?
为什么会产生过拟合,有哪些方法可以预防或克服过拟合?
SVM 的推导--写的不是很好
Hadoop的mapreduce过程
Hive做过的一些调优,数据倾斜处理方法
Hive hql 把一个纵表打横的sql语句
Spark的一些原理知识
1、用过哪些机器学习和数据挖掘工具
Spark mlib ml,sklearn ,tensorflow
问了scala里面的高阶函数
2、hive hql
不用distinct怎么进行数据去重,还有mapjoin 的原理
3、Spark的执行过程
4、快速排序算法
5、特征的选择方法以及特征处理的技巧
把自己工作中用到的都讲了一遍
6、问了LR和深度学习DNN的一个问题
对LR的推导写了一遍
前面2轮感觉还是比较顺心的
三面
到了部门的总监(比较年轻)
1、推荐系统的架构
怎么做召回,实时推荐设计,特征更新,模型更新
2、兴趣标签计算
3、kmeans怎么找最佳k值
4、Gbdt和树模型的差异