一小时,拷打transformer?
你怎么理解AIGC?
讲一下transformer
transformer和cnn的区别
transformer中embeding怎么做的
位置编码你了解哪些形式
三角函数位置编码有哪些好处,旋转位置编码呢
position embeding 和input怎么融合的
多头注意力相比单头优势,encode的时候多头会做融合吗?还是什么时候做融合?
拆成多少个头有什么规律吗?
之后的层归一化怎么实现的
前馈神经网络有几层,为什么要用mlp这种结构?
北京字节跳动科技有限公司图像算法工程师面试题
像gpt和图像生成,大都是decoder-only架构,为什么?参数量多少
相比于传统的模型和思路方法,为什么能达到现在这个效果,以及你怎么看待它未来的发展。
多模态模型了解哪些?
无手撕
你是通过何种渠道获得这次面试机会的?
答:内部推荐
你觉得这次面试的难度如何?
答:困难
这次面试的结果如何?
答:面试未得到工作