欧美在线一级ⅤA免费观看,好吊妞国产欧美日韩观看,日本韩国亚洲综合日韩欧美国产,日本免费A在线

    <menu id="gdpeu"></menu>

  • 北京快手大數(shù)據(jù)研發(fā)技術(shù)面經(jīng)

    2020-07-01    面經(jīng)大全   


    昨天面的, 下午2點(diǎn)到6點(diǎn)多, 全程見了2位HR和4位研發(fā), 其中2位研發(fā)是比較高級(jí)的leader. 目前等HR回復(fù)中

    自己之前在小公司做了2年大數(shù)據(jù), 人手少, 哪里需要哪里搬, 所以這次被考察的面也有點(diǎn)廣

    題目做了一下簡(jiǎn)單記錄, 會(huì)有遺漏, 并且沒有按順序哈. 個(gè)人覺得大概回答下來80%多吧

    Java

    1. HashMap的底層數(shù)據(jù)結(jié)構(gòu), 為什么JDK8要用紅黑樹. ConcurrentHashMap的底層數(shù)據(jù)結(jié)構(gòu), 如何保證線程安全

    2. synchronized關(guān)鍵字的本質(zhì), 作用是什么. volatile關(guān)鍵字的作用, 哪些情況下會(huì)用它

    3. Java線程的幾大狀態(tài)及轉(zhuǎn)換. 線程可重入是什么概念, 可重入鎖呢

    4. 如果要設(shè)計(jì)一個(gè)線程池, 需要考慮哪些要素. Executors工廠類能創(chuàng)建哪些線程池, 用過哪些

    5. 講一講熟悉的設(shè)計(jì)模式. 單例模式及工廠模式的實(shí)現(xiàn)方法. 裝飾器模式是怎么一回事

    6. 講一講熟悉的JVM GC算法, 常用的垃圾收集器. CMS有什么優(yōu)缺點(diǎn)

    7. 一個(gè)Java應(yīng)用上線后, 關(guān)注哪些性能指標(biāo). 如果響應(yīng)時(shí)間過長(zhǎng)或者CPU占用過高, 如何排查, 用哪些工具或命令

    大數(shù)據(jù)組件

    1. 是否自己搭建的集群, 集群節(jié)點(diǎn)數(shù)及配置

    2. Hadoop的XML配置文件有哪些, 改過哪些參數(shù), 分別代表什么含義

    3. HDFS NameNode高可用如何實(shí)現(xiàn), 需要哪些角色. YARN有哪些組件, 如何分配資源

    4. Spark RDD有哪些特點(diǎn), 寬依賴和窄依賴. RDD的緩存級(jí)別

    5. DAGScheduler及stage如何劃分. 給一個(gè)比較復(fù)雜的RDD lineage, 手動(dòng)劃分stage和task

    6. Spark Streaming以一定的時(shí)間窗口統(tǒng)計(jì)PV/UV, 如果窗口內(nèi)數(shù)據(jù)量暴漲, 如何保證穩(wěn)定性. 如果會(huì)延遲上報(bào), 如何保證實(shí)時(shí)性

    7. Kafka與Spark Streaming集成, 如何保證exactly once語義

    8. Spark/Hive中大表join小表的優(yōu)化方法. 數(shù)據(jù)傾斜和shuffle調(diào)優(yōu)方法

    9. 調(diào)整過Hive的哪些參數(shù), 用什么執(zhí)行引擎. Hive UDF怎么寫, 寫過哪些. HiveQL是怎樣解析成MR/Spark job的

    10. HBase的數(shù)據(jù)在HDFS上是怎樣存儲(chǔ)的, 寫入數(shù)據(jù)的流程是怎樣的. 為什么HBase適合寫多讀少業(yè)務(wù)

    11. HBase的一個(gè)region由哪些東西組成. RegionServer宕機(jī)之后如何感知, 如何遷移數(shù)據(jù)

    12. 為什么選用Kudu作為HBase和Hive的折中方案, 它有什么特點(diǎn). 如果不用Kudu, HBase的二級(jí)索引能解決問題嗎

    13. Impala的查詢及執(zhí)行與Hive有什么不同 [PS. 我之前的項(xiàng)目里用了Kudu+Impala]

    數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)

    1. 之前業(yè)務(wù)中的數(shù)據(jù)倉(cāng)庫(kù)是如何分層的, 怎樣建模, 主題如何劃分

    2. 從ODS到DW層的ETL, 做了哪些工作

    3. 1~3NF的含義. 維度建模中星型模型和雪花模型的不同. 代理鍵是什么, 支架表是什么

    4. 如何處理緩慢變化維. 怎樣建設(shè)拉鏈表, 如何在拉鏈表中恢復(fù)最新數(shù)據(jù)

    算法和應(yīng)用題

    1. 最長(zhǎng)公共子序列(LCS)問題. 動(dòng)態(tài)規(guī)劃

    2. 找出二叉樹中任意兩個(gè)節(jié)點(diǎn)的最低公共根節(jié)點(diǎn), 如果樹是BST呢. 深度優(yōu)先搜索+二分查找樹性質(zhì)

    3. 10億條64B長(zhǎng)的URL, 限定1G內(nèi)存, 做計(jì)數(shù), 如果要TopN的話呢. 哈希分桶+堆排序時(shí)間復(fù)雜度

    4. 用戶行為日志有UID和時(shí)間戳, 設(shè)定一個(gè)session間隔. 離線及在線地計(jì)算用戶的平均session長(zhǎng)度

    5. 之前做過標(biāo)簽推薦系統(tǒng), 詳細(xì)講一下架構(gòu)和自己設(shè)計(jì)的算法. 算法流程是行為評(píng)分+指數(shù)衰減+線性歸一化+余弦相似度/皮爾遜相關(guān)性+TF-IDF打壓



    相關(guān)文章
    熱點(diǎn)文章
    推薦文章