spark有哪些組件? 2023-05-24
ApacheSpark是一個(gè)快速而通用的分布式計(jì)算引擎,用于大規(guī)模數(shù)據(jù)處理和分析。Spark提供了一系列核心組件和相關(guān)工具,用于構(gòu)建分布式數(shù)據(jù)處理應(yīng)...詳情>
spark和mapreduce的區(qū)別有哪些? 2023-03-30
數(shù)據(jù)處理方式:Spark支持多種數(shù)據(jù)處理方式,如批處理、流處理和機(jī)器學(xué)習(xí)等,而MapReduce主要用于批處理。詳情>
hadoop和spark哪個(gè)好 2023-03-30
Hadoop是一個(gè)比較成熟和穩(wěn)定的分布式計(jì)算框架,它具有良好的可擴(kuò)展性、容錯(cuò)性和數(shù)據(jù)安全性。Hadoop的核心是分布式文件系統(tǒng)HDFS和分布式計(jì)算框...詳情>
spark是什么意思 2023-03-28
Spark還支持基于內(nèi)存的迭代計(jì)算模型,可以在多個(gè)節(jié)點(diǎn)之間進(jìn)行數(shù)據(jù)共享和通信,從而大大提高了計(jì)算速度和吞吐量。由于其靈活性和高性能,Spark...詳情>
Flink Spark on Yarn 分布式日志收集問(wèn)題 2022-08-12
對(duì)于Flink,Spark在Yarn上提交的LongTime Job(比如一個(gè)批處理作業(yè)要運(yùn)行幾個(gè)小時(shí)或者本身就是實(shí)時(shí)作業(yè)),其作業(yè)的運(yùn)行日志我們不能等到作業(yè)結(jié)...詳情>
Spark repartition和coalesce的區(qū)別 2022-08-12
repartition只是coalesce接口中shuffle為true的實(shí)現(xiàn)。不經(jīng)過(guò) shuffle,也就是coaleasce shuffle為false,是無(wú)法增加RDD的分區(qū)數(shù)的,比如你源RD...詳情>
Spark groupByKey 和 reduceBykey 區(qū)別 2022-08-12
reduceByKey 可以接收一個(gè) func 函數(shù)作為參數(shù),這個(gè)函數(shù)會(huì)作用到每個(gè)分區(qū)的數(shù)據(jù)上,即分區(qū)內(nèi)部的數(shù)據(jù)先進(jìn)行一輪計(jì)算,然后才進(jìn)行 shuffle 將數(shù)...詳情>
Spark Cache,Presist,CheckPoint的區(qū)別 2022-08-11
Persist 的 MEMORY_ONLY 級(jí)別的存儲(chǔ)等于 Cache,Persist 其他的配置只是存儲(chǔ)的方式不同,作用和原理是和 Cache 類似的,他們二者的區(qū)別如下:詳情>
Spark Streaming 反壓機(jī)制(Back Pressure) 2022-08-11
Spark Streaming 反壓機(jī)制是1.5版本推出的特性,用來(lái)解決處理速度比攝入速度慢的情況,簡(jiǎn)單來(lái)講就是做流量控制。當(dāng)批處理時(shí)間(Batch Processin...詳情>
Spark Streaming 窗口函數(shù) 2022-08-11
理解窗口的兩個(gè)關(guān)鍵概念,窗口長(zhǎng)度(window length)和滑動(dòng)間隔(slide interval)。 窗口函數(shù)會(huì)把原始 DStream 的若干批次的數(shù)據(jù)合并成為一個(gè)新的...詳情>
熱問(wèn)標(biāo)簽 更多>>
熱問(wèn)TOP榜
在線提問(wèn)
專業(yè)導(dǎo)師線上坐鎮(zhèn),解答個(gè)性化學(xué)習(xí)難題
提交問(wèn)題