• мэдээний_баннер

Үйлчилгээ

Spark Streaming өгөгдөл цэвэрлэх механизм
(I) DStream ба RDD
Бидний мэдэж байгаагаар Spark Streaming тооцоолол нь Spark Core дээр суурилдаг бөгөөд Spark Core-ийн цөм нь RDD тул Spark Streaming нь RDD-тэй бас холбоотой байх ёстой.Гэсэн хэдий ч Spark Streaming нь хэрэглэгчдэд RDD-г шууд ашиглахыг зөвшөөрдөггүй, харин DStream-ийн багц ойлголтуудын хийсвэрлэл, DStream болон RDD нь багтаамжтай харилцаа юм, та үүнийг Java хэл дээрх чимэглэлийн загвар гэж ойлгож болно, өөрөөр хэлбэл DStream нь RDD-ийн сайжруулалт юм, гэхдээ зан байдал нь RDD-тэй төстэй.
DStream болон RDD хоёулаа хэд хэдэн нөхцөлтэй байдаг.
(1) map, reduceByKey гэх мэт ижил төстэй хувиргах үйлдлүүдтэй байхаас гадна Window, mapWithStated гэх мэт өвөрмөц онцлогтой.
(2) бүгд foreachRDD, тоолох гэх мэт Үйлдлийн үйлдэлтэй.
Програмчлалын загвар нь тууштай байдаг.
(B) Spark Streaming-д DStream-ийг нэвтрүүлэх
DStream нь хэд хэдэн анги агуулдаг.
(1) DirectKafkaInputStream гэх мэт InputDStream гэх мэт өгөгдлийн эх сурвалжийн ангиуд.
(2) Хөрвүүлэх ангиуд, ихэвчлэн MappedDStream, ShuffledDStream
(3) ForEachDStream зэрэг гаралтын ангиуд
Дээрхээс харахад эхнээс нь (оролт) төгсгөл хүртэлх (гаралт) өгөгдлийг DStream системээр гүйцэтгэдэг бөгөөд энэ нь хэрэглэгч ихэвчлэн RDD-г шууд үүсгэж, удирдах боломжгүй гэсэн үг бөгөөд энэ нь DStream нь DStream-д ажиллах боломж, үүрэг хүлээдэг гэсэн үг юм. RDD-ийн амьдралын мөчлөгийг хариуцдаг.
Өөрөөр хэлбэл, Spark Streaming ньавтомат цэвэрлэгээфункц.
(iii) Spark Streaming дахь RDD үүсгэх үйл явц
Spark Streaming дахь RDD-ийн амьдралын урсгал дараах байдлаар бүдүүлэг байна.
(1) InputDStream дээр хүлээн авсан өгөгдлийг KafkaRDD үүсгэдэг DirectKafkaInputStream гэх мэт RDD болгон хувиргадаг.
(2) дараа нь MappedDStream болон бусад өгөгдөл хөрвүүлэх замаар энэ хугацааг шууд хөрвүүлэх газрын зургийн аргад харгалзах RDD гэж нэрлэдэг.
(3) Гаралтын ангиллын үйл ажиллагаанд зөвхөн RDD ил гарсан үед та харгалзах хадгалалт, бусад тооцоолол болон бусад үйлдлийг гүйцэтгэх боломжийг хэрэглэгчдэд олгож болно.