Мап Сиде Придружите се вс. Придружити

Овај пост говори о Хадооп Мап сиде јоин Вс. придружити. Такође научите шта је смањење карте, спајање табеле, придруживање, предности коришћења операције спајања на страни мапе у Хиве-у

На овом блогу ћемо разговарати о Придружите се страни карте и његове предности у односу на нормалан рад споја у Кошница .Ово је важан концепт који ћете морати да научите да бисте применили свој .Али пре него што сазнамо за ово, прво би требало да разумемо концепт 'Придружити' и шта се дешава интерно када извршимо спајање Кошница .

Придружити је клаузула која комбинује записе две табеле (или скупове података).
Претпоставимо да имамо двије табеле А и Б. Када извршимо операцију спајања на њима, вратит ће записе који су комбинација свих ступаца А и Б.





Сада да разумемо функционалност нормалног спајања на примеру.

Кад год применимо операцију придруживања, посао ће бити додељен задатку Мап Редуце који се састоји од две фазе - а ‘Фаза карте ’И„ Смањите фазу ’. Задатак мапера током Мап Стагеа је да 'читати' подаци из табела спајања и до „Повратак“ тхе ‘Кључ за придруживање’ и „Придружи вредност“ упари у средњу датотеку. Даље, у фази мешања, ова средња датотека се затим сортира и спаја. Задатак редуктора током фазе смањења је узети овај сортирани резултат као улаз и извршити задатак придруживања.



  • Придруживање на страни мапе је слично придруживању, али све задатке извршиће маппер сам.

  • Придруживање на страни мапе биће углавном погодно за мале столове ради оптимизације задатка.



Како ће се придруживање на страни мапе оптимизовати задатак?

Претпоставимо да имамо две табеле од којих је једна мала. Када предајемо задатак смањења мапе, створиће се локални задатак Мап Редуце пре оригиналног задатка Мап Редуце који ће читати податке мале табеле из ХДФС-а и складиштити их у хеш-табелу у меморији. Након читања, сериализује хеш-табелу у меморији у датотеку хеш-табеле.

У следећој фази, када је оригинални задатак придруживања Мап Редуце покренут, он премешта податке из датотеке хеш табеле у дистрибуирану кеш меморију Хадооп, која ове датотеке попуњава на локални диск сваког маппера. Тако сви мапери могу учитати ову постојану датотеку хеш табеле назад у меморију и обавити спој као и раније. Ток извођења оптимизованог спајања мапе приказан је на доњој слици. Након оптимизације, малу табелу треба прочитати само једном. Такође, ако се на истој машини изводи више мапера, дистрибуирана кеш меморија треба само да гурне једну копију датотеке хеш табеле на ову машину.

једнодимензионални низ у јави

Предности коришћења бочног спајања на мапи:

  • Придруживање на страни мапе помаже у смањењу трошкова који настају при сортирању и спајању у мешање и смањити фазе.
  • Придруживање на страни карте такође помаже у побољшању перформанси задатка смањењем времена за завршетак задатка.

Мане придруживања на страни мапе:

  • Спајање на страни мапе је адекватно само када је једна од табела на којој изводите операцију спајања на страни мапе довољно мала да стане у меморију. Стога није погодно изводити спајање на страни мапе на табелама које у обе имају огромне податке.

Једноставан пример за смањење уноса мапа:

Креирајмо две табеле:

  • Емп : садржи детаље о запосленом као што су име запосленог, ИД запосленог и одељење коме припада.

  • Одељење: садржи детаље попут назива одељења, ИД одељења и тако даље.

Креирајте две улазне датотеке како је приказано на следећој слици да бисте податке учитали у креиране табеле.

запосленик.ткт

депт.ткт

Сад, учитајмо податке у табеле.

Изведимо На страни карте Придружити на две табеле за издвајање списка одељења у којима сваки запослени ради.

Ево, одсек другог стола је мали сто. Запамтите, увек ће број одељења бити мањи од броја запослених у организацији.

подразумевана вредност низа у јави

Извршимо сада исти задатак уз помоћ нормалног спајања на страни Смањивање.

Док извршавате оба придруживања, можете пронаћи две разлике:

  • Придруживање смањењем мапе је завршило посао за мање времена у поређењу са временом потребно за нормално спајање.

  • Мап-редуце јоин је завршио свој посао без помоћи било ког редуктора, док је нормално спајање извршио овај посао уз помоћ једног редуктора.

Стога, Придружите се на страни карте је ваша најбоља опклада када је један од столова довољно мали да стане у меморију да бисте посао завршили у кратком року.

У Окружење у реалном времену , имаћете скупове података са огромном количином података. Дакле, извођење анализе и преузимање података биће дуготрајно ако је један од скупова података мање величине. У таквим случајевима Придруживање на страни мапе помоћи ће да се посао заврши за мање времена.

Никада није било боље време за савладавање Хадоопа! Започните сада са посебно курираним курсом Биг Дата и Хадооп од Едуреке.

мак хеап имплементација у јави

Референце:
хттпс://ввв.фацебоок.цом/нотес/фацебоок-енгинееринг/јоин-оптимизатион-ин-апацхе-хиве/470667928919

Повезани постови:

7 начина како обука великих података може променити вашу организацију