Turinys:
Apibrėžimas - ką reiškia „Apache Pig“?
„Apache Pig“ yra platforma, naudojama analizuoti didelius duomenų rinkinius. Jį sudaro aukšto lygio kalba duomenų analizės programoms išreikšti, taip pat infrastruktūra šioms programoms įvertinti. Vienas reikšmingiausių kiaulės bruožų yra tas, kad jos struktūra reaguoja į reikšmingą paralelizaciją.
Kiaulė veikia „Hadoop“ platformoje, rašo duomenis į „Hadoop“ paskirstytų failų sistemą (HDFS) ir juos nuskaito bei apdoroja vieną ar daugiau „MapReduce“ užduočių. „Apache Pig“ galima įsigyti kaip atvirąjį kodą.
„Apache Pig“ taip pat žinomas kaip „Pig Programming Language“ arba „Hadoop Pig“.
„Techopedia“ paaiškina „Apache Pig“
„Apache Pig“ turi dvi dalis: kiaulės lotynų kalba ir kiaulės variklį. Kiaulės lotynų kalba yra scenarijų kalba, leidžianti vartotojams parodyti, kaip turi būti skaitomi ir apdorojami duomenų srautai iš vienos ar kelių įvestų duomenų, ir vieta, kurioje jie turi būti saugomi.
Kai kurios pagrindinės kiaulienos lotynų savybės yra šios:
- Lengva programuoti: sudėtingos užduotys, susidedančios iš įvairių tarpusavyje sujungtų duomenų transformacijų, aiškiai užkoduojamos kaip duomenų srautų sekos. Tai leidžia juos lengvai rašyti, suprasti ir prižiūrėti.
- Optimizavimo galimybės: Užduočių užkodavimas leidžia sistemai optimizuoti automatinį vykdymą. Tai leidžia vartotojui atkreipti dėmesį į semantiką, o ne į efektyvumą.
- Išplečiamumas: vartotojams leidžiama susikurti savo funkcijas, skirtas specialios paskirties duomenų tvarkymui. „Pig“ variklis yra atsakingas už duomenų srauto, parašyto kiaulės lotynų kalba, vykdymą. Panašiai kaip standartinio reliacinių duomenų bazių valdymo sistemos (RDBMS) dizainą, „Apache Pig“ sudaro analizatorius, optimizavimo priemonė ir tipo tikrintuvas, be to, operatoriai, atliekantys duomenų apdorojimą. Kiaulė neapima operacijų, duomenų katalogo ar galimybės tiesiogiai tvarkyti duomenų saugojimą ar naudoti vykdymo sistemą.
