Turinys:
SQL „Hadoop“ yra analizės taikymo įrankių grupė, apjungianti SQL stiliaus užklausas ir duomenų apdorojimą su naujausiais „Hadoop“ duomenų sistemos elementais. SQL atsiradimas „Hadoop“ yra svarbus didelių duomenų apdorojimo vystymasis, nes jis leidžia didesnėms žmonių grupėms sėkmingai dirbti su „Hadoop“ duomenų apdorojimo sistema vykdant SQL užklausas dėl milžiniškų didelių duomenų, kuriuos „Hadoop“ apdoroja, apimties. Akivaizdu, kad anksčiau „Hadoop“ sistema nebuvo tokia prieinama žmonėms, ypač kalbant apie jos užklausų galimybes. Remiantis plėtra, darbuose buvo keletas priemonių, kurios žada pagerinti įmonių produktyvumą, kai reikia kokybiškai ir greitai apdoroti ir analizuoti didelius duomenis. Taip pat nereikia daug investuoti į įrankio mokymąsi, kaip tai turėtų padaryti tradicinės SQL žinios.
SQL apibrėžimas „Hadoop“
„SQL Hadoop“ yra programų grupė, leidžianti vykdyti SQL stiliaus užklausas dideliais duomenimis, kuriuos kaupia „Hadoop“ duomenų apdorojimo sistema. Akivaizdu, kad duomenų užklausa, gavimas ir analizė tapo lengvesnė pridedant SQL Hadoop. Kadangi SQL iš pradžių buvo sukurtas reliacinėms duomenų bazėms, jį reikėjo modifikuoti pagal „Hadoop 1“ modelį, kurį sudaro „MapReduce“ ir „Hadoop“ paskirstytų failų sistema (HDFS), ir „Hadoop 2“ modelį, kuriame nėra „MapReduce“ ir HDFS.
Vienas iš pirmųjų bandymų sujungti SQL su Hadoop leido sukurti „Hive“ duomenų saugyklą su „HiveQL“ programine įranga, kuri galėtų versti SQL stiliaus užklausas į „MapReduce“ užduotis. Po to buvo sukurtos kelios programos, kurios galėtų atlikti panašius darbus. Tarp vėlesnių įrankių išryškėja „Drill“, „BigSQL“, „HAWQ“, „Impala“, „Hadapt“, „Stinger“, „H-SQL“, „Splice Machine“, „Presto“, „PolyBase“, „Spark“, „JethroData“, „Shark“ („Hive on Spark“) ir „Tez“ („Hive on Tez“).
