Apache Hadoop

1/10/2022

Apache Hadoop

Apache Hadoop is open-source software waarmee applicaties data in een gedistribueerde omgeving kunnen verwerken. Grote datasets kunnen in kleinere blokken worden opgedeeld en verspreid over meerdere computers zodat deze parallel verwerkt kunnen worden.

De basiscomponenten van Apache Hadoop zijn het Hadoop Distributed File System (HDFS) voor de opslag van data en het Map Reduce (M/R) framework voor het bewerken en analyseren van deze data. HDFS verdeelt de data in secties voor gebruik of verwerking, maar zorgt ook voor redundantie zodat er niets kwijtraakt als er een disk of zelfs complete computer uitvalt.

De data hoeft niet gestructureerd te zijn, wat Hadoop ideaal maakt voor het opslaan en analyseren van data uit bronnen als social media, documenten en grafieken. Apache Hadoop is met de Map/Reduce aanpak vooral geschikt voor grootschalige batch-verwerking en wordt voor bijvoorbeeld geavanceerde analyses met andere technologieën gecombineerd. Dit heeft geresulteerd in heel ecosysteem van rond Hadoop gebouwde tools en connectoren.

Hortonworks Hadoop Data Platform

Het Hortonworks Data Platform bevat andere tools om te voorzien in bepaalde behoeften. Apache Hive is een SQL dialect en Apache Pig is een dataflow taal om op een hoger abstractie niveau MapReduce jobs te creëren. Apache Zookeeper wordt gebruikt om diensten te federeren en Apache Oozie is een scheduling systeem. Hieronder is schematisch het meest voorkomende deel van het Apache Hadoop ecosystem weergeven gegroepeerd naar de verschillende functies.

Apache Spark

Apache Spark is een open source cluster computing framework waarmee eenvoudig applicaties geschreven kunnen worden in Java, Scala, Python en R. Spark biedt meer dan 80 high-level operators waarmee het eenvoudig is om parallelle apps te bouwen. En het kan interactief gebruikt worden van de Scala, Python en R shells.

Wij werken met Hortonworks Data Platform en IBM BigInsights. Dit zijn ‘Enterprise class’ distributies van Apache Hadoop. Daarnaast leveren we technisch beheer en functioneel beheer voor Apache Hadoop omgevingen, zowel in de Cloud (Amazon, Azure) als on-premise.