Cases
bpsolutions-header_img
Haga Ziekenhuis voorspelt wachttijden Op Spoedeisdende hulp
Cases
61603ac5-0488-47db-98cf-eeb83ac5b6bc
Een nieuwe back-up oplossing: De laatste verdedigingslinie
Cases
14abb5d6-2ee3-4efc-a6d1-c8738c612753
Van Duuren informeert klanten beter over vertraging dankzij ai-voorspelling
Apache Hadoop

Apache Hadoop

Apache Hadoop is open-source software waarmee applicaties data in een gedistribueerde omgeving kunnen verwerken. Grote datasets kunnen in kleinere blokken worden opgedeeld en verspreid over meerdere computers zodat deze parallel verwerkt kunnen worden.

De basiscomponenten van Apache Hadoop zijn het Hadoop Distributed File System (HDFS) voor de opslag van data en het Map Reduce (M/R) framework voor het bewerken en analyseren van deze data. HDFS verdeelt de data in secties voor gebruik of verwerking, maar zorgt ook voor redundantie zodat er niets kwijtraakt als er een disk of zelfs complete computer uitvalt.

De data hoeft niet gestructureerd te zijn, wat Hadoop ideaal maakt voor het opslaan en analyseren van data uit bronnen als social media, documenten en grafieken. Apache Hadoop is met de Map/Reduce aanpak vooral geschikt voor grootschalige batch-verwerking en wordt voor bijvoorbeeld geavanceerde analyses met andere technologieën gecombineerd. Dit heeft geresulteerd in heel ecosysteem van rond Hadoop gebouwde tools en connectoren.

Hortonworks Hadoop Data Platform

Het Hortonworks Data Platform bevat andere tools om te voorzien in bepaalde behoeften. Apache Hive is een SQL dialect en Apache Pig is een dataflow taal om op een hoger abstractie niveau MapReduce jobs te creëren. Apache Zookeeper wordt gebruikt om diensten te federeren en Apache Oozie is een scheduling systeem. Hieronder is schematisch het meest voorkomende deel van het Apache Hadoop ecosystem weergeven gegroepeerd naar de verschillende functies.

Apache Spark

Apache Spark is een open source cluster computing framework waarmee eenvoudig applicaties geschreven kunnen worden in Java, Scala, Python en R. Spark biedt meer dan 80 high-level operators waarmee het eenvoudig is om parallelle apps te bouwen. En het kan interactief gebruikt worden van de Scala, Python en R shells.

Wij werken met Hortonworks Data Platform en IBM BigInsights. Dit zijn ‘Enterprise class’ distributies van Apache Hadoop. Daarnaast leveren we technisch beheer en functioneel beheer voor Apache Hadoop omgevingen, zowel in de Cloud (Amazon, Azure) als on-premise.

Share this article:

Related Articles

Blog 5 DORA: Het beheren van data voor digitale weerbaarheid

3/10/2024

NIS2 - Versterk de digitale weerbaarheid van uw bedrijf

4/09/2024

Blog 4 DORA: Versterk de digitale weerbaarheid van uw bedrijf

29/08/2024

NIS2 Compliance: Een strategische aanpak voor IT security en continuïteit

5/08/2024

Dora Compliance: optimaliseer jouw information security plan

29/07/2024

BPSOLUTIONS bereidt zich voor op NIS2: een stap vooruit in Cybersecurity

24/07/2024

BPSOLUTIONS is Klaar voor de DORA Richtlijnen

15/07/2024