|
|
---
|
|
|
title: 'Praktikum Big Data Technologien '
|
|
|
---
|
|
|
Es gibt einen Clusterverbund mit jeweils 8 Nodes:
|
|
|
# Lehrveranstaltung Big Data Technologien
|
|
|
|
|
|
* '''BDT''' (Lehrveranstaltung Big Data Technologien)
|
|
|
|
|
|
Auf dieser Seite finden Sie die Anleitungen zur Benutzung der Software für die '''BDT'''-Lehrveranstaltung.
|
|
|
|
|
|
Hinweise zur Nutzung des VPNs \[https://its.h-da.io/infra-docs/docs/vpn.html von außerhalb der Hochschule oder des FBI-Netzes\]
|
|
|
Auf dieser Seite finden Sie die Anleitungen zur Benutzung der Software für die **Big Data Technologien** Lehrveranstaltung.
|
|
|
|
|
|
# Generelles
|
|
|
|
|
|
* Es gibt einen Clusterverbund mit jeweils 8 Nodes
|
|
|
* Die Maschinen sind nur aus dem [VPN](https://its.h-da.io/infra-docs/docs/vpn.html) und dem Hochschulnetz vor Ort erreichbar
|
|
|
* Die Anmeldung an den Maschinen erfolgt per SSH (nur aus dem VPN) mit Ihrem hda-Benutzer auf dem Master-Node: `master.bdt.users.h-da.cloud`. Dies ist der Master-Node für Couchbase, MongoDB und Hadoop
|
|
|
* Eine detaillierte Anleitung zu SSH & Co. dazu finden Sie auf der Seite [[Big Data Cluster|Big%20Data%20Cluster]]
|
... | ... | @@ -106,15 +103,15 @@ Mit Klick auf **Save & Connect** wird eine Verbindung zur Datenbank aufgebaut. |
|
|
|
|
|
Couchbase ist als Cluster über 8 Nodes konfiguriert.
|
|
|
|
|
|
### Version
|
|
|
### Version
|
|
|
|
|
|
7.2.0 (Enterprise Edition)
|
|
|
|
|
|
### Kurzanleitung
|
|
|
### Kurzanleitung
|
|
|
|
|
|
* Sie erhalten für die Arbeit mit Couchbase einen eigenen Benutzer (`GruppeNN`) mit dazugehörigem Passwort im 1. Praktikum.
|
|
|
* Mit diesem können Sie auf einem bereits angelegten Bucket arbeiten, der den gleichen Namen wie ihr Benutzer hat
|
|
|
* Die Shell für N1QL-Abfragen wird mit `cbq -e master.bdt.users.h-da.cloud:8091 -c=GruppeNN:passwort` gestartet und mit `\QUIT;` oder STRG+D wieder verlassen
|
|
|
* Die Shell für N1QL-Abfragen wird mit `cbq -e master.bdt.users.h-da.cloud:8091 -c=GruppeNN:passwort` gestartet und mit `\QUIT;` oder STRG+D wieder verlassen
|
|
|
|
|
|
**Alternativ:** mit `cbq -e master.bdt.users.h-da.cloud:8091 -u GruppeNN` aufrufen und dann das Passwort eingeben
|
|
|
|
... | ... | @@ -131,7 +128,7 @@ Couchbase ist als Cluster über 8 Nodes konfiguriert. |
|
|
* https://developer.couchbase.com/documentation/server/5.0/n1ql/n1ql-language-reference/index.html
|
|
|
* https://query-tutorial.couchbase.com/tutorial/
|
|
|
|
|
|
## Hadoop
|
|
|
## Hadoop
|
|
|
|
|
|
Hadoop ist als Cluster über 8 Nodes konfiguriert, muss jedoch vorher explizit gestartet werden (z.B. nach dem Wechsel der NoSQL-Datenbanksoftware, typischerweise zum 4. und 5. Praktikum)
|
|
|
|
... | ... | @@ -144,7 +141,7 @@ Hadoop ist als Cluster über 8 Nodes konfiguriert, muss jedoch vorher explizit g |
|
|
* Sie können Hadoop direkt mit Ihrem hda\*-Benutzer verwenden. Die hadoop-Dienste sind bereits für Sie gestartet.
|
|
|
* Die Anmeldung erfolgt am Hadoop-Master: `master.bdt.users.h-da.cloud` (per SSH aus dem VPN oder vor Ort an der Hochschule)
|
|
|
* Den Status der Nodes bzw. der Hadoop-Jobs können Sie hier einsehen: https://datahub.users.h-da.cloud:9870/dfshealth.html und https://datahub.users.h-da.cloud/cluster
|
|
|
* Legen Sie im _HDFS_ bitte ein Unterverzeichnis mit Ihrem hda-Benutzer mit Hilfe des Befehls `hdfs dfs -mkdir /user/hda-Benutzer` an und verwenden dieses.
|
|
|
* Legen Sie im _HDFS_ bitte ein Unterverzeichnis mit Ihrem hda-Benutzer mit Hilfe des Befehls `hdfs dfs -mkdir /user/hda-Benutzer` an und verwenden dieses.
|
|
|
|
|
|
**Anmerkung:** `hadoop fs` und `hdfs dfs` sind bei der Verwendung von HDFS synonym.
|
|
|
* Beachten Sie, dass bei der Ausführung eines hadoop-Jobs das angegebene `output`-Verzeichnis noch nicht existieren darf bzw. vorher mit `hdfs dfs -rmdir /user/hda-Benutzer/output` gelöscht werden muss
|
... | ... | @@ -164,7 +161,7 @@ Anleitung zum kompletten Kompilieren und Ausführen direkt auf dem Cluster: |
|
|
|
|
|
* Java-Programm erstellen (z.B. `Praktikum.java`)
|
|
|
* Ggf. benötigte Libraries (z.B. json-simple-1.1.1.jar) mit scp (oder WinSCP o.ä.) in Ihr Homeverzeichnis auf `master.bdt.users.h-da.cloud` (nicht im HDFS) `/home/hda-Benutzer` kopieren. [Quelle](https://code.google.com/archive/p/json-simple/downloads)
|
|
|
* Damit die Libraries auf allen Knoten genutzt werden können, im Programm das Toolinterface verwenden: [Hinweise zur Verwendung]( https://hadoopi.wordpress.com/2013/06/05/hadoop-implementing-the-tool-interface-for-mapreduce-driver/ )
|
|
|
* Damit die Libraries auf allen Knoten genutzt werden können, im Programm das Toolinterface verwenden: [Hinweise zur Verwendung](https://hadoopi.wordpress.com/2013/06/05/hadoop-implementing-the-tool-interface-for-mapreduce-driver/)
|
|
|
|
|
|
#### Hadoop Vorbereitung
|
|
|
|
... | ... | |