* '''BDT''' (Lehrveranstaltung Big Data Technologien)
Auf dieser Seite finden Sie die Anleitungen zur Benutzung der Software für die '''BDT'''-Lehrveranstaltung.
Hinweise zur Nutzung des VPNs \[https://its.h-da.io/infra-docs/docs/vpn.html von außerhalb der Hochschule oder des FBI-Netzes\]
Auf dieser Seite finden Sie die Anleitungen zur Benutzung der Software für die **Big Data Technologien** Lehrveranstaltung.
# Generelles
* Es gibt einen Clusterverbund mit jeweils 8 Nodes
* Die Maschinen sind nur aus dem [VPN](https://its.h-da.io/infra-docs/docs/vpn.html) und dem Hochschulnetz vor Ort erreichbar
* Die Anmeldung an den Maschinen erfolgt per SSH (nur aus dem VPN) mit Ihrem hda-Benutzer auf dem Master-Node: `master.bdt.users.h-da.cloud`. Dies ist der Master-Node für Couchbase, MongoDB und Hadoop
* Eine detaillierte Anleitung zu SSH & Co. dazu finden Sie auf der Seite [[Big Data Cluster|Big%20Data%20Cluster]]
...
...
@@ -106,15 +103,15 @@ Mit Klick auf **Save & Connect** wird eine Verbindung zur Datenbank aufgebaut.
Couchbase ist als Cluster über 8 Nodes konfiguriert.
### Version
### Version
7.2.0 (Enterprise Edition)
### Kurzanleitung
### Kurzanleitung
* Sie erhalten für die Arbeit mit Couchbase einen eigenen Benutzer (`GruppeNN`) mit dazugehörigem Passwort im 1. Praktikum.
* Mit diesem können Sie auf einem bereits angelegten Bucket arbeiten, der den gleichen Namen wie ihr Benutzer hat
* Die Shell für N1QL-Abfragen wird mit `cbq -e master.bdt.users.h-da.cloud:8091 -c=GruppeNN:passwort` gestartet und mit `\QUIT;` oder STRG+D wieder verlassen
* Die Shell für N1QL-Abfragen wird mit `cbq -e master.bdt.users.h-da.cloud:8091 -c=GruppeNN:passwort` gestartet und mit `\QUIT;` oder STRG+D wieder verlassen
**Alternativ:** mit `cbq -e master.bdt.users.h-da.cloud:8091 -u GruppeNN` aufrufen und dann das Passwort eingeben
...
...
@@ -131,7 +128,7 @@ Couchbase ist als Cluster über 8 Nodes konfiguriert.
Hadoop ist als Cluster über 8 Nodes konfiguriert, muss jedoch vorher explizit gestartet werden (z.B. nach dem Wechsel der NoSQL-Datenbanksoftware, typischerweise zum 4. und 5. Praktikum)
...
...
@@ -144,7 +141,7 @@ Hadoop ist als Cluster über 8 Nodes konfiguriert, muss jedoch vorher explizit g
* Sie können Hadoop direkt mit Ihrem hda\*-Benutzer verwenden. Die hadoop-Dienste sind bereits für Sie gestartet.
* Die Anmeldung erfolgt am Hadoop-Master: `master.bdt.users.h-da.cloud` (per SSH aus dem VPN oder vor Ort an der Hochschule)
* Den Status der Nodes bzw. der Hadoop-Jobs können Sie hier einsehen: https://datahub.users.h-da.cloud:9870/dfshealth.html und https://datahub.users.h-da.cloud/cluster
* Legen Sie im _HDFS_ bitte ein Unterverzeichnis mit Ihrem hda-Benutzer mit Hilfe des Befehls `hdfs dfs -mkdir /user/hda-Benutzer` an und verwenden dieses.
* Legen Sie im _HDFS_ bitte ein Unterverzeichnis mit Ihrem hda-Benutzer mit Hilfe des Befehls `hdfs dfs -mkdir /user/hda-Benutzer` an und verwenden dieses.
**Anmerkung:**`hadoop fs` und `hdfs dfs` sind bei der Verwendung von HDFS synonym.
* Beachten Sie, dass bei der Ausführung eines hadoop-Jobs das angegebene `output`-Verzeichnis noch nicht existieren darf bzw. vorher mit `hdfs dfs -rmdir /user/hda-Benutzer/output` gelöscht werden muss
...
...
@@ -164,7 +161,7 @@ Anleitung zum kompletten Kompilieren und Ausführen direkt auf dem Cluster:
* Java-Programm erstellen (z.B. `Praktikum.java`)
* Ggf. benötigte Libraries (z.B. json-simple-1.1.1.jar) mit scp (oder WinSCP o.ä.) in Ihr Homeverzeichnis auf `master.bdt.users.h-da.cloud` (nicht im HDFS) `/home/hda-Benutzer` kopieren. [Quelle](https://code.google.com/archive/p/json-simple/downloads)
* Damit die Libraries auf allen Knoten genutzt werden können, im Programm das Toolinterface verwenden: [Hinweise zur Verwendung](https://hadoopi.wordpress.com/2013/06/05/hadoop-implementing-the-tool-interface-for-mapreduce-driver/)
* Damit die Libraries auf allen Knoten genutzt werden können, im Programm das Toolinterface verwenden: [Hinweise zur Verwendung](https://hadoopi.wordpress.com/2013/06/05/hadoop-implementing-the-tool-interface-for-mapreduce-driver/)