Titelbereich vereinheitlicht authored by Benedict Reuschling's avatar Benedict Reuschling
--- ---
title: 'Praktikum Big Data Technologien ' title: 'Praktikum Big Data Technologien '
--- ---
Es gibt einen Clusterverbund mit jeweils 8 Nodes: # Lehrveranstaltung Big Data Technologien
* '''BDT''' (Lehrveranstaltung Big Data Technologien) Auf dieser Seite finden Sie die Anleitungen zur Benutzung der Software für die **Big Data Technologien** Lehrveranstaltung.
Auf dieser Seite finden Sie die Anleitungen zur Benutzung der Software für die '''BDT'''-Lehrveranstaltung.
Hinweise zur Nutzung des VPNs \[https://its.h-da.io/infra-docs/docs/vpn.html von außerhalb der Hochschule oder des FBI-Netzes\]
# Generelles # Generelles
* Es gibt einen Clusterverbund mit jeweils 8 Nodes
* Die Maschinen sind nur aus dem [VPN](https://its.h-da.io/infra-docs/docs/vpn.html) und dem Hochschulnetz vor Ort erreichbar * Die Maschinen sind nur aus dem [VPN](https://its.h-da.io/infra-docs/docs/vpn.html) und dem Hochschulnetz vor Ort erreichbar
* Die Anmeldung an den Maschinen erfolgt per SSH (nur aus dem VPN) mit Ihrem hda-Benutzer auf dem Master-Node: `master.bdt.users.h-da.cloud`. Dies ist der Master-Node für Couchbase, MongoDB und Hadoop * Die Anmeldung an den Maschinen erfolgt per SSH (nur aus dem VPN) mit Ihrem hda-Benutzer auf dem Master-Node: `master.bdt.users.h-da.cloud`. Dies ist der Master-Node für Couchbase, MongoDB und Hadoop
* Eine detaillierte Anleitung zu SSH & Co. dazu finden Sie auf der Seite [[Big Data Cluster|Big%20Data%20Cluster]] * Eine detaillierte Anleitung zu SSH & Co. dazu finden Sie auf der Seite [[Big Data Cluster|Big%20Data%20Cluster]]
...@@ -106,15 +103,15 @@ Mit Klick auf **Save & Connect** wird eine Verbindung zur Datenbank aufgebaut. ...@@ -106,15 +103,15 @@ Mit Klick auf **Save & Connect** wird eine Verbindung zur Datenbank aufgebaut.
Couchbase ist als Cluster über 8 Nodes konfiguriert. Couchbase ist als Cluster über 8 Nodes konfiguriert.
### Version ### Version
7.2.0 (Enterprise Edition) 7.2.0 (Enterprise Edition)
### Kurzanleitung ### Kurzanleitung
* Sie erhalten für die Arbeit mit Couchbase einen eigenen Benutzer (`GruppeNN`) mit dazugehörigem Passwort im 1. Praktikum. * Sie erhalten für die Arbeit mit Couchbase einen eigenen Benutzer (`GruppeNN`) mit dazugehörigem Passwort im 1. Praktikum.
* Mit diesem können Sie auf einem bereits angelegten Bucket arbeiten, der den gleichen Namen wie ihr Benutzer hat * Mit diesem können Sie auf einem bereits angelegten Bucket arbeiten, der den gleichen Namen wie ihr Benutzer hat
* Die Shell für N1QL-Abfragen wird mit `cbq -e master.bdt.users.h-da.cloud:8091 -c=GruppeNN:passwort` gestartet und mit `\QUIT;` oder STRG+D wieder verlassen * Die Shell für N1QL-Abfragen wird mit `cbq -e master.bdt.users.h-da.cloud:8091 -c=GruppeNN:passwort` gestartet und mit `\QUIT;` oder STRG+D wieder verlassen
**Alternativ:** mit `cbq -e master.bdt.users.h-da.cloud:8091 -u GruppeNN` aufrufen und dann das Passwort eingeben **Alternativ:** mit `cbq -e master.bdt.users.h-da.cloud:8091 -u GruppeNN` aufrufen und dann das Passwort eingeben
...@@ -131,7 +128,7 @@ Couchbase ist als Cluster über 8 Nodes konfiguriert. ...@@ -131,7 +128,7 @@ Couchbase ist als Cluster über 8 Nodes konfiguriert.
* https://developer.couchbase.com/documentation/server/5.0/n1ql/n1ql-language-reference/index.html * https://developer.couchbase.com/documentation/server/5.0/n1ql/n1ql-language-reference/index.html
* https://query-tutorial.couchbase.com/tutorial/ * https://query-tutorial.couchbase.com/tutorial/
## Hadoop ## Hadoop
Hadoop ist als Cluster über 8 Nodes konfiguriert, muss jedoch vorher explizit gestartet werden (z.B. nach dem Wechsel der NoSQL-Datenbanksoftware, typischerweise zum 4. und 5. Praktikum) Hadoop ist als Cluster über 8 Nodes konfiguriert, muss jedoch vorher explizit gestartet werden (z.B. nach dem Wechsel der NoSQL-Datenbanksoftware, typischerweise zum 4. und 5. Praktikum)
...@@ -144,7 +141,7 @@ Hadoop ist als Cluster über 8 Nodes konfiguriert, muss jedoch vorher explizit g ...@@ -144,7 +141,7 @@ Hadoop ist als Cluster über 8 Nodes konfiguriert, muss jedoch vorher explizit g
* Sie können Hadoop direkt mit Ihrem hda\*-Benutzer verwenden. Die hadoop-Dienste sind bereits für Sie gestartet. * Sie können Hadoop direkt mit Ihrem hda\*-Benutzer verwenden. Die hadoop-Dienste sind bereits für Sie gestartet.
* Die Anmeldung erfolgt am Hadoop-Master: `master.bdt.users.h-da.cloud` (per SSH aus dem VPN oder vor Ort an der Hochschule) * Die Anmeldung erfolgt am Hadoop-Master: `master.bdt.users.h-da.cloud` (per SSH aus dem VPN oder vor Ort an der Hochschule)
* Den Status der Nodes bzw. der Hadoop-Jobs können Sie hier einsehen: https://datahub.users.h-da.cloud:9870/dfshealth.html und https://datahub.users.h-da.cloud/cluster * Den Status der Nodes bzw. der Hadoop-Jobs können Sie hier einsehen: https://datahub.users.h-da.cloud:9870/dfshealth.html und https://datahub.users.h-da.cloud/cluster
* Legen Sie im _HDFS_ bitte ein Unterverzeichnis mit Ihrem hda-Benutzer mit Hilfe des Befehls `hdfs dfs -mkdir /user/hda-Benutzer` an und verwenden dieses. * Legen Sie im _HDFS_ bitte ein Unterverzeichnis mit Ihrem hda-Benutzer mit Hilfe des Befehls `hdfs dfs -mkdir /user/hda-Benutzer` an und verwenden dieses.
**Anmerkung:** `hadoop fs` und `hdfs dfs` sind bei der Verwendung von HDFS synonym. **Anmerkung:** `hadoop fs` und `hdfs dfs` sind bei der Verwendung von HDFS synonym.
* Beachten Sie, dass bei der Ausführung eines hadoop-Jobs das angegebene `output`-Verzeichnis noch nicht existieren darf bzw. vorher mit `hdfs dfs -rmdir /user/hda-Benutzer/output` gelöscht werden muss * Beachten Sie, dass bei der Ausführung eines hadoop-Jobs das angegebene `output`-Verzeichnis noch nicht existieren darf bzw. vorher mit `hdfs dfs -rmdir /user/hda-Benutzer/output` gelöscht werden muss
...@@ -164,7 +161,7 @@ Anleitung zum kompletten Kompilieren und Ausführen direkt auf dem Cluster: ...@@ -164,7 +161,7 @@ Anleitung zum kompletten Kompilieren und Ausführen direkt auf dem Cluster:
* Java-Programm erstellen (z.B. `Praktikum.java`) * Java-Programm erstellen (z.B. `Praktikum.java`)
* Ggf. benötigte Libraries (z.B. json-simple-1.1.1.jar) mit scp (oder WinSCP o.ä.) in Ihr Homeverzeichnis auf `master.bdt.users.h-da.cloud` (nicht im HDFS) `/home/hda-Benutzer` kopieren. [Quelle](https://code.google.com/archive/p/json-simple/downloads) * Ggf. benötigte Libraries (z.B. json-simple-1.1.1.jar) mit scp (oder WinSCP o.ä.) in Ihr Homeverzeichnis auf `master.bdt.users.h-da.cloud` (nicht im HDFS) `/home/hda-Benutzer` kopieren. [Quelle](https://code.google.com/archive/p/json-simple/downloads)
* Damit die Libraries auf allen Knoten genutzt werden können, im Programm das Toolinterface verwenden: [Hinweise zur Verwendung]( https://hadoopi.wordpress.com/2013/06/05/hadoop-implementing-the-tool-interface-for-mapreduce-driver/ ) * Damit die Libraries auf allen Knoten genutzt werden können, im Programm das Toolinterface verwenden: [Hinweise zur Verwendung](https://hadoopi.wordpress.com/2013/06/05/hadoop-implementing-the-tool-interface-for-mapreduce-driver/)
#### Hadoop Vorbereitung #### Hadoop Vorbereitung
... ...
......