Tensorflow auf Cluster

  • Hallo,


    hat jemand Erfahrung mit Tensorflow auf dem Cluster, bspw. ein Neuronales Netz trainiert o.ä..

    Mein Laptop stößt langsam an seine Grenzen. Fürs erste würde es reichen, wenn die Jobs ohne Parallelisierung oder GPU auf dem Cluster laufen, so dass ich den Laptop für sonstige Arbeiten verwenden kann bzw. er nicht die ganze Zeit laufen muss.


    Danke!

  • Hey prinzipiell habe ich es noch nicht ausgeführt, aber auch einerseits aus dem Grund, dass die Ressourcen die man dort benutzt beschränkt sind und die sind als Student relativ gering. Ich denke mal wenn man dort Tensorflow laufen lässt stößt man dort relativ schnell an die Kapazitätsgrenze. Problematischerweise wird dann einfach der laufende Dienst beendet.

    Ich meine dass ich irgendwo gelesen habe, dass Studenten 0,2 Coreh/Year haben. Wieviel das jetzt wirklich genau sind weiß ich auch nicht.


    Falls hierzu jemand genauere Infos hat wäre ich dazu aber auch dankbar.


    Alternativ könntest du auch eine AWS EC2 Instanz benutzen. AWS hat eine Studentenmitgliedschaft in der man sogar bis zu 150$ gratis bekommt. Auf einer leistungsstarken P3 Instanz sind das immerhin fast 3 Tage durchgängiges Training. Die Hardware eignet sich auch deutlich besser zum Trainieren.


    Da du ja wieso mit Tensorflow arbeitest könntest du auch schauen ob Google ein ähnliches Programm hat.

  • Klar, worum geht es spezifisch?


    Du musst dir zuerst einen Account fuer den HPC Service anlegen.

    http://www.itc.rwth-aachen.de/go/id/hisv


    Vebinden tust du dich dann mit

    ssh cluster.rz.rwth-aachen.de


    Hier hast du Infos zu den GPUs

    https://doc.itc.rwth-aachen.de…ns+within+the+GPU+cluster


    Du musst dir halt auf dem Cluster eine virtual environment starten, um darauf Tensorflow zu installieren.

  • Apropro, wenn du den GPU Cluster zwecks PA etc benoetigst, kannst du dir mehr Resourcen beantragen. Fuer meine PA haben die default Resourcen als Student gereicht. (Haben mehrere Wochen lang DNNs trainiert.)

  • Apropro, wenn du den GPU Cluster zwecks PA etc benoetigst, kannst du dir mehr Resourcen beantragen. Fuer meine PA haben die default Resourcen als Student gereicht. (Haben mehrere Wochen lang DNNs trainiert.)

    Habe mich wohl dann doch verlesen mit den Default Ressourcen. Weißt du wieviele Stunden das ungefähr für Rechnen mit GPUs sind?


    Habe gerade gelesen, dass es anscheinend doch 0,0005 Mio.-Core-Hours/Month sind, d.h. knapp 500h. Frag mich nur ob das auch für die GPUs gilt.

  • Danke für die Antworten.

    okay danke, werde es mal ausprobieren.

    Habe jetzt erstmal Anaconda auf dem Windows-Frontend installiert (hat mich gewundert, dass man dort überhaupt Software installieren kann) und es läuft. Von der Performance her ist leider kein deutlicher Unterschied zum Desktop/Laptop zu spüren. Aber wenigstens ist der Laptop dann frei.

    Konntest du einen deutlichen Unterschied feststellen?

    Habe mich wohl dann doch verlesen mit den Default Ressourcen. Weißt du wieviele Stunden das ungefähr für Rechnen mit GPUs sind?


    Habe gerade gelesen, dass es anscheinend doch 0,0005 Mio.-Core-Hours/Month sind, d.h. knapp 500h. Frag mich nur ob das auch für die GPUs gilt.

    Ich glaube als Hiwi bekommt man auch die 0,002 Mio durch den 'employee'-Status hinzu.

  • Okay, habs hinbekommen.

    ABER: tensorflow scheint nur bis version 1.5 unterstuetzt zu werden. Alles darueber fuehrt bei mir zu "Illegal hardware instructions (core dumped)". Das scheint wohl oefters vor zu kommen, wenn ein gewisser Hardwaresupport seitens des Prozessors nicht gegeben ist.

    Hast du es mit einer aktuelleren Versionen zum Laufen gebracht? Wenn ja, wie?

  • Ich habe meine PA vor anderhalb Jahren mit der Version 1.3/1.2 geschrieben.

    Hast du schon beim Rechenzentrum nachgefragt? Auf dem Cluster kannst du dich mit verschiedenen GPUs ssh'en. (ssh linuxgpud1 z.B., wenn ich mich richtig erinnere)

  • hey ich habe auch vor über den Cluster Tensorflow über die GPU zu nutzen. Könntest du mir bitte detailliert beschreiben wie du vorgegangen bist ?
    Mein Stand: ich hab Zugriff auf den Cluster (Windows) und dort Pycharm und Anaconda auf dem Verzeichnis H: installiert


    Vielen Dank im voraus :)

    EidMb, Chemie, HöMa I, Physik, KOE, Mechanik I, MG I, HöMa II, CAD, ET, Mechanik II, Info, MTL, WK I, HöMa III, Thermo I/II, Mechanik III, MG II/III, SimTech, NuMa, WK II, Strömi I, WSÜ, RT, BE, QPM, WZM, FT I, Fügetechnik I, PM I, FKPF, EidAW, ObT, PidF, Projektarbeit, Praktikum, BA

    Einmal editiert, zuletzt von DINMasch ()