Ist es in Bayern normal, dass zwei Frauen an der Schulter zusammen gewachsen sind, sechs Finger an einer Hand haben und trotzdem ein Bierglas nicht so festhalten können, dass es eigentlich runterfallen müsste?

  • barsoap
    link
    fedilink
    arrow-up
    2
    ·
    1 year ago

    Mit 4GB VRAM kommt man nicht mehr sehr weit.

    Ja doch schon. Darfst halt nicht A1111 benutzen das Ding leckt Speicher wie die Sau. Comfy kann auch SDXL mit Standardauflösung mit 4G.

    Kaufen sollte man 4G-Karten heutzutage nicht aber ich werd’ mir hier jetzt zum rumspielen keine neue kaufen zu den Pandemiepreisen.

    • lloram239@feddit.de
      link
      fedilink
      arrow-up
      2
      ·
      edit-2
      1 year ago

      Hab gerade mal A1111 auf einer 4GB RX480 getested, funktionieren tut es, muss aber mit --no-half gestartet werden und die Performance ist recht unbrauchbar, 6min für 512x512 ohne Extras, auf einer RX6700 braucht das 4sec.

      • barsoap
        link
        fedilink
        arrow-up
        2
        ·
        edit-2
        1 year ago

        4G RX5500, 512x512 SD1.5 (und ComfyUI), warmgelaufen, sind bei mir 1.86it/s. 4 Sekunden wären da 7-8 Schritte sind schon reichlich grenzwertig aber 20 Schritte in 11 Sekunden laufen bei mir definitiv unter benutzbar.

        --no-half

        Jop RX480 scheint kein fp16 zu haben. RX5500 ist im Prinzip in genau der gleichen Klasse aber schon Navi und hat fp16, das ist mal ne schlappe Verdoppelung der effektiven TFLOPs. VRAM-Speicherbedarf ist auch gleich halbiert, da kann das Modell dann auch komplett im VRAM bleiben und muss nicht zwischen den Schritten immer hin und her geschaufelt werden.

    • aaaaaaaaargh@feddit.de
      link
      fedilink
      Deutsch
      arrow-up
      1
      ·
      edit-2
      1 year ago

      Was genau ist denn eine Standardauflösung bei dir? Also ich hab eine 2080 mit 8 Gigs und wenn ich das SD XL base model mit kleinem LoRA und Prompts nutze, komme ich nicht wesentlich über 1200x1200 Bildpunkte. Sobald dann sowas wie ControlNet dabei ist, sind eher 800x800 das Maximum.

      Ich schließe daher daraus: wenn man sowas ernsthaft einsetzen möchte, wird man unter 12+ Gigs nicht weit kommen.

      • barsoap
        link
        fedilink
        arrow-up
        3
        ·
        edit-2
        1 year ago

        https://stablediffusionxl.com/sdxl-resolutions-and-aspect-ratios/

        LoRAs sind kein Problem, die werden in’s Modell reingerechnet bevor die Inferenz startet. ControlNet kommt drauf an das kann schon kritisch werden, wirst aber t2i-Adapter finden. Die werden auch vorher reingerechnet und sind daher auch schneller – auch nicht so genau aber wer benutzt schon Controlnet mit hohem Gewicht.

        Wenn VRAM gerade fragmentiert ist kann es sein dass du zwingend die tiled VAE decode node nutzen musst, mit sehr niedriger Auflösung.

        Was bei mir mit SDXL im Moment nicht geht sind sehr hohe Auflösungen dazu fehlt noch ControlNet tile.

        Ich schließe daher daraus: wenn man sowas ernsthaft einsetzen möchte, wird man unter 12+ Gigs nicht weit kommen.

        Da ist schon was dran denn mit 4G kann man definitiv nicht trainieren.