Inhalt einer Webseite per Batch speichern

Diskutiere Inhalt einer Webseite per Batch speichern im Programmierung Forum im Bereich Software Forum; Hallo liebe Community. ich hoffe ich bin mit meinem Anliegen richtig hier? Ich wollte mal Fragen, ob es möglich ist per Batch eine Webseite...

DonBone

Threadstarter
Dabei seit
21.01.2021
Beiträge
11
Hallo liebe Community.

ich hoffe ich bin mit meinem Anliegen richtig hier?

Ich wollte mal Fragen, ob es möglich ist per Batch eine Webseite aufzurufen und dann diesen Inhalt als .xml Datei in einem bestimmten Pfad wieder zu speichern.

Es ist ja möglich per Batch einen Browser zu starten und auch die gewünschte Webseite aufzurufen. Leider fehlt mir aber für die weiteren Schritte das nötige wissen, weil ich es bislang nicht brauchte und auch vermutlich nie wieder brauchen werden, sofern dieser eine Prozess realisiert werden kann.

Um es mal im Detail zu beschreiben: Der Inhalt der aufgerufenen Webseite wird in einem XML Format dargestellt. Dieser Inhalt wird aktuell mit "rechtsklick" und "speichern unter" manuell in einem bestimmten Pfad gespeichert. Dies würde ich gerne irgendwie automatisieren, da der Abruf wöchentlich und für mehrere Webseiten stattfinden soll.

Ich hatte gehofft, dass ihr mir hier vielleicht helfen könnten.

Vielen Dank schonmal vorab.

Gruß
die Bone
 

automatthias

vernunftgeplagt
Dabei seit
21.04.2006
Beiträge
11.125
:welcome

Sowas müsste man mit Kommandozeilentools wie wget oder cURL machen realisieren können.
 

DonBone

Threadstarter
Dabei seit
21.01.2021
Beiträge
11
Hallo automatthias,

Vielen Dank für das Willkommen heißen und natürlich für den Tipp.

Dann versuche ich mal mein Glück mit wget.
Ist das was ich damit vorhabe für einen Anfänger realisierbar oder muss man sich hier schon fundierte Kenntnisse aneignen?
 

automatthias

vernunftgeplagt
Dabei seit
21.04.2006
Beiträge
11.125
Also wenn die xml-Datei direkt abrufbar ist, sollte das einfach sein, so wie in dem Beispiel auf der Wikipediaseite eine PDF-Datei geholt wird.

Ansonsten musst du dich auf der GNU-Projektseite durch die Doku wühlen. Ich selber habe wget nur benutzt, um Internetverbindungen zu testen.
 

DonBone

Threadstarter
Dabei seit
21.01.2021
Beiträge
11
So sieht das aus, wenn die Webseite aufgerufen wird. Der Inhalt sollt dann heruntergeladen werden.
 

Anhänge

  • Screenshot 2021-01-21 171847.png
    Screenshot 2021-01-21 171847.png
    73,7 KB · Aufrufe: 82

DonBone

Threadstarter
Dabei seit
21.01.2021
Beiträge
11
mmmh... funktioniert leider nicht.
Das Problem hierbei ist, dass nicht direkt eine Datei zum Abruf zur Verfügung steht. Deswegen kann ich das mit den von mir gefunden Befehlszeile bei WGET nicht funktionieren.. glaube ich zumindest.

Wenn ich den Befehl wget https://webseite.de herunterladen möchte, erscheint immer https: Host not Found

Vielleicht hat jemand noch einen Tipp für mich?
 

automatthias

vernunftgeplagt
Dabei seit
21.04.2006
Beiträge
11.125
"Host not found" heißt, dass was mit der Verbindung nicht stimmt.
Ich habe gerade mal ausprobiert, das Bild oben runter zu laden. Der Link ist
https://www.winboard.org/attachments/screenshot-2021-01-21-171847-png.98415/

Da kam zuerst die Meldung
wget: unable to resolve host address ‘www.winboard.org’

also
nslookup www.winboard.org
;; connection timed out; no servers could be reached

Da wusste ich, dass die Verbindung ausgehend blockiert wird. Schutzsoftware aus -->

wget https://www.winboard.org/attachments/screenshot-2021-01-21-171847-png.98415
--2021-01-21 18:15:55-- https://www.winboard.org/attachments/screenshot-2021-01-21-171847-png.98415
Resolving www.winboard.org (www.winboard.org)... 104.21.40.198, 172.67.188.72, 2606:4700:3031::ac43:bc48, ...
Connecting to www.winboard.org (www.winboard.org)|104.21.40.198|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://www.winboard.org/attachments/screenshot-2021-01-21-171847-png.98415/ [following]
--2021-01-21 18:15:55-- https://www.winboard.org/attachments/screenshot-2021-01-21-171847-png.98415/
Reusing existing connection to www.winboard.org:443.
HTTP request sent, awaiting response... 200 OK
Length: 75435 (74K) [image/png]
Saving to: ‘screenshot-2021-01-21-171847-png.98415.1’

100%[============================================================================================================================>] 75,435 --.-K/s in 0.01s

2021-01-21 18:15:55 (6.74 MB/s) - ‘screenshot-2021-01-21-171847-png.98415.1’ saved [75435/75435]


(Ich hatte der Einfachheit halber die Bash benutzt, da brauchte ich nicht erst wget für Windows runter zu laden)
 

Skyhigh

Dabei seit
17.02.2018
Beiträge
1.908
Ort
Lahr
Ich werfe Mal noch HTTrack in den Ring.
Ist aber ein Zusatz Tool mit GUI
das hatte ich verwendet um meine Websites zu speichern bevor ich sie DSGVO konform gelöscht habe 😁
Soweit ich weiß ist ein Aufruf über die Kommandozeile möglich.
 

DonBone

Threadstarter
Dabei seit
21.01.2021
Beiträge
11
@automatthias Dann blockiert wohl die Firewall.

Bei nslookup bekomme ich eine Antwort.

Ich hab nun die Firewall mal eben umgangen und konnte mit wget eine Webseite speichern, aber bei der Webseite, die ich speichern wollte, kommt nun
wget "https://webservice.XXXXX"
--09:11:46-- ftp://https:21/%2Fwebservice.XXXXX
=> `.listing'
Connecting to https:21...
https: Host not found
unlink: No such file or directory
No matches on pattern `XXXXXX'.
Hat jemand eine Idee woran das liegen kann?

Vielen Dank.
 

automatthias

vernunftgeplagt
Dabei seit
21.04.2006
Beiträge
11.125
Versuche es mal mit der Option --no-check-certificate

Der URL muss genau der sein, der die XML Datei beschreibt; also Rechtsklick --> Link kopieren
In meinem Beispiel oben sieht man dass der Link nicht auf .png endet, sondern dahinter noch .98415 steht.

Aber es kann auch sein, dass der URL redirected wird (weil wget anscheinend von https auf ftp umschaltet)

Nachtrag: evtl. mal die Debugoptionen vom Browser einschalten und schauen, ob man da die (echte) URL sehen kann
 
Zuletzt bearbeitet:

automatthias

vernunftgeplagt
Dabei seit
21.04.2006
Beiträge
11.125
Ja, --no-check-certificate ist eine Option, d.h. zwischen wget und der Option muss ein Leerzeichen stehen, und dahinter natürlich auch

Code:
wget --no-check-certificate https://www.webseite.xxx/project/beispiel.xml
 

automatthias

vernunftgeplagt
Dabei seit
21.04.2006
Beiträge
11.125
verstehe ich nicht; welche Version hast Du runter geladen?

C:\Users\Matthias\Downloads\wget-1.20.3-win64>wget --no-check-certificate https://www.winboard.org/attachments/screenshot-2021-01-21-171847-png.98415
--2021-01-25 11:03:31-- https://www.winboard.org/attachments/screenshot-2021-01-21-171847-png.98415
Resolving www.winboard.org (www.winboard.org)... 172.67.188.72, 104.21.40.198
Connecting to www.winboard.org (www.winboard.org)|172.67.188.72|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://www.winboard.org/attachments/screenshot-2021-01-21-171847-png.98415/ [following]
--2021-01-25 11:03:31-- https://www.winboard.org/attachments/screenshot-2021-01-21-171847-png.98415/
Reusing existing connection to www.winboard.org:443.
HTTP request sent, awaiting response... 200 OK
Length: 75435 (74K) [image/png]
Saving to: 'screenshot-2021-01-21-171847-png.98415'

screenshot-2021-01-21-171847-png.98415 100%[================================================================================================================================>] 73,67K 331KB/s in 0,2s

2021-01-25 11:03:31 (331 KB/s) - 'screenshot-2021-01-21-171847-png.98415' saved [75435/75435]
 

DonBone

Threadstarter
Dabei seit
21.01.2021
Beiträge
11
Mit der 1.20.3 klappt es wesentlich besser. Jedoch erscheint am Ende: no data recievd.
Mit und ohne den Befehl zur Zertifikatsprüfung.

Resolving webservice.NAME.de (webservice.NAME.de)... IP
Connecting to webservice.NAME.de (webservice.NAME.de)|IP|:PORT... connected.
Vielleicht liegt die Krux ja am Link.

Der Aufbau des Links ist wie folgt:

https://webservice.NAME.de/PFAD/Kundenummer?apiKey=Passwort&startDate=Datum&q={"supplier":"Lieferantenummer"}
 

automatthias

vernunftgeplagt
Dabei seit
21.04.2006
Beiträge
11.125
Ja, das ist recht komplex, weil da ja anscheinend live Daten aus einer Datenbank abgefragt werden, also keine statische Webseite/Webseitenelement
Mit dem Usernamen/Passwort kann man es vielleicht mal so probieren
GNU Wget 1.21.1-dirty Manual

Ansonsten würde ich mal in Ruhe das Manual studieren und probieren und schauen, ob es da passende Optionen gibt. Oder evtl auch mal cURL ausprobieren
 
Thema:

Inhalt einer Webseite per Batch speichern

Inhalt einer Webseite per Batch speichern - Ähnliche Themen

WIKI - Windows 8 Befehle für die Eingabeaufforderung: Daniel Erler: Die Seite wurde neu angelegt == Um bei Windows 8 die meisten Einstellungen vorzunehmen, reicht in der Regel die grafische...
Wie man/frau ein (Batch-)Programm schreibt: Hi Die Systemfunktionen des Kommandointerpreters sind hilfreich und nuetzlich fuer alle moeglichen Aufgaben, aber leider schlecht bis gar nicht...
Autostart-Einträge verwalten und Systemstart beschleunigen: Viele Anwendungen tragen sich bei der Installation in den Autostart ein und bremsen den Bootvorgang aus. So genannte Autostart-Programme schaffen...
Tipps & Tricks zum IE 7: Bei der neuen Version 7 des Internet Explorers hat sich einiges verändert - nicht nur optisch, sondern auch funktional. Wir haben Tipps & Tricks...
GELÖST Windows Fehler-Code Liste (Bluescreen / Error Meldung) - Das Geheimnis ist gelüftet: Quelle: Internet :D ......................................................................................... Windows Fehler-Codes Plattform...
Oben