tricoma als Champion im Multi-Channel-Vertrieb. Mehr erfahren

DataCrawler
Hilfe / DataCrawler / Nutzung des DataCrawlers (Data Scraping)

Anleitungen & Tutorials

Nutzung des DataCrawlers (Data Scraping)

In dieser Anleitung erklären wir dir den Ablauf innerhalb der App Data Crawler. Du solltest technisches Wissen im Bereich HTML und ein grundlegendes Verständnis von Webverbindungen mitbringen.

Die Software läuft direkt in deinem tricoma System. Dadurch findet das Data Scraping direkt in deinem System statt – ohne dass externe Dienste benötigt werden.

ㅤ
  • 1. Anlegen und Konfigurieren der Webseite
  • 2. Crawlen der Webseite
  • 3. Data Scraping – Verarbeitung der gefundenen Daten anhand angelegter Regeln
  • 4. Anlage als Produkt innerhalb der App DataCrawler mit anschließender Übernahme in die App Produkte
ㅤ

Beim Data Scraping werden einzelne Webseiten ausgewertet und deren Inhalte ausgelesen. Diese Informationen werden anschließend in eine strukturierte Form überführt.

Beispiel:

  • 1. Produktbild(er)
  • 2. Produkttitel / Hersteller
  • 3. Preis – dieser kann auch durch eine hinterlegte CSV-Datei ergänzt werden
  • 4. Beschreibung
  • 5. Attribute wie Größe, Farbe, Höhe, Material, EAN, Artikelnummer usw.
Webseitenbeispiel
Webseitenbeispiel

Um mit dem Crawlen zu beginnen, musst du eine neue Webseite innerhalb der App anlegen. Dabei gibst du die entsprechende URL an, die ausgelesen werden soll.

Webseiten-Einstellungen
Webseiten-Einstellungen

Im nächsten Schritt solltest du grundlegende Einstellungen wie die Lieferantenzuordnung vornehmen.

Grundeinstellungen
Grundeinstellungen

Die Einrichtung der Datenverarbeitung ist der komplexeste Teil beim Auswerten von Inhalten. Aktuell stehen folgende Verarbeitungsklassen zur Verfügung:

  • Loginklasse: Diese Klasse ermöglicht es, sich vor dem Aufruf einer Webseiten-URL einzuloggen. Der Login wird in einer Session gespeichert, sodass nicht bei jedem Aufruf ein erneuter Login erforderlich ist. Aktiviere diese Option nur, wenn sie tatsächlich benötigt wird.
  • Kategorieklasse: Diese Klasse bietet derzeit nur eingeschränkte Funktionen und dient hauptsächlich dazu, eine gecrawlte URL als Kategorieadresse zu identifizieren. Solche Adressen lassen sich später filtern, um beispielsweise gezielt Kategorie-URLs erneut abzurufen.
  • Produktklasse: Diese Klasse ist die wichtigste, da sie die Produktdaten aus der Webseite ausliest und verarbeitet. Außerdem ist sie dafür zuständig, neue Produkte anzulegen. Details dazu findest du in folgender Anleitung: Nutzung des DataCrawlers (Data Scraping)
  • Suchklasse: Diese Klasse dient dazu, Suchanfragen auf der Webseite auszuführen. Dabei kannst du eine URL mit einem Datenfeld definieren, das über ein entsprechendes Tool mit deinen Suchanfragen befüllt wird.
Datenverarbeitung
Datenverarbeitung
  • Performance-Einstellungen: Lege fest, mit wie vielen Aufrufen die Webseite ausgelesen werden darf.
  • URL-Bedingungen bearbeiten: Definiere hier Bedingungen, damit nur URLs berücksichtigt werden, die diesen Vorgaben entsprechen oder explizit ausgeschlossen sind.
  • .htaccess/htpasswd Login: Trage hier Zugangsdaten ein, falls die Webseite durch einen htpasswd-Passwortschutz gesichert ist.
  • Produktfelder zuweisen: Weise hier gecrawlte Inhalte (Data Scraping) deinen Produktdatenfeldern zu (Arbeiten mit Produktdaten aus dem Data Scraping).
  • Produkteinstellungen: Definiere verschiedene Produkteinstellungen, die unter anderem bei der Produktanlage gelten sollen.
  • Produktliste: Hier kannst du eine CSV-Datei (z. B. Händlerpreisliste) hinterlegen. Dadurch werden gefundene Preise durch die Werte aus der Liste ersetzt. Außerdem können zusätzliche Informationen wie die EAN-Nummer ergänzt werden, sofern diese im Shop fehlen.
  • Produktkategoriezuordnung: Weise hier die gefundenen Produktkategorien deinen eigenen Produktkategorien zu. Diese Zuordnung wird bei der Produktanlage verwendet.
Sonstige Einstellungen
Sonstige Einstellungen

Es wird empfohlen, die Automatismen erst zu aktivieren, wenn das manuelle Crawlen über die Tools zuvor erfolgreich getestet wurde.

Folgendes sollte vorab überprüft werden:

  • 1. Werden vorhandene URLs mit dem Code 200 erkannt? (Prüfbar in der Crawlerübersicht)
  • 2. Wurden URLs ausgeschlossen, die nicht gecrawlt werden sollen, z. B. doppelte Produkt-URLs, Blogseiten oder endlose Kategoriefilter?
  • 3. Sind die gecrawlten Daten inklusive Attribute vollständig und im richtigen Format?
Automatismen
Automatismen

Beim Crawlen wird mit sogenannten Sessions gearbeitet. Dadurch kann sich tricoma auf der jeweiligen Webseite einloggen und wiederholte Abfragen mit derselben Session durchführen.

Außerdem begrenzen Sessions die Anzahl gleichzeitiger Anfragen an den Zielserver. Das hilft dabei, eine Überlastung des Zielservers zu vermeiden.

Sessions
Sessions

In der Crawlerübersicht kannst du sehen, welche URLs bereits aufgerufen wurden. Außerdem kannst du URLs erneut abrufen lassen – beispielsweise, wenn du dein Regelwerk zur Verarbeitung von Daten (Data Scraping) geändert hast.

Crawlerübersicht
Crawlerübersicht

In der Datenübersicht kannst du deine gecrawlten Daten einsehen und sie beispielsweise in die Produktverwaltung übernehmen.

Details dazu findest du hier: Arbeiten mit Produktdaten aus dem Data Scraping.

Datenübersicht
Datenübersicht

Im Reiter Monitoring kannst du die Auslastung deines Crawlers einsehen. Aus technischen Gründen gelten für den Crawler folgende Limitierungen:

tricoma Premium

  • Maximale Anzahl an URLs: 250.000
  • Anzahl an Produkten: 100.000
  • Anzahl an Bildern: 200.000
  • Maximalgröße des Caches: 2.000 MB (Zwischenspeicher der Inhalte ohne Bilder)
  • Anzahl URL-Aufrufe pro 24 Stunden: 21.600

tricoma Enterprise

  • Maximale Anzahl an URLs: 1.000.000
  • Anzahl an Produkten: 500.000
  • Anzahl an Bildern: 1.500.000
  • Maximalgröße des Caches: 10.000 MB (Zwischenspeicher der Inhalte ohne Bilder)
  • Anzahl URL-Aufrufe pro 24 Stunden: 86.400

Wenn die Limitierungen erreicht sind, müssen die Daten oder Aufrufe reduziert werden. Andernfalls werden alle automatischen Prozesse innerhalb der App pausiert.

Tipp: Verwende die URL-Bedingungen, um unnötige URLs vom Crawlen auszuschließen und dadurch Speicherplatz im Cache sowie URL-Kapazitäten zu sparen.

Monitoring
Monitoring

Die Tools des DataCrawler sind sehr leistungsfähig. Du hast damit die Möglichkeit, das Crawlen manuell zu starten, eine sitemap.xml einer Webseite einzureichen oder gezielte Suchanfragen auf der Webseite auszuführen.

Tools
Tools

In den Allgemeinen Einstellungen kannst du einen User Agent definieren. Das ist sozusagen der „Softwaretyp“, mit dem die Webseite abgefragt wird.

Viele Webseiten reagieren unterschiedlich, je nachdem, welcher User Agent verwendet wird. Hier einige Beispiele:

  • Google Chrome, Firefox, Bot: Wenn du dich als Browser ausgibst, werden häufig zusätzliche Inhalte nachgeladen, um das Besuchererlebnis zu verbessern. Daher solltest du dich in der Regel nicht als solcher ausgeben.
  • Bot: Standardmäßig gibt sich tricoma als tricoma Bot aus. Aufrufe als Bot sind in den meisten Fällen empfehlenswert, da Webseiten hier in der Regel kein JavaScript laden.
Allgemeine Einstellungen
Allgemeine Einstellungen

Die Datenqualität richtet sich insbesondere nach dem Aufbau der zu crawlenden Webseite.

Der Crawler berücksichtigt möglichst typische HTML-Attribute wie H1, Schema.org, Meta Tags oder itemprop.

Die Datenqualität kann zusätzlich durch die Nutzung eigener Klassen verbessert werden.

Der Crawler führt kein JavaScript aus. Wenn eine Webseite also Daten über Hintergrundabfragen generiert, können diese vom DataCrawler nicht ausgelesen werden.

In diesem Fall müsste eine eigene Produktklasse entwickelt werden, die dieses Verhalten simuliert.

Beachte dabei unbedingt den Punkt „Rechtliche Anmerkungen“ sowie die geltenden Gesetze.

Bitte beachte die folgenden rechtlichen Hinweise:

  • Texte und Bilder von Webseiten unterliegen grundsätzlich dem Urheberrecht.
  • Vor dem Crawlen solltest du den Webseitenbetreiber (z. B. Lieferant oder Hersteller) um Erlaubnis bitten.
  • Es gibt ein Urteil zum Thema „Web Scraping“, das dies grundsätzlich erlaubt, sofern die Daten nicht geschützt sind – Referenz: BGH, 30.04.2014 – I ZR 224/12.
  • Das Datenbankherstellerrecht (Deutschland) berechtigt Software wie Data-Scraping-Tools, Vergleichsportale oder Suchmaschinen dazu, gecrawlte Daten zu nutzen und Vergleiche anzustellen.

Entwickler / Partner

tricoma AG

Zum Partner

Kompatibel mit

Folge uns

Einen Augenblick bitte...
Cookie und Tracking
Diese Webseite verwendet Cookies
Cookies werden zur Verbesserung der Benutzerführung verwendet und helfen dabei, diese Webseite besser zu machen.