In dieser Anleitung erklären wir dir den Ablauf innerhalb der App Data Crawler. Du solltest technisches Wissen im Bereich HTML und ein grundlegendes Verständnis von Webverbindungen mitbringen.
Die Software läuft direkt in deinem tricoma System. Dadurch findet das Data Scraping direkt in deinem System statt – ohne dass externe Dienste benötigt werden.
Beim Data Scraping werden einzelne Webseiten ausgewertet und deren Inhalte ausgelesen. Diese Informationen werden anschließend in eine strukturierte Form überführt.
Beispiel:
Um mit dem Crawlen zu beginnen, musst du eine neue Webseite innerhalb der App anlegen. Dabei gibst du die entsprechende URL an, die ausgelesen werden soll.
Im nächsten Schritt solltest du grundlegende Einstellungen wie die Lieferantenzuordnung vornehmen.
Die Einrichtung der Datenverarbeitung ist der komplexeste Teil beim Auswerten von Inhalten. Aktuell stehen folgende Verarbeitungsklassen zur Verfügung:
Es wird empfohlen, die Automatismen erst zu aktivieren, wenn das manuelle Crawlen über die Tools zuvor erfolgreich getestet wurde.
Folgendes sollte vorab überprüft werden:
Beim Crawlen wird mit sogenannten Sessions gearbeitet. Dadurch kann sich tricoma auf der jeweiligen Webseite einloggen und wiederholte Abfragen mit derselben Session durchführen.
Außerdem begrenzen Sessions die Anzahl gleichzeitiger Anfragen an den Zielserver. Das hilft dabei, eine Überlastung des Zielservers zu vermeiden.
In der Crawlerübersicht kannst du sehen, welche URLs bereits aufgerufen wurden. Außerdem kannst du URLs erneut abrufen lassen – beispielsweise, wenn du dein Regelwerk zur Verarbeitung von Daten (Data Scraping) geändert hast.
In der Datenübersicht kannst du deine gecrawlten Daten einsehen und sie beispielsweise in die Produktverwaltung übernehmen.
Details dazu findest du hier: Arbeiten mit Produktdaten aus dem Data Scraping.
Im Reiter Monitoring kannst du die Auslastung deines Crawlers einsehen. Aus technischen Gründen gelten für den Crawler folgende Limitierungen:
tricoma Premium
tricoma Enterprise
Wenn die Limitierungen erreicht sind, müssen die Daten oder Aufrufe reduziert werden. Andernfalls werden alle automatischen Prozesse innerhalb der App pausiert.
Tipp: Verwende die URL-Bedingungen, um unnötige URLs vom Crawlen auszuschließen und dadurch Speicherplatz im Cache sowie URL-Kapazitäten zu sparen.
Die Tools des DataCrawler sind sehr leistungsfähig. Du hast damit die Möglichkeit, das Crawlen manuell zu starten, eine sitemap.xml einer Webseite einzureichen oder gezielte Suchanfragen auf der Webseite auszuführen.
In den Allgemeinen Einstellungen kannst du einen User Agent definieren. Das ist sozusagen der „Softwaretyp“, mit dem die Webseite abgefragt wird.
Viele Webseiten reagieren unterschiedlich, je nachdem, welcher User Agent verwendet wird. Hier einige Beispiele:
Die Datenqualität richtet sich insbesondere nach dem Aufbau der zu crawlenden Webseite.
Der Crawler berücksichtigt möglichst typische HTML-Attribute wie H1, Schema.org, Meta Tags oder itemprop.
Die Datenqualität kann zusätzlich durch die Nutzung eigener Klassen verbessert werden.
Der Crawler führt kein JavaScript aus. Wenn eine Webseite also Daten über Hintergrundabfragen generiert, können diese vom DataCrawler nicht ausgelesen werden.
In diesem Fall müsste eine eigene Produktklasse entwickelt werden, die dieses Verhalten simuliert.
Beachte dabei unbedingt den Punkt „Rechtliche Anmerkungen“ sowie die geltenden Gesetze.
Bitte beachte die folgenden rechtlichen Hinweise: