DataCrawler

Hilfe / DataCrawler / Nutzung des DataCrawlers (Data Scraping)

Anleitungen & Tutorials

Inhaltsverzeichnis

Allgemeine Einleitung
Genereller Ablauf innerhalb der App
Data Scraping erklärt
Einrichtung und Nutzung
Anlage einer Webseite
Vornehmen von Grundeinstellungen
Einrichtung der Datenverarbeitung
Sonstige Einstellungen
Automatismen
Crawlen mit Sessions
Crawlerübersicht
Datenübersicht
Performancehinweise und Limits
Arbeiten mit den Tools
Konfiguration des User Agents
Hinweise zur Datenqualität
Geschützte Daten, Hintergrundabfragen
Rechtliche Anmerkungen
Masterclass Video

Nutzung des DataCrawlers (Data Scraping)

Allgemeine Einleitung

In dieser Anleitung erklären wir dir den Ablauf innerhalb der App Data Crawler. Du solltest technisches Wissen im Bereich HTML und ein grundlegendes Verständnis von Webverbindungen mitbringen.

Die Software läuft direkt in deinem tricoma System. Dadurch findet das Data Scraping direkt in deinem System statt – ohne dass externe Dienste benötigt werden.

Genereller Ablauf innerhalb der App

1. Anlegen und Konfigurieren der Webseite
2. Crawlen der Webseite
3. Data Scraping – Verarbeitung der gefundenen Daten anhand angelegter Regeln
4. Anlage als Produkt innerhalb der App DataCrawler mit anschließender Übernahme in die App Produkte

Data Scraping erklärt

Beim Data Scraping werden einzelne Webseiten ausgewertet und deren Inhalte ausgelesen. Diese Informationen werden anschließend in eine strukturierte Form überführt.

Beispiel:

1. Produktbild(er)
2. Produkttitel / Hersteller
3. Preis – dieser kann auch durch eine hinterlegte CSV-Datei ergänzt werden
4. Beschreibung
5. Attribute wie Größe, Farbe, Höhe, Material, EAN, Artikelnummer usw.

Einrichtung und Nutzung

Anlage einer Webseite

Um mit dem Crawlen zu beginnen, musst du eine neue Webseite innerhalb der App anlegen. Dabei gibst du die entsprechende URL an, die ausgelesen werden soll.

Vornehmen von Grundeinstellungen

Im nächsten Schritt solltest du grundlegende Einstellungen wie die Lieferantenzuordnung vornehmen.

Einrichtung der Datenverarbeitung

Die Einrichtung der Datenverarbeitung ist der komplexeste Teil beim Auswerten von Inhalten. Aktuell stehen folgende Verarbeitungsklassen zur Verfügung:

Loginklasse: Diese Klasse ermöglicht es, sich vor dem Aufruf einer Webseiten-URL einzuloggen. Der Login wird in einer Session gespeichert, sodass nicht bei jedem Aufruf ein erneuter Login erforderlich ist. Aktiviere diese Option nur, wenn sie tatsächlich benötigt wird.
Kategorieklasse: Diese Klasse bietet derzeit nur eingeschränkte Funktionen und dient hauptsächlich dazu, eine gecrawlte URL als Kategorieadresse zu identifizieren. Solche Adressen lassen sich später filtern, um beispielsweise gezielt Kategorie-URLs erneut abzurufen.
Produktklasse: Diese Klasse ist die wichtigste, da sie die Produktdaten aus der Webseite ausliest und verarbeitet. Außerdem ist sie dafür zuständig, neue Produkte anzulegen. Details dazu findest du in folgender Anleitung: Nutzung des DataCrawlers (Data Scraping)
Suchklasse: Diese Klasse dient dazu, Suchanfragen auf der Webseite auszuführen. Dabei kannst du eine URL mit einem Datenfeld definieren, das über ein entsprechendes Tool mit deinen Suchanfragen befüllt wird.

Sonstige Einstellungen

Performance-Einstellungen: Lege fest, mit wie vielen Aufrufen die Webseite ausgelesen werden darf.
URL-Bedingungen bearbeiten: Definiere hier Bedingungen, damit nur URLs berücksichtigt werden, die diesen Vorgaben entsprechen oder explizit ausgeschlossen sind.
.htaccess/htpasswd Login: Trage hier Zugangsdaten ein, falls die Webseite durch einen htpasswd-Passwortschutz gesichert ist.
Produktfelder zuweisen: Weise hier gecrawlte Inhalte (Data Scraping) deinen Produktdatenfeldern zu (Arbeiten mit Produktdaten aus dem Data Scraping).
Produkteinstellungen: Definiere verschiedene Produkteinstellungen, die unter anderem bei der Produktanlage gelten sollen.
Produktliste: Hier kannst du eine CSV-Datei (z. B. Händlerpreisliste) hinterlegen. Dadurch werden gefundene Preise durch die Werte aus der Liste ersetzt. Außerdem können zusätzliche Informationen wie die EAN-Nummer ergänzt werden, sofern diese im Shop fehlen.
Produktkategoriezuordnung: Weise hier die gefundenen Produktkategorien deinen eigenen Produktkategorien zu. Diese Zuordnung wird bei der Produktanlage verwendet.

Automatismen

Es wird empfohlen, die Automatismen erst zu aktivieren, wenn das manuelle Crawlen über die Tools zuvor erfolgreich getestet wurde.

Folgendes sollte vorab überprüft werden:

1. Werden vorhandene URLs mit dem Code 200 erkannt? (Prüfbar in der Crawlerübersicht)
2. Wurden URLs ausgeschlossen, die nicht gecrawlt werden sollen, z. B. doppelte Produkt-URLs, Blogseiten oder endlose Kategoriefilter?
3. Sind die gecrawlten Daten inklusive Attribute vollständig und im richtigen Format?

Crawlen mit Sessions

Beim Crawlen wird mit sogenannten Sessions gearbeitet. Dadurch kann sich tricoma auf der jeweiligen Webseite einloggen und wiederholte Abfragen mit derselben Session durchführen.

Außerdem begrenzen Sessions die Anzahl gleichzeitiger Anfragen an den Zielserver. Das hilft dabei, eine Überlastung des Zielservers zu vermeiden.

Crawlerübersicht

In der Crawlerübersicht kannst du sehen, welche URLs bereits aufgerufen wurden. Außerdem kannst du URLs erneut abrufen lassen – beispielsweise, wenn du dein Regelwerk zur Verarbeitung von Daten (Data Scraping) geändert hast.

Datenübersicht

In der Datenübersicht kannst du deine gecrawlten Daten einsehen und sie beispielsweise in die Produktverwaltung übernehmen.

Details dazu findest du hier: Arbeiten mit Produktdaten aus dem Data Scraping.

Performancehinweise und Limits

Im Reiter Monitoring kannst du die Auslastung deines Crawlers einsehen. Aus technischen Gründen gelten für den Crawler folgende Limitierungen:

tricoma Premium

Maximale Anzahl an URLs: 250.000
Anzahl an Produkten: 100.000
Anzahl an Bildern: 200.000
Maximalgröße des Caches: 2.000 MB (Zwischenspeicher der Inhalte ohne Bilder)
Anzahl URL-Aufrufe pro 24 Stunden: 21.600

tricoma Enterprise

Maximale Anzahl an URLs: 1.000.000
Anzahl an Produkten: 500.000
Anzahl an Bildern: 1.500.000
Maximalgröße des Caches: 10.000 MB (Zwischenspeicher der Inhalte ohne Bilder)
Anzahl URL-Aufrufe pro 24 Stunden: 86.400

Wenn die Limitierungen erreicht sind, müssen die Daten oder Aufrufe reduziert werden. Andernfalls werden alle automatischen Prozesse innerhalb der App pausiert.

Tipp: Verwende die URL-Bedingungen, um unnötige URLs vom Crawlen auszuschließen und dadurch Speicherplatz im Cache sowie URL-Kapazitäten zu sparen.

Arbeiten mit den Tools

Die Tools des DataCrawler sind sehr leistungsfähig. Du hast damit die Möglichkeit, das Crawlen manuell zu starten, eine sitemap.xml einer Webseite einzureichen oder gezielte Suchanfragen auf der Webseite auszuführen.

Konfiguration des User Agents

In den Allgemeinen Einstellungen kannst du einen User Agent definieren. Das ist sozusagen der „Softwaretyp“, mit dem die Webseite abgefragt wird.

Viele Webseiten reagieren unterschiedlich, je nachdem, welcher User Agent verwendet wird. Hier einige Beispiele:

Google Chrome, Firefox, Bot: Wenn du dich als Browser ausgibst, werden häufig zusätzliche Inhalte nachgeladen, um das Besuchererlebnis zu verbessern. Daher solltest du dich in der Regel nicht als solcher ausgeben.
Bot: Standardmäßig gibt sich tricoma als tricoma Bot aus. Aufrufe als Bot sind in den meisten Fällen empfehlenswert, da Webseiten hier in der Regel kein JavaScript laden.

Hinweise zur Datenqualität

Die Datenqualität richtet sich insbesondere nach dem Aufbau der zu crawlenden Webseite.

Der Crawler berücksichtigt möglichst typische HTML-Attribute wie H1, Schema.org, Meta Tags oder itemprop.

Die Datenqualität kann zusätzlich durch die Nutzung eigener Klassen verbessert werden.

Geschützte Daten, Hintergrundabfragen

Der Crawler führt kein JavaScript aus. Wenn eine Webseite also Daten über Hintergrundabfragen generiert, können diese vom DataCrawler nicht ausgelesen werden.

In diesem Fall müsste eine eigene Produktklasse entwickelt werden, die dieses Verhalten simuliert.

Beachte dabei unbedingt den Punkt „Rechtliche Anmerkungen“ sowie die geltenden Gesetze.

Rechtliche Anmerkungen

Bitte beachte die folgenden rechtlichen Hinweise:

Texte und Bilder von Webseiten unterliegen grundsätzlich dem Urheberrecht.
Vor dem Crawlen solltest du den Webseitenbetreiber (z. B. Lieferant oder Hersteller) um Erlaubnis bitten.
Es gibt ein Urteil zum Thema „Web Scraping“, das dies grundsätzlich erlaubt, sofern die Daten nicht geschützt sind – Referenz: BGH, 30.04.2014 – I ZR 224/12.
Das Datenbankherstellerrecht (Deutschland) berechtigt Software wie Data-Scraping-Tools, Vergleichsportale oder Suchmaschinen dazu, gecrawlte Daten zu nutzen und Vergleiche anzustellen.

Masterclass Video

YouTube Video

Dieses Video wird von einem fremden Server geladen.

► Jetzt Video ansehen

Link für externe Aufrufe: https://tricoma.de/modul.php?modul=tricoma&modulkat=tutlink&ID=2827

Entwickler / Partner

tricoma AG

Zum Partner

Nutzung des DataCrawlers (Data Scraping)

Allgemeine Einleitung

Genereller Ablauf innerhalb der App

Data Scraping erklärt