Anzeigen 

Ausschluss von Webseiten

So konfigurieren Sie den Crawler, um das Importieren von unerw�nschten Web-Seiten in Ihr Portal zu vermeiden:

  1. Standardm��ig befolgt der Crawler die Empfehlungen des Web-Servers, welche Seiten f�r automatisierte Crawler n�tzlich sein k�nnten. Wenn Sie diese Empfehlungen ignorieren m�chten, deaktivieren Sie das Kontrollk�stchen Befolgen der Auslassungsprotokolle des Roboters der Ziel-Site.

    Im Allgemeinen sind diese Empfehlungen recht n�tzlich, um das Importieren unerw�nschten Contents in das Portal einzuschr�nken. Einige Websites bieten jedoch nur sehr wenige Empfehlungen. Wenn Sie bemerken, dass Ihr Crawler von einer Website �berhaupt keinen Content importiert, deaktivieren Sie diese Option.

  2. Standardm��ig speichert der Crawler die URLs zu importierten Webseiten mit der gleichen Gro�- und Kleinschreibung, wie sie in der urspr�nglichen Website verwendet wird. Wenn Sie die URLs in Kleinbuchstaben umwandeln m�chten, w�hlen Sie die Option Alle URLs in Kleinbuchstaben umwandeln.

  3. So vermeiden Sie, dass bestimmte Seiten oder bestimmter Content aus bestimmten Bereichen einer Website importiert werden:

  4. Standardm��ig werden von diesem Crawler keine Seiten importiert oder durchsucht, die in den Ausschl�ssen angegeben wurden. Wenn Ihr Crawler von einem Link auf einer ausgeschlossenen Seite auf eine Seite geht, die nicht ausgeschlossen ist und importiert werden soll, w�hlen Sie Crawlen in ausgeschlossenen Seiten, aber kein Import.

  5. So beschr�nken Sie den Crawl auf einen Website-Bereich oder auf bestimmte Seiten:


  1. Klicken Sie auf Administration.
  2. �ffnen Sie den Editor f�r den Content-Crawler:
  3. Klicken Sie links unter "Objekteinstellungen bearbeiten" auf "Ausschluss von Webseiten".