Ausschluss von Webseiten

So konfigurieren Sie den Crawler, um das Importieren von unerw�nschten Web-Seiten in Ihr Portal zu vermeiden:

Standardm��ig befolgt der Crawler die Empfehlungen des Web-Servers, welche Seiten f�r automatisierte Crawler n�tzlich sein k�nnten. Wenn Sie diese Empfehlungen ignorieren m�chten, deaktivieren Sie das Kontrollk�stchen Befolgen der Auslassungsprotokolle des Roboters der Ziel-Site.

Im Allgemeinen sind diese Empfehlungen recht n�tzlich, um das Importieren unerw�nschten Contents in das Portal einzuschr�nken. Einige Websites bieten jedoch nur sehr wenige Empfehlungen. Wenn Sie bemerken, dass Ihr Crawler von einer Website �berhaupt keinen Content importiert, deaktivieren Sie diese Option.
Standardm��ig speichert der Crawler die URLs zu importierten Webseiten mit der gleichen Gro�- und Kleinschreibung, wie sie in der urspr�nglichen Website verwendet wird. Wenn Sie die URLs in Kleinbuchstaben umwandeln m�chten, w�hlen Sie die Option Alle URLs in Kleinbuchstaben umwandeln.
So vermeiden Sie, dass bestimmte Seiten oder bestimmter Content aus bestimmten Bereichen einer Website importiert werden:

Um einen zu umgehenden Bereich anzugeben, klicken Sie auf Ausschlussfilter hinzuf�gen. Geben Sie dann in dem Textfeld den URL zu dem Bereich der Website ein, der umgangen werden soll.

Sie k�nnen die Platzhalternotation (*) verwenden, um allgemeinere Ausschlussbedingungen festzulegen. Beispiel: Damit die Umsatzinformationen einer Site nicht durchsucht werden, k�nnten Sie http://mycompany.com*sales eingeben. In diesem Fall w�rde dieser Crawler keine Seite aus mycompany.com importieren, die den Begriff "sales" an einer beliebigen Stelle in dem URL enthalten.

Hinweis: Platzhalterzeichen werden auf beiden Seiten des Textes ber�cksichtigt. Beispiel: Wenn Sie sales eingeben, importiert der Crawler keine Seiten aus irgendeiner Site, auf die mit dem Ziel-URL zugegriffen werden kann, die den Begriff "sales" an irgendeiner Stelle in dem URL enth�lt.

Wichtig: Wenn Sie Exklusionen und Inklusionen (wie in Schritt 5 beschrieben) auff�hren, gelten die Exklusionen nur f�r die enthaltenen Seiten. Beispiel: Wenn Sie sales ausgeschlossen und http://mycompany.comaufgenommen haben, importiert der Crawler alle Seiten aus http://mycompany.com mit Ausnahme der Seiten, die "sales" an irgendeiner Stelle in dem URL enthalten.
W�hlen Sie zum Entfernen eines Ausschlusses, den entsprechenden Ausschluss aus und klicken Sie auf .
Klicken Sie zum Aktivieren bzw. Deaktivieren aller Kontrollk�stchen f�r die Ausschl�sse in das K�stchen links neben Ausschl�sse.

Standardm��ig werden von diesem Crawler keine Seiten importiert oder durchsucht, die in den Ausschl�ssen angegeben wurden. Wenn Ihr Crawler von einem Link auf einer ausgeschlossenen Seite auf eine Seite geht, die nicht ausgeschlossen ist und importiert werden soll, w�hlen Sie Crawlen in ausgeschlossenen Seiten, aber kein Import.
So beschr�nken Sie den Crawl auf einen Website-Bereich oder auf bestimmte Seiten:

Um anzugeben, wo dieser Content-Crawler suchen kann, klicken Sie auf Inklusionsfilter hinzuf�gen. Geben Sie dann in dem Textfeld den URL zu dem Bereich der Website ein, auf den die Suche beschr�nkt werden soll. Weil Websites Links zu anderen Sites enthalten k�nnen, k�nnen Sie Inklusionen verwenden, damit der Content-Crawler nur auf einer bestimmten Site sucht. Um das Crawling anderer Sites zu vermeiden, f�gen Sie den Basis-URL der Site, die durchsucht werden soll, der Inklusionsliste hinzu. Beispiel: http://mycompany.com.

Sie k�nnen die Platzhalternotation (*) verwenden, um die Inklusion genereller zu gestalten. Beispiel: Wenn Sie nur Informationen �ber Single Sign-On (SSO) durchsuchen m�chten, k�nnten Sie http://mycompany.com*sso eingeben. In diesem Fall importiert dieser Content-Crawler nur Seiten aus mycompany.com, die "sso" an irgendeiner Stelle in dem URL enthalten.

Hinweis: Platzhalter werden auf beiden Seiten des Textes ber�cksichtigt. Beispiel: Wenn Sie sso eingeben, importiert der Content-Crawler Seiten aus jeder Site, auf die der Ziel-URL zugreifen kann, die "sso" an irgendeiner Stelle in dem URL enth�lt.

Wichtig: Wenn Sie Inklusionen und Exklusionen auff�hren, gelten die Exklusionen nur f�r die aufgenommenen Seiten. Beispiel: Wenn Sie http://mycompany.com aufgenommen und sso ausgeschlossen haben, w�rde der Content-Crawler alle Seiten aus http://mycompany.com importieren, mit Ausnahme der Seiten, die "sso" an irgendeiner Stelle in dem URL enthalten.
W�hlen Sie zum Entfernen einer Aufnahme, die entsprechende Aufnahme aus und klicken Sie auf .
Klicken Sie zum Aktivieren bzw. Deaktivieren aller Kontrollk�stchen f�r die Aufnahmen in das K�stchen links neben Aufnahmen.

So zeigen Sie die Seite an, auf die sich dieses Hilfethema bezieht:

Klicken Sie auf Administration.
�ffnen Sie den Editor f�r den Content-Crawler:

So erstellen Sie einen neuen Web-Crawler:

�ffnen Sie einen Administrationsordner.
Klicken Sie in der Dropdown-Liste "Objekt erstellen" auf Crawler: WWW.

So bearbeiten Sie einen vorhandenen Web-Crawler:

Gehen Sie zum Web-Crawler, den Sie bearbeiten m�chten.
Klicken Sie auf den Namen des Web-Crawlers.

Klicken Sie links unter "Objekteinstellungen bearbeiten" auf "Ausschluss von Webseiten".