Erweiterte Einstellungen (Content-Crawler)

So legen Sie die Sprache des Contents, die Vorgehensweise für abgelehnte Dokumente sowie den Content-Crawler-Tag fest:

Wählen Sie unter "Contentsprache" in der Dropdown-Liste die Sprache aus, in der der Großteil des zu importierenden Contents verfasst ist.
Geben Sie unter "Abgelehnte Dokumente" an, wie mit Dokumenten verfahren werden soll, die nicht erfolgreich in einen Ordner einsortiert werden konnten:

Wählen Sie Im Ordner "Nicht klassifizierte Dokumente" ablegen aus, um diese Dokumente trotzdem zu importieren.

Hinweis: Der Ordner "Nicht klassifizierte Dokumente" steht Benutzern zur Verfügung, die auf nicht klassifizierte Dokumente zugreifen können. Wenn Sie auf nicht klassifizierte Dokumente zugreifen möchten, klicken Sie im Menü "Verzeichnis" auf Verzeichnis bearbeiten und öffnen Sie den Ordner Nicht klassifizierte Dokumente. Sie können auch auf Administration | Utility auswählen | Auf nicht klassifizierte Dokumente zugreifen klicken.
Wählen Sie Nicht importieren aus, um diese Dokumente nicht zu importieren.

Wenn Sie einen vorhandenen Content-Crawler bearbeiten, sehen Sie unter "Abgelehnte Dokumente" zusätzliche Optionen, über die Sie angeben können, was geschehen soll, wenn der Content-Crawler ein bereits abgelehntes Dokument findet. Die Definition von "bereits abgelehnt" hängt von der in Schritt 4b ausgewählten Option ab:

Wenn Sie "Von diesem Content-Crawler" ausgewählt haben, gehören zu den abgelehnten Dokumenten alle Dokumente, die von diesem Content-Crawler abgelehnt wurden.
Wenn Sie "Von dieser Contentquelle" ausgewählt haben, gehören zu den abgelehnten Dokumenten alle Dokumente, die aus dieser Contentquelle stammen und abgelehnt wurden.

Geben Sie an, wie mit bereits abgelehnten Dokumenten verfahren werden soll:

Wenn der Content-Crawler versuchen soll, bereits abgelehnte Dokumente zu importieren, wählen Sie die Option Erneut importieren.
Wählen Sie Nicht importieren aus, um diese Dokumente nicht zu importieren.

Falls es unbedingt notwendig ist, können Sie die Historie bereits abgelehnter Dokumente löschen. Die Definition von "bereits abgelehnt" hängt auch hier von der in Schritt 4b ausgewählten Option ab: Wenn Sie in Schritt 4b "Aus dieser Contentquelle" gewählt haben, löschen Sie die Ablehnungshistorie für alle Content-Crawler, die Dokumente aus dieser Contentquelle importieren. Wenn Sie sicher sind, dass Sie die Historie bereits abgelehnter Dokumente löschen müssen, klicken Sie auf Ablehnungshistorie löschen.

Hinweis: Wenn sich ein Dokument nicht einsortieren lässt, wird es im Ordner "Nicht klassifizierte Dokumente" abgelegt. Das bedeutet jedoch nicht, dass das Dokument abgelehnt wurde. Abgelehnte Dokumente sind Dokumente, die in keinem Ordner abgelegt wurden.

Wenn Sie einen vorhandenen Content-Crawler bearbeiten, wird der Bereich "Dokumente werden importiert" angezeigt. Legen Sie unter "Dokumente werden importiert" fest, ob nur neue Dokumente importiert werden sollen. Standardmäßig importiert dieser Content-Crawler nur neue Dokumente (die noch nicht durch diesen Content-Crawler oder andere Content-Crawler, die auf die gleiche Contentquelle zugreifen, importiert wurden). Sie können die Content-Crawler-Einstellungen ändern, sodass mehrere Exemplare jedes Dokuments importiert werden. Dies kann beim Testen der Content-Crawler nützlich sein.

Wenn nur neue Dokumente importiert werden sollen, wählen Sie Nur neue Links importieren aus. Daraufhin werden weitere Optionen angezeigt. Andernfalls fahren Sie mit Schritt 5 fort.
So legen Sie fest, was als neuer Link definiert wird:

Wenn nur Dokumente importiert werden sollen, die noch nicht von diesem Content-Crawler importiert wurden, aktivieren Sie Von diesem Content-Crawler.
Sollen nur Dokumente importiert werden, die noch nicht (entweder von diesem oder einem anderen Content-Crawler oder manuell durch einen Benutzer) aus der zugeordneten Contentquelle importiert wurden, wählen Sie Aus dieser Contentquelle.

Hinweis: Die hier ausgewählte Option wirkt sich auch auf die Aktionen in Schritt 3 und Schritt 4f aus.

Wählen Sie Option Die Dokumente aktualisieren, um die anhand der Einstellungen auf der Seite Dokumenteinstellungen importierten Dokumente zu aktualisieren. Im Allgemeinen ist das Aktualisieren von Dokumenten die Aufgabe des Dokumentenaktualisierungs-Agenten. Durch das Aktualisieren wird der Content-Crawler verlangsamt. Wenn Sie jedoch die Dokumenteinstellungen für diesen Content-Crawler oder die Eigenschaftszuordnungen in den zugeordneten Content Types geändert haben, werden diese Einstellungen durch das Aktualisieren auch für die vorher importierten Dokumente übernommen.

Hinweis: Wenn der Crawl an einem RSS-Feed durchgeführt wird, werden durch die Option diese aktualisieren die Eigenschaften (u. a. Titel und Beschreibung) mit den Werten aus den Zieldokumenten, nicht aus dem RSS-Feed aktualisiert. Wenn Sie die Eigenschaften aus dem RSS-Feed beibehalten möchten, wählen Sie nicht diese aktualisieren.
Falls Sie zusätzliche Ordner erstellt oder unterschiedliche Filter auf die Zielordner angewendet haben, wählen Sie die Dokumente in zusätzliche Ordner einordnen. Dadurch werden die bereits importierten Dokumente in neue Knowledge-Verzeichnisordner einsortiert.

Möglicherweise hat ein anderer Content-Crawler bereits Dokumente aus derselben Contentquelle importiert, dabei jedoch andere Ordner als die für diesen Content-Crawler angegebenen Zielordner verwendet. Vergewissern Sie sich, ob Sie diese Dokumente wirklich in die für diesen Content-Crawler festgelegten Zielordner umsortieren möchten.
Sollen Dokumente neu importiert werden, die vorher gelöscht wurden (manuell, durch Ablauf der Gültigkeit oder wegen fehlender Quelldokumente), wählen Sie Gelöschte Links wiederherstellen. Dadurch werden u. U. Dokumente erneut importiert, die zu einem anderen Zeitpunkt als ungeeignet für das Portal eingestuft wurden.
Falls es unbedingt notwendig ist, können Sie die Dokumentenhistorie löschen, die aus dem Portal entfernt wurden. "Historie" wird durch die Einstellungen festgelegt, die Sie in Schritt 3b für neue Dokumente vorgenommen haben:

Wenn Sie "Von diesem Content-Crawler" ausgewählt haben, enthält die Historie alle Dokumente, die von diesem Content-Crawler importiert und dann gelöscht wurden.
Wenn Sie "Aus dieser Contentquelle" ausgewählt haben, enthält die Historie alle Dokumente, die aus dieser Contentquelle importiert und dann gelöscht wurden. Sie löschen also damit die Historie für alle Content-Crawler, die Dokumente aus dieser Contentquelle importieren.

Wenn Sie immer noch davon überzeugt sind, dass Sie die Datensätze der aus dem Portal gelöschten Dokumente wirklich löschen müssen, klicken Sie auf Löschverlauf löschen.

Wenn Sie importierte Dokumente mit einem Content-Crawler-Tag kennzeichnen möchten, geben Sie einen Tag in das Feld Importierte Dokumente mit dem folgenden Content-Crawler-Tag markieren ein. Dieser Tag dient zur Unterscheidung der Dokumente, die durch diesen Content-Crawler importiert wurden, von den Dokumenten, die durch andere Content-Crawler importiert wurden.
Stellen Sie unter "Laufzeitkonfiguration" Folgendes ein:

Maximale Anzahl an Dokumenten-Download-Threads: Hiermit wird die maximale Anzahl der Threads festgelegt, die gleichzeitig aus der Contentquelle Content herunterladen können.
Maximale Anzahl an Kartenindexierungsthreads: Hiermit wird die maximale Anzahl der Threads festgelegt, die gleichzeitig Content nach dem Laden ins Portal verarbeiten können.

Die zulässigen Bereiche für diese Felder werden in der Portal-Konfigurationsdatei festgelegt. Die hier eingestellten Werte werden auch durch die maximale Anzahl der Threads begrenzt, die im für diesen Content-Crawler-Job verwendeten Automation Service zulässig sind.

So zeigen Sie die Seite an, auf die sich dieses Hilfethema bezieht:

Klicken Sie auf Administration.
Öffnen Sie den Editor für den Content-Crawler:

So erstellen Sie einen neuen Content-Crawler:

Öffnen Sie einen Administrationsordner.
Klicken Sie in der Dropdown-Liste "Objekt erstellen" auf den Crawler-Typ, den Sie erstellen möchten.

So bearbeiten Sie einen vorhandenen Content-Crawler:

Gehen Sie zum Content-Crawler, den Sie bearbeiten möchten.
Klicken Sie auf dessen Namen.

Klicken Sie links unter "Objekteinstellungen bearbeiten" auf Erweiterte Einstellungen.