Indexer für Dateien

Beschreibung

Der Indexer für Dateien erlaubt es Ihnen, Dateien aus dem Dateisystem zu indexieren.

Momentan unterstützt der Indexer die Indexierung von folgenden Dateitypen: PDF, DOC, PPT, XLS.

 

Es gibt zwei Möglichkeiten zur Datei-Indexierung:

  • auf Ordnerbasis (auch mit FAL-Unterstützung)
  • auf Inhaltebasis mit FAL-Unterstützung

Systemvoraussetzungen

Um PDFs indexieren zu können, müssen Sie noch die externen Tools "pdfinfo" und "pdftotext" installieren (in Ubuntu Linux sind diese im Packet poppler-utils enthalten). Wollen Sie PPTs indexieren, so muss das externe Tool "catppt" installiert werden (in Ubuntu Linux ist dieses im Paket catdoc enthalten). Bitte verwenden Sie den Extension - Manager, um ke_search mit den Dateipfaden dieser Programme vertraut zu machen.

Ordnerbasierter Datei-Indexer mit FAL-Unterstüzung

Sie können die Ordner spezifizieren, die ke_search indexieren soll.
Da die Dateien direkt auf dem Dateisystem indexiert werden, findet keine Zugriffs-Prüfung statt! Vergewissern Sie sich, dass sich nur öffentliche Inhalte in den Ordnern befinden, die Sie zur Suche freigeben.

Legen Sie eine "Indexer-Konfiguration" vom Typ "Dateien" an und wählen Sie die zu indexierenden Ordner aus.

Sie können Sie einen FAL Storage angeben. Wenn Sie dies tun (anstatt einfach Ordner unterhalb von fileadmin/ zur Indexierung freizugeben), werden auch die FAL-Metadaten indexiert. D. h. Titel, Beschreibung, Kategorien und Alternativtext werden indexiert. Aus den Kategorien werden Schlagworte generiert, so dass Sie eine Facettierung von Dateien vornehmen können.

Nehmen Sie in den Indexer-Konfigurationen bitte folgende Einstellungen vor:

  • Vergeben Sie eine Überschrift (wird nur intern verwendet).
  • Weisen sie dem Indexer nun den Speicherordner zu. Tragen Sie hier bitte Ihren Suchdaten - Ordner ein.
  • Setzen Sie den Typ auf „Dateien”.
  • Wählen Sie den gewünschten FAL Storage aus, bzw. wählen Sie "FAL nicht nutzen", wenn Sie ohne FAL-Unterstützung indexieren möchten.
  • Wählen Sie ein, oder mehrere Verzeichnisse aus, die die Dateien enthalten, die Sie indexieren wollen. Sie müssen Unterverzeichnisse von „fileadmin/“ sein, bzw. Unterverzeichnisse Ihres FAL-Storages.
  • Geben Sie die Liste der erlaubten Dateiendungen ein. Es können nur Dateien indexiert werden, deren Endungen der Indexer unterstützt. Wenn Sie den FAL-Indexer nutzen, können Sie auch nicht unterstützte Dateitypen angeben, z. B. JPG. Bei diesen Dateien werden dann nur die FAL-Metadaten indexiert.

 

 

Inhaltebasierter Datei-Indexer mit FAL-Unterstützung

Dieser Indexer erkennt während der Indexierung normaler Content-Elemente verlinkte Dateien und indexiert diese (Inhaltselemente "Text" bzw. "Text mit Bild" und "Dateilinks").

Es wird mindestens TYPO3 CMS 6.0 benötigt.

Legen Sie einen Seiten- oder Inhaltselemente-Indexer an. Die Indexierung der Dateien erfolgt automatisch.

Es können im Seiten- oder Inhaltselemente-Indexer die Dateitypen angeben werden, die indexiert werden sollen. Wenn das entsprechende Feld leer ist, werden keine Dateien indexiert.

Es werden die Zugriffsbeschränkungen des verlinkenden Inhaltselements übernommen. D. h. wenn Sie z. B. mit der Erweiterung naw_securedl arbeiten, können Sie auch mit ke_search geschützte Dateien anlegen, da nur die Dateien in der Suche erscheinen, die auch für den jeweiligen Benutzer zugänglichen Bereich liegen.

Seit Version 1.8 werden FAL Metadaten indexiert, aus Kategorien werden Schlagworte gebildet, d. h. so kann eine Facettierung von Schlagworten realisiert werden (siehe dazu Öffnet internen Link im aktuellen Fensterdie Dokumentation zum Indexer "news", bei diesem Indexer werden analog aus Kategorien Schlagworte gebildet.)

Timo (Archiv)
wie bekommt man es hin, dass man pdf dokumente mehrsprachig indexieren kann? also das in der entsprechenden sprache auch nur die pdf's gefunden werden, die für diese sprache vorgesehen sind?
Christian (Archiv)
Diese Funktion ist derzeit noch nicht implementiert. Eine Idee für die Implementation wäre, dass man unterschiedliche Verzeichnisse verwendet und der Indexer-Konfiguration ein neues Feld "Sprache" hinzufügt und dann für jedes Verzeichnis eine eigene Indexer-Konfiguration anlegt. Du kannst gerne ein Feature-Request für ke_search auf forge.typo3.org anlegen.
Carsten (Archiv)
Werden die neuen Officeformate ( .docx) wie (.doc) behandelt oder ist das für die Suche eine "fremde" Datei und wird nicht indiziert?
Christian (Archiv)
Hallo Carsten, wir verwenden "catdoc" um den Inhalt der doc-Dokumente auszulesen, dieses Programm kann aber keine docx-Dateien lesen. Daher ist derzeit noch keine docx-Unterstützung in ke_search implementiert.
Carsten (Archiv)
Bei mir funktioniert der Dateien-Indexer nicht. Es kommt jeweils die Debug-Meldung, dass der Pfad zu dem jeweiligen Konvertierungstool nicht stimmt. Den habe ich habe definitv richtig gesetzt (nämlich /usr/bin/). Bisher habe ich indexed_search genutzt und auch z.B. pdf-Dateien indiziert, von daher kann es an dem Pfad nicht liegen. Irgend eine Idee was ich falsch mache? Ansonsten super Extension.
Christian (Archiv)
Hallo Carsten, leider kann ich Dir so allgemein nicht weiterhelfen. Wenn die Indexierung mit indexed_search funktioniert, scheinen ja auch alle Berechtigungen korrekt gesetzt zu sein, das würde ich sonst nochmal prüfen.
Matthias (Archiv)
Hallo,

ich habe das Problem, dass der Pfad zu den indizierten PDF Dokumenten falsch dargestellt wird.

bisher domain.de/fileadmin/test.pdf

jetzt

der komplette Pfad des Servers.

//kunden/1234/.../typo3cms/01-vorlage/fileadmin/test.pdf

dieser Fehler tritt auf wenn ich über den Task die Seite indizieren lasse. ( Bei mir Nachts )

Wenn ich die Indizierung per Hand mache, passen die Pfade wieder.

Habt ihr eine Idee warum?

Gruß
CarstenK (Archiv)
Hallo,

der Datei-Indexer funktioniert bei mir ohne Probleme. Als Funktionserweiterung wäre es sehr hilfreich, wenn Ihr in der nächsten Version eine Rekursionsmöglichkeit einbauen würdet, so dass immer nur der zu durchsuchende Hauptordner angegeben werden muss. Gerade bei sehr umfangreichen Dateiindizierungen spart das eine Menge Arbeit. Umbenennungen von Unterordnern wären dann auch kein Problem mehr.

Vielen Dank
CarstenK
Christian (Archiv)
Hallo Matthias, ich kann Dir leider so nicht weiterhelfen, ohne die genaue Konfiguration und Dein System zu kennen.
CarstenK, gute Idee, wir nehmen das Feature "Rekursives Indexieren von Datei-Ordner" in unsere Wunschliste auf.
Manuel (Archiv)
Hallo zusammen!

Leider ist mir gerade bei der Indexer Konfiguration aufgefallen, dass es nicht möglich ist, mehr als 10 Verzeichnisse in die Liste der zu indexierenden Verzeichnisse aufzunehmen. Kennt vielleicht jemand einen Workaround? Dieser Wert ist bestimmt irgendwo definiert.

Besten Dank,
Manuel
Christian (Archiv)
Hallo Manuel, der Wert ist in der tca.php definiert und kann dort oder besser in der typo3conv/extTables.php überschrieben werden. Ich habe den Wert für die nächste Version von ke_search (aktuell ist Version 1.4.0) auf 100 erhöht. Gruß, Christian
CarstenK (Archiv)
Hallo Christian,

bei uns enthalten viele Datei- und Verzeichnisnamen Leerzeichen. Bei der Erstellung der URLs im FE durch ke_search werden dann keine %20 eingebaut, sondern die generierte URL bricht bei dem ersten Leerzeichen ab und das gefundene Dokument lässt sich somit nicht öffnen. Ist das ein bug in ke_search, oder muss ich an irgendeiner Stelle in typo3 noch eine Konfiguration vornehmen. Habe schon intensiv zu dem Thema gegooglet, aber leider keine passende Antwort gefunden. Hast Du hier eine Idee?

Vielen Dank
CarstenK
Christian (Archiv)
Hallo CarstenK, wir verwenden für die Verlinkung von Dateiergebnissen die TYPO3 API-Funktion TypoLink (siehe ke_search/lib/class.tx_kesearch_lib_searchresult.php), daher gehe ich nicht davon aus, dass es ein Bug in ke_search ist. Gruß, Christian
Urs (Archiv)
Ich habe dasselbe Problem wie User Matthias vom 12.12.12

Mit der händischen Indizierung sind die PDF-Pfade korrekt, mit dem scheduler nicht.

ke_search 1.4 und TYPO3 4.5.22

Hat sich diesbzgl etwas ergeben?
Wenn nicht, könntet ihr mich vielleicht mit dem User Matthias in Kontakt setzen?
Urs (Archiv)
So, letzte Frage von mir heute :-)

Wir möchten Dateien in einem (zb. mit naw_securedowloads) Download-geschützten Ordner in der Suche anzeigen, auch wenn man nicht die Rechte hat, darauf zuzugreifen. Als eine Art "Teaser" (Interessenten können den Zugang dann erwerben).

Dafür müsste man wohl einen eigenen Datei-Indexer schreiben, richtig?

Liesse sich das evt bei euch in Auftrag geben oder habt ihr eine Liste mit ke_search erprobten Freelancern?
Christian (Archiv)
Man kann dafür den normalen Datei-Indexer einsetzen, da dieser nur auf Dateiebene arbeitet und nicht die TYPO3-Rechte berücksichtigt. Allerdings würden dann bei nicht eingeloggten Benutzern die Links auf die Dateien nicht funktionieren. Für alles weitere müsste man den bestehenden Datei-Indexer und idealerweise auch die Ausgabefunktion individuell erweitern. Das können wir auf Anfrage gerne implementieren.
Christoph (Archiv)
Herzlichen Dank für diese prima Such-Erweiterung. Ich hätte eine kleine Frage betreffend Icon beim Indexer für Dateien. Ist es in einigen Worten zu erklären, wie ich bei den Suchresultaten von Dateien auch (wie z.B. bei News- oder Inhalts-Treffern) ein Icon einfügen kann? Dieses könnte für alle Dateien dasselbe sein... schon im Voraus Danke für eine Antwort. Grüsse Christoph
Christian (Archiv)
Hallo Christoph, siehe hier: http://kesearch.kennziffer.com/dokumentation/ein-eigener-indexer.html, Abschnitt "Eigene Icons in der Frontend-Ergebnisliste". Du müsstest ein Icon mit dem Namen "file.gif" in dem angegebenen Ordner hinterlegen.
Philipp (Archiv)
Hallo zusammen,
Ich habe die Extension installiert und finde die echt gut. Leider habe ich ein paar Probleme mit dem Datei- indexier. Ich habe diesen angelegt. Den Pfad für catdoc eingetragen (zip-Archiv entzippt und auf dem Server abgelegt ?ist damit die ganze Installation abgeschlossen?) und den Pfad eingetragen (d:/xxxxx/). Ist der Pfad so richtig? Oder muss der nicht absolut, sondern relativ eingetragen werden? Laut Anzeige der Inhalte, wurden Dateien indexiert. Aber über die Suche kann ich das nicht finden. Habt ihr da einen Tipp?

Danke und Gruß
Christian (Archiv)
Hallo Philipp, leider kann ich Dir in Deinem speziellen Fall so nicht weiterhelfen, ohne das System zu kennen. Du solltes auf jeden Fall erstmal sicherstellen, dass catdoc lauffähig und für den Webserver ausführbar auf Deinem Server installiert ist.
Björn (Archiv)
@Carsten

Wenn Dateien nicht indexiert werden obwohl index_search dies macht kann dies an open_basedir liegen. Hier muss /usr/bin freigegeben sein, da mit is_file nach der jeweiligen Tool (catdoc usw.) gesucht wird.

Vielleicht erspart es jemandem die Fehlersuche :)
gb
Dan (Archiv)
Hallo,
ist es möglich Dateien aus dem Inhaltstyp "Dateilinks" zu indizieren? Das Dateisystem ab einem bestimmten Pfad zu indizieren hilft mir nicht weiter, wenn im gleichen Verzeichnis noch ältere Versionen einer Datei liegen.
VG Dan Blinstein
Christian (Archiv)
Hallo Dan, das ist derzeit leider nicht möglich. Wir arbeiten aber an einem FAL-Indexer mit dem es mit TYPO3 6.0 oder höher dann möglich wäre, Dokumente aus dem "Dateilinks"-Inhaltselement heraus zu indexieren.
Dan (Archiv)
Hallo Christian, vielen Dank für die Info. Ich bin gespannt auf die Lösung.
Viele Grüße
Dan
ralph (Archiv)
kann es sein, dass es in der class.tx_kesearch_indexer_filetypes_pdf.php eine merkwürdige stelle gibt?
ab zeile 53.
if($safeModeEnabled ..
also wenn ich auf unix systemen unterwegs bin und safemode off ist, dann komme ich nie in den genuss des indexers?
Christian (Archiv)
Hallo Ralph, auf die Bedingung folgt eine "ODER"-Bedingung in der geprüft wird, ob der Pfad zum "pdfToText"-Binary gesetzt ist, das sollte auch auf Unix-Systemen funktionieren.
Fabian (Archiv)
Hallo. Ich setze die ke_search bereits mehrfach erfolgreich ein. Vielen Dank für die super Extension. Beim Dateien-Indexer habe ich allerdings noch ein Problem. Die Links aus den Ergebnissseiten sind immer mit target="_self" markiert. Wäre natürlich schöner wenn die Dokumente in einem neuen Fenster geöffnet werden würden. Kann man das irgendwo einstellen? Vielen Dank.
Christian (Archiv)
Hallo Fabian. In der kommenden Version von ke_search wird es möglich sein, in den Plugin-Einstellungen das "target" zu wählen. Das ist bereits implementiert, Du kannst also ich die aktuelle Trunk-Version aus forge.typo3.org verwenden.
Andreas (Archiv)
Hallo Christian, erstmal vielen Dank für die Extension. Klasse Arbeit!
Ich habe nur ein Problem, Typo läuft bei mir auf einen Windows Server 2008 (64 Bit). Die Funktionalität ist gegeben, nur das Indexieren von Dokumenten klappt nicht, speziell catdoc, da dies nur auf 32 Bit gibt.

1.Frage: gibt es da eine Alternative zu catdoc (goggle verrät mir da nichts)
2. Frage: für die PDFinfo und ODFtotext habe ich mir "xpdfbin-win-3.03" runter geladen. Der Pfad zur *.exe lautet "C:\PDFinfo\bin64". Was genau muss ich bei "Path to..." eingeben?
Christian (Archiv)
Hallo Andreas, leider kann ich Dir bei der Konfiguraton von Windows-Servern nicht weiterhelfen.
Till (Archiv)
Hallo,
ich habe das gleiche Problem wie Matthias (12-12-12 07:56) und Urs (06-02-13 20:51) beschrieben haben.
Mit dem Scheduler werden PDFs nicht mit dem kompletten Pfad indexiert sondern es fehlen die vollständigen Root-Pfade.

Ohne Scheduler (manuelles Anstoßen des Indexers): /home/www/kundeXXXX/html/typo3/fileadmin/pdf/...

Mit Scheduler: /html/typo3/fileadmin/pdf/...

Gibt es hierfür einen Workaround oder ein Fix?

Viele Grüße,
Till
Christian (Archiv)
Hallo Till,

verwendest Du den den dezidierten File-Indexer, oder lässt Du die Dateien über FAl-Verknüpfungen indexieren (Textelemente, Dateilinks, ab TYPO3 6.0)?
Christian
Stefan (Archiv)
Hallo,

ich habe ein Problem mit der Ergebnisausgabe des Datei-Indexers. Inhaltlich ist alles ok. Der Link zur Datei wird allerdings immer mit dem kompletten physikalischen Serverpfad erzeugt, dem trotzdem meine Domain vorangestellt - also www.meinedomain.de/kunden/blablabla/xyz/.../typo3cms/meintypoverzeichnis/fileadmin statt richtigerweise www.meinedomain.de/fileadmin/...

Wie kann ich das beheben? Im Einsatz sind Typo3 4.5.32 und ke_search 1.6

Herzliche Grüße,

Stefan
Christian (Archiv)
Hallo Stefan, Du bist wahrscheinlich auf diese Bug gestoßen: forge.typo3.org/issues/45250
Ich kann noch nicht sagen, wann der Bug gefixt sein wird. Wenn Du den Indexer im Backend manuell startest, müssten die Links stimmen.
Christian
Till (Archiv)
Hallo Christian,
ich verwenden den Indexer-Typ "Seiten" und aktiviere dort den Datei-Indexer. Den dedizierten Datei-Indexer kann ich auf Grund des Core Bugs von TYPO3 6.x nicht nutzen.

Viele Grüße,
Till
Peter (Archiv)
Hallo
Gleiche Frage wie Andreas. Kann man ke_search mit pdftoext auf einem Windows System verwenden und wie sind dann die Pfade anzugeben?

Viele Grüsse, Peter
Björn (Archiv)
Hallo,

ich möchte den Datei-Indexer in Kombination mit der "Secure Download (naw_securedl)" Extension nutzen. Leider werden im Suchergebnis die Dateilinks nicht durch die der Extension ersetzt. Secure Download ist korrekt eingerichtet, in Contentelementen werden die std. Links ersetzt. Nutze ke_search v1.5 + premium v1.02 TYPO3 v4.5

Gruss
Björn
Christian (Archiv)
Hallo Björn, möglicherweise wird hier nicht die Typolink-Funktion verwendet, die von naw_securedl sicherlich vorausgesetzt wird. Bitte eröffne doch einen Eintrag auf forge.typo3.org / projects /extension-ke_search/issues
Suganja (Archiv)
Hallo Peter,

du musst für Windows absoluten Pfad angeben, z.B. C:/xampp/apache/bin/

Auf der folgenden Seite kannst du die benötigten Dateien runterladen:
www.foolabs.com/xpdf/download.html

Dadurch werden die PDFs indexiert und auch in den Suchergebnissen angezeigt. Leider funktioniert DOC-Dateien noch nicht. Eventuell hat ja jemand eine Lösung hierfür.

Grüsse,
Suganja
sge (Archiv)
Hallo,
die Suche ist wirklich genial! Vielen Dank.

Wir haben ein Problem mit dem Indexer für Dateien.

Mittwald hat nur PDFTools auf dem Managed Server installiert.

Die Dateien (PDF) werden per tt_news verwaltet und dargestellt.

Wie können wir diese PDF Dateien in den Index aufnehmen?
Christian (Archiv)
Hallo sge, leider unterstützt der Indexer für tt_news nicht die Dateianhänge. Das müsste noch implementiert werden. Du kannst gerne auf forge.typo3.org / projects / extension-ke_search /issues ein Feature-Request stellen.
Stefan (Archiv)
Hallo!
Gibt es eine Möglichkeit, bei der Suche nach Dateien, den FAL-Titel der Datei anstatt des Dateinamens in den Suchergebnissen auszugeben?
Danke!
Stefan
Christian (Archiv)
Hallo Stefan, das sollte in der aktuellen Version (1 . 8 . 2) so sein. Welche Version benutzt Du?
Stefan (Archiv)
Hallo!
Habe die aktuelle Version 1.8.2 installiert.
Die betreffenden Dateien haben tatsächlich einen Titel (musste mich grad nochmal versichern), anzeigt in den Suchergenissen wird der Dateiname der pdf-Dateien.
Silke (Archiv)
Bin bisher sehr zufrieden mit der ke_search! Jetzt habe ich ein Problem: Der Kunde hat Rundschreiben, einmal für Mitglieder, einmal für Vorstände. Diese sind jeweils fe_user mit entsprechender fe_group. Nun sollen die PDFs dieser Schreiben indiziert werden (liegen in 2 getrennten Ordner), aber in der Suche natürlich nur mit entsprechendem Login erscheinen. Kann man den Dateiindexer irgendwie dazu bringen, Zugriffsrechte zu setzen? Oder muss man dafür einen eigenen Indexer schreiben?
Stefan (Archiv)
Hallo!
Auch unter 1.8.3 wird bei mir der Dateiname von Files angezeigt statt dem Titel.
Grüße,
Stefan
Christian (Archiv)
Hallo Silke, ja, das geht, indem Du nicht den ordnerbasierten Dateiindexer verwendet, sondern den FAL-basierten. D. h. Du legst zwei Content-Elemente mit unterschiedlichen Berechtigungen an und verlinkst von diesen auf zwei unterschiedliche Dateien. Die Berechtigungen werden vom Content-Element auf die verlinkte Datei vererbt.
Christian (Archiv)
Hallo Stefan, hast Du den FAL-basierten Datei-Indexer verwendet? Verwendest Du TYPO3 6.0 oder höher?
Thomas (Archiv)
Grüß Gott,

ich habe zwei Files Indexer angelegt, da ich auf zwei Suchseiten auf verschiedene directories im fileadmin zugreifen möchte. Scheinbar wird nach Initialisierung des Indexers der erste durch den zweiten überschrieben.
Ist es grundsätzlich möglich auf einer Homepage zwei Indices desselben Typs anzulegen und wenn ja, was muss man beachten?
Falls es nicht möglich ist, wie kann ich das oben Beschriebene realisieren?
Besten Dank im voraus für eure Antworten.
Stefan (Archiv)
Hallo Christian!
Ich habe TYPO3 6.2.6 installiert und einen Indexer vom Typ "Dateien" angelegt. In diesem den FAL-Storage gewählt und im Feld darunter einen "/" platziert. Ohne / werden keine Dateien gefunden.
Danke nochmal!
Grüße,
Stefan
Christian (Archiv)
Hallo Thomas, grundsätzlich kannst Du mehrere Indexer Konfigurationen des gleichen Typs anlegen, z. B. auch um verschiedene Seitenbäume mit verschiedenen Seiten-Indexern zu erfassen. Das Problem muss also woanders liegen.
Andreas (Archiv)
Hallo, super Tool. Ich verwende die Version 1.8.3 unter Typo3 6.2.4, Ordnerbasierter Datei-Indexer mit FAL-Unterstüzung. Als Tags werden den Dateien System-Kategorien zugeordnet. Facetten sind diese Kategorien. Indexierung von Bildern (jpg, gif) funktioniert bestens damit. Für das Indexieren von pdf, doc, xls, ppt werden ja zusätzliche Tools benötigt. Geht es auch ohne diese Tools (kann die beim Hoster nicht installieren)? Ich muss ja nicht die Datei scannen, Indexierung ohne Inhalt. Indexierung geht über Kategorien, die werden ja erkannt. Danke für die Hilfe.
Christian (Archiv)
Hallo Andreas, wenn ich das richtig verstehe, möchtest Du bei DOC, XLS, ...-Dateien nur die Meta-Informationen indexieren, ohne die Dateiinhalte zu berücksichtigen. Leider ist das derzeit so nicht möglich. Dazu müsste man also einen eigenen Indexer erstellen.
Stephanie (Archiv)
Bei der Indexierung wird nur die Anzahl der Datensätze gespeichert, die in der Varaible amountOfRecordsToSaveInMem definiert ist. Ist also amountOfRecordsToSaveInMem = 500 dann enthält der Index 500 Datensätze, obwohl es aber 20000 hätten sein müssen. Habe ich etwas falsch gemacht oder gibt es diesbezüglich eine Lösung. Viele Grüße, Steffi
Christian (Archiv)
Hallo Stephanie, der diese Variable gibt nur an, wie viele Datensätze pro Schreibaktion gespeichert werden. Sind mehr Datensätze vorhanden, dann werden diese in Abschnitten zu 500 gespeichert. Das Problem muss in Deiner Website woanders liegen.
Franz Kugelmann, 05-08-15 15:25
File Indexer: Leerzeichen in Ordnernamen

Wir hatten dasselbe Problem wie CarstenK. Aktuell werden nur Leerzeichen in Dateinamen richtig behandelt. Ein Leerzeichen im Ordnernamen macht den Link kaputt, weil TypoLink ein Leerzeichen als Trenner zwischen Link-Url und target ansieht.
Der Pfad wurde bisher vermutlich nicht encoded, weil ohne Handling dabei die / kaputt gehen.
Folgende Änderung behebt das Problem (Classes/lib/class.tx_kesearch_lib_helper.php, Zeile 194)

#$linkconf['parameter'] = $resultRow['directory'] . rawurlencode($resultRow['title']);
$linkconf['parameter'] = implode('/', array_map('rawurlencode', explode('/', $resultRow['directory'] . $resultRow['title'])));
Thomas, 23-10-15 13:21
Hallo, gibt es inzwischen eine Möglichkeit, Unterordner rekursiv zu indexieren (ke_search 1.10.3)? Ich habe ein Projekt mit ca. 300 Unterordnern, die PDFs enthalten. Es soll einfach nur das Hauptverzeichnis mit allen Unterordnern indexiert werden. Wie muss das konfigurieret werden? Bisher ist es mir bei der Konfiguration nur gelungen, einzelne Ordner anzusprechen. Danke und Grüße, Thomas
Fritz Treber, 23-10-15 14:56
Kann man dem Datei Indexer so konfigurieren, dass bestimmte tieferliegende Unterverzeichnisse nicht indexiert werden?
Bei uns haben die im fileadmin Dateibaum tieferliegenden Archivordner einen festen Namen. Die sollen keinesfalls in der Websuche gefunden werden. Wen man da eine Ausschlussmöglichkeit in der Konfiguration hätte wie z.B. withoutindexing(ARCHIVName), waere das ganz toll.
Christian, 29-10-15 11:52
Hallo Thomas, leider kann ke_search bislang noch keine Ordner rekursiv indexieren.
Christian, 29-10-15 11:54
Hallo Fritz, leider gibt es derzeit noch keine Möglichkeit, bestimmte Ordner von der Datei-Indexierung explizit auszuschließen. Über die Konfiguration des Datei-Indexers (also nicht die Indexierung von Dateien über Verknüpfungen in Inhaltselementen) kann man aber gezielt einzelne Verzeichnisse angeben, Unterverzeichnisse werden dann nicht berücksichtigt (siehe die Frage von Thomas).
Fritz Treber, 07-11-15 09:28
Kann man Dateiverzeichnisse mit einer robots.txt gegen Indexieren schützen?
Christian, 09-11-15 09:50
Hallo Fritz, nein, eine robots.txt wird von ke_search nicht berücksichtigt.
frederick, 11-12-15 16:04
Hallo ke_search team,

nach dem ich die aktuellste Versioin aus dem git geladen habe, stellt sich für mich folgende Frage.

Was muß ich machen, damit die Dateien (pdf) für die ext:news auch indiziert und dementsprechend gefunden werden.

Bei der Indexer Konfiguration Typ: Inhaltselemente (tt_content) funktioniert das super, bei Typ: Nachrichten (news) ignoriert er die angehängten (als Inhaltselement file link) Dateien.

Gruß Frederick
frederick, 14-12-15 00:13
Hallo,

wir haben ein hook hierfür geschrieben, der jetzt pdf Dateien für ext:news Artikel indexiert.

siehe: http://typo3.org/extensions/repository/view/anckesearchaddon

Gruß Frederick
Fritz Treber, 07-01-16 15:14
Hallo Christian,

Wir indizieren im Intranet hunderte von pdf Dateien, die mit eigenem (immer gleichem) Passwort gegen Seitenentnahme oder Veränderungen geschützt sind. Der von ke_search benutzte PDF-Konverter "pdftotext.exe" kann geschützte pdf (zunächst) nicht in text wandeln und somit werden sie nicht in den Index aufgenommen.
Es gäbe aber die Möglichkeit dem pdftotext per Option "-opw" das Ownerpasswort mitzugeben, und somit könnten auch geschützte pdf Dateien indiziert werden.
Beispiel: "pdftotext -opw meinpasswort Dateiname.pdf"

Gibt es eine chance in einer nächsten release oder einen workaround in der Version 2.0.0?
Fritz Treber, 07-01-16 17:34
Hallo Christian,

Wir indizieren im Intranet hunderte von pdf Dateien, die mit eigenem (immer gleichem) Passwort gegen Seitenentnahme oder Veränderungen geschützt sind. Der von ke_search benutzte PDF-Konverter "pdftotext.exe" kann geschützte pdf (zunächst) nicht in text wandeln und somit werden sie nicht in den Index aufgenommen.
Es gäbe aber die Möglichkeit dem pdftotext per Option "-opw" das Ownerpasswort mitzugeben, und somit könnten auch geschützte pdf Dateien indiziert werden.
Beispiel: "pdftotext -opw meinpasswort Dateiname.pdf"

Gibt es eine chance in einer nächsten release oder einen workaround in der Version 2.0.0?
Inka, 09-03-16 16:56
Hallo Christian, der Dateiindexer funktioniert wunderbar - nur nicht mit Umlauten in Ordnern und Dateinamen; obwohl ich "UTF8filesystem = 1" und "systemLocale = de_DE.UTF-8" gesetzt habe. Hast du eine Lösung?
Danke und Grüße, Inka
Mitko Brunner, 31-05-16 15:41
Hallo Team,

mir ist ein kleiner Bug aufgefallen bzgl. der Sortierung der Ergebnisliste nach Titel, wenn Dateien im Ergebnis auftauchen. Die Sortierung arbeitet hier für den Webnutzer nicht ganz schlüssig. Sortiert wird nicht nach dem in FAL vergebenen Titel sondern generell nach dem Dateinamen. Hier sollte der Indexer schauen ob in der Tabelle "sys_file_metadata" ein alternativer Dateiname vergeben wurde und diesen auch in die Indextabelle von ke_search schreiben anstatt den echten Dateinamen., wenn vorhanden.

Wir werden uns eventuell erst mal mit ein eigenen kleinen Skript behelfen ist aber unschön.

Beste Grüße, der Mirko
Urs, 25-10-16 14:00
Hallo,
vielen Dank erst einmal für die super Extension ke_search!

Die Extension ist installiert ("2.4.1") und indiziert auch perfekt TYPO3-Seiten. Nur bei PDFs gibt es Probleme:

Ich habe eine Installation von XPDF auf 1&1 und per SSH installiert.
Mit "pwd" bekomme ich das richtige Verzeichnis von XPDF
/kunden/homepages/14/xxxxxxxxxxx/htdocs/xpdf-3.04/xpdf

Wenn ich dies im Extension Manager eintrage, dann erhalte ich folgende Fehlermeldung:
"The path to pdftools is not correctly set in the extension manager configuration. You can get the path with "which pdfinfo" or "which pdftotext"."
Leider funktionieren auch die beiden Befehle "which pdfinfo" und "which pdftotext" per SSH nicht.

Es wäre wunderbar, wenn jemand einen Ansatz hätte, wie ich die Verbindung zwischen der Extension und XPDF sauber hinbekomme.

Vielen Dank schon einmal!

Urs

Kommentar hinzufügen

* - Pflichtfeld

Teilen

Ihr Ansprechpartner für ke_search

* Pflichtfelder
zurück zum Kontakt
 

TYPO3 Agentur aus Leidenschaft. Wir erbringen alle Dienstleistungen rund um TYPO3. Von einfachen Webseiten bis hin zu TYPO3 Portal-Webseiten oder hoch komplexen TYPO3-Extensions. Wir engagieren uns im TYPO3 Security Board und in der Community. Unsere TYPO3 Agentur "lebt" TYPO3.