T3tipps

TYPO3 Tipps und Tricks gesammelt

Wechseln zu: Inhalt | Sidebar | Footer

Catdoc für Indexed-Search-Engine auf 64-Bit-Systemen

31 Mai, 2010 (15:38) | Extensions, HowTo | By: Robert Wenk

Damit die TYPO3-Extension Indexed-Search-Engine die Inhalte der in einer TYPO3 Webseite eingebetteten Worddokumente indizieren kann, muss das Paket catdoc auf dem Webserver installiert sein.

Diese Kurzanleitung zeigt die Installation des Pakets catdoc, mit dem die Inhalte von MS-Word-Dokumenten (doc) in einfachen Text umwandelt werden können, so dass sie für die Erstellung eines Suchindexes durch die Extension Indexed Search Engine zur Verfügung stehen.

Leider kompliert die aktuelle Version von catdoc nicht auf 64Bit-Systemen. Hierfür muss noch ein Patch angewendet werden.

Catdoc kompilieren

Das akutelle Paket catdoc finden Sie hier: catdoc 0.94-2
1. Laden Sie das Paket per FTP oder noch besser per wget.

wget http://ftp.wagner.pp.ru/pub/catdoc/catdoc-0.94.2.tar.gz

2. Dateien entpacken.

tar xvfz catdoc-0.94.2.tar.gz

3. Patch anwenden

Speichern Sie den catdoc 0.94.2 64-Bit-Patch

Damit catdoc auf 64-Bit-Systemen sauber kompliert ist erstmal der Patch anzuwenden

patch -p0 <patch.txt

4. In das aus dem tar-Archiv entpackte Verzeichnis catdoc-0.94.2 wechseln.

cd catdoc-0.94.2

4. Installation konfigurieren. Als Prefix geben Sie einen absoluten oder relativen Pfad des Zielverzeichnisses ein (alles in einer Zeile).

./configure \
--bindir=/usr/bin\
--disable-wordview \
--disable-langinfo \
--with-input-charset=8859-15 \
--with-output-charset=8859-15

5. Damit Catdoc deutsche Umlaute erkennen und darstellen kann, müssen Sie noch die Datei „config.h“ im Verzeichnis „src“ modifizieren und dort die Default-Vorgaben ändern.

vi src/config.h

passen Sie die beiden Variablen SOURCE_CHARSET und TARGET_CHARSET am Ende der Datei an:

#define SOURCE_CHARSET "8859-15"
#define  TARGET_CHARSET "8859-15"

6. Catdoc kompilieren und installieren

make; make install

7. Catdoc liegt jetzt ausführbar im Verzeichnis /usr/bin .

8. Den Ordner catdoc-0.94.2 und seinen ganzen Inhalt brauchen Sie nicht mehr und können ihn löschen.

rm -Rf catdoc-0.94.2

9. Fertig!

Jetzt können Sie dem Typo3 Plugin Indexed Search Engine den Pfad zum Catdoc mitteilen. Die catdoc-Datei liegt im Unterverzeichnis „bin“.

/usr/bin/

Um zu testen, ob Inhalte von MS-Word-Dateien tatsächlich indiziert werden, sollte erst eine Worddatei (.doc) via Content > Dateiverweis in eine TYPO3-Seite eingegeben werden.

Kommentar schreiben