Login



agorum core
Willkommen, Gast
Aw: Nochmal OCR! (1 Leser) (1) Gast
Zum Ende gehen Neues Thema Beliebt: 0
THEMA: Aw: Nochmal OCR!
#7783
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Nochmal OCR! vor 8 Jahren, 10 Monaten Karma: 0  
Hallo!

ich habe mich seit zwei Wochen intensiv mit Scannen und OCR beschäftigt und jetzt kann ich nicht weiter! (vielleicht auch wegen meiner noch nicht ganz gute Deutschkenntnisse?)

Ich habe fast alle relevante Beiträge in Forum gelesen und bin zu dieser Zusammenfassung gekommen:

a) gescannte Dokumente von allen Scannern können über DMS-Laufwerk bearbeitet werden, bzw. deren Text und Metadaten erfasst werden

b) wenn man agorum OCR-Engine benutzt, braucht man keine OCR-Software zu haben, da die normal gescannte Dokumente werden gemäß (a) erfasst

c) ReadIRIS wird dann benötigt, wenn man mit DocForm bzw. Trainer-Module arbeiten möchte

Wenn ich alles richtig verstanden habe, bleiben nur doch diese Fragen:

1) beim normalen Einscannen (ohne OCR-Software) wird das Dokument zwar für Volltextsuche indiziert , aber wird nicht mit Metadaten versehen. Sollen diese Manuell eingegeben werden?

2) wie kann ich testen, ob die OCR-Server und OCR-Engine miteinander kommunizieren können? (d.h. ob die Einstellungen stimmen)

Ich habe einfach eine Rechnung eingescannt und auf DMS-Laufwerk eingestellt und erwartete,dass die Inhalte mindestens per Suche zu finden sein könnten, keine Erfolg!

Danke!
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7787
wos (Benutzer)
Wolfgang Scheuing, agorum Support
Moderator
Beiträge: 195
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 10 Monaten Karma: 0  
Hallo!

Der OCR-Teil muss nicht von agorum übernommen werden. Wenn z.B. der Scanner ein PDF mit indizierbarem Text produziert und in das DMS-Laufwerk ablegt, wird es von agorum mit Volltextindex übernommen.

ReadIris muss man nehmen, wenn man das DocForm-Modul einsetzt.

Volltext ist ja auch eine Art Metadata und in vielen Fällen völlig ausreichend (und außerdem sehr bequem = automatisch) zu erzeugen. Andere Metadaten (vermutlich denken Sie an Rechnung, Kundenakte etc.) erleichtern in manchen Fällen die Handhabung, aber hier müssten Sie diese Metadaten auf eine andere Art hinzufügen (XML, Workflow, evtl. manuell).

Die Kommunikation zwischen OCR-Engine und -Server kann man im server.log sehen. Vielleicht hilft das Support-Wiki, um die Einstellungen bei der Installation zu überprüfen.

Gruß

Wolfgang Scheuing
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7788
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 10 Monaten Karma: 0  
Danke für die Antwort Herr Scheuing,

Jetzt ist mir klar, dass ich ein Problem mit der Kommunikation zwischen OCR-Server und -Engine habe. Portnummer von Engine (8080) stimmt vielleicht nicht.

vielen Dank und herzliche Grüße.
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7804
wos (Benutzer)
Wolfgang Scheuing, agorum Support
Moderator
Beiträge: 195
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 10 Monaten Karma: 0  
Hallo!

Auch die Firewall nicht vergessen - womöglich blockiert sie den Port.

Gruß

Wolfgang Scheuing
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7822
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 10 Monaten Karma: 0  
Hallo nochmal,

ich habe neben die Firewall (die wirklich den Port blockiert hatte) noch weiter Probleme (mit VPN usw.) gehabt, die alle jetzt behoben worden sind. Nun scheint alles zu funktionieren außer Ghostscript. Ich füge server.log von ocr-Server bei. Wenn ich manuell ein mit convertPDF2TXT convertieren lasse, bekomme erhalte ich keine Datei zurück.



Können Sie bitte mir bei diesem Problem auch helfen?

Danke und viele Grüße
M.Ghermezi
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7823
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 10 Monaten Karma: 0  
Datei vergessen
Dateianhang:
Dateiname: server___Kopie.zip
Dateigröße: 11421
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7828
oliver.schulze (Admin)
Admin
Beiträge: 1824
graph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Geschlecht: männlich agorum core Ort: Neuhausen Geburtstag: 1978-09-17
Aw: Nochmal OCR! vor 8 Jahren, 10 Monaten Karma: 22  
Welche agorum core Version setzen Sie ein?
 
Moderator informieren   Gespeichert Gespeichert  
 
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7830
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 10 Monaten Karma: 0  
Versoin 7.0, die auf der Webseite vorhanden ist.
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7837
oliver.schulze (Admin)
Admin
Beiträge: 1824
graph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Geschlecht: männlich agorum core Ort: Neuhausen Geburtstag: 1978-09-17
Aw: Nochmal OCR! vor 8 Jahren, 10 Monaten Karma: 22  
mhh komisch... ok, kopieren Sie mal die jar Datei aus dem ZIP im Anhang in das Verzeichnis InstallDir/jboss/server/default/deploy/roi.ear/lib (überschreiben Sie die vorhandene pdfbox-1.6.0.jar)
Dateianhang:
Dateiname: patch_pdfbox_1.zip
Dateigröße: 3727689
 
Moderator informieren   Gespeichert Gespeichert  
 
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7860
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 9 Monaten Karma: 0  
Hallo Herr Schulze,

sorry für die späte Antwort.
Ich nehme an, dass ich diese Datei auf OCR-Server (Verzeichnis InstallDir/jboss/.../deploy/documentservice.ear/lib) kopieren muss und nicht auf agorum-Server. Das hat nichts geändert und es gibt immer noch gleiche Errors in Server.log. Aber ich habe gerade gemerkt, dass unsere OCR-TestLizenz (100 Datei) ausgelaufen ist, kann das jetzt der Grund sein?
(Als ich erst dieses Problem gemerkt habe, war unsere Testlizene noch gültig.)

M.Ghermezi
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7869
oliver.schulze (Admin)
Admin
Beiträge: 1824
graph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Geschlecht: männlich agorum core Ort: Neuhausen Geburtstag: 1978-09-17
Aw: Nochmal OCR! vor 8 Jahren, 9 Monaten Karma: 22  
Ja, das ist sogar die richtige Stelle Aber installieren Sie es vorsichtshalber auf beiden Seiten. Haben Sie das gemacht?
 
Moderator informieren   Gespeichert Gespeichert  
 
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7875
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 9 Monaten Karma: 0  
Hallo Herr Schulze,

Ja, ich habe die Datei auf beiden Seiten kopiert. Ich musste OCR-Server auf einem anderen Rechner installieren und es sind genau die gleiche Probleme (plus ein paar neue Errors) aufgetreten.

Nun ist mir wichtiger zu wissen, ob dieses Problem den Indizierungsvorgang (Volltext) verhindert.

Ehrlich gesagt, ich habe noch keine Ahnung, wie ein PDF als TXT indiziert wird. Ist ein OCR-Server unbedingt nötig? Z.B. habe ich 10GB PDF-Dateien, die ich in agorum kopieren möchte. Soll ein OCR-Server immer im Einsatz sein, bis Indexierung fertig ist?

Anbei schicke ich auch der server.log

viele Grüße
M.Ghermezi
Dateianhang:
Dateiname: server___Copy.zip
Dateigröße: 22440
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7894
oliver.schulze (Admin)
Admin
Beiträge: 1824
graph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Geschlecht: männlich agorum core Ort: Neuhausen Geburtstag: 1978-09-17
Aw: Nochmal OCR! vor 8 Jahren, 9 Monaten Karma: 22  
Mhh, können Sie mal bitte Screenshots der Verzeichnisse machen, in denen Sie das PDF-File gepatcht haben, bzw. mal ein Verzeichnisliste hier posten...
 
Moderator informieren   Gespeichert Gespeichert  
 
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7897
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 9 Monaten Karma: 0  
Ich habe leider nicht verstanden, was Sie meinen. Unabhängig von den Verzeichnissen, kommt es immer gleiche Fehler aus.
Die PDF- Dateien sollen nicht direkt von agorum auch indizierbar sein, wenn sie nicht gescannt sind? (Diese sind von .odt, .ppt usw. in PDF-Format konvertiert worden und sind alle in Acrobat-Reader o.ä. durchsuchbar)

Ich glaube, dass wir dieses Thema viel intensiver besprechen müssen, damit wir endlich eine Entscheidung über Einsatz von agorum core treffen können.

Grüße
M.Ghermezi
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7899
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 9 Monaten Karma: 0  
Hallo,

ich habe mir gedacht, dass mein problem sich vielleicht einfacher erkennen lässt, wenn ich das direkt mit einem Beispiel erkläre.
Am Anhang finden Sie 3 Dateien: booklist.odt, booklist.pdf (PDF von .odt-File mit PDF-Creator) und booklist2.pdf (PDF von .odt-File direkt in OOffice, mit PDF Export).

Ich habe alle Dateien in /roi/files/RnD hochgeladen und gewartet bis die Indexierung fertig ist (also diese erschienen nicht mehr in TextIndexStatus).

ODT-File wird sofort durchsuchbar gemacht. Ich suche z.B. nach Kafka und das wird an der richtige Stelle in der Suche gelb markiert (Search Highlight). No Problem!
Aber dieses Word wird nicht in den PDF-Dateien gefunden. Text-Ansicht liefert nichts zuruck, wenn der Rechner (mit der abgelaufenen OCR-Lizenz) nicht vorhanden ist. Mit dem OCR-Server verbunden, erhalte ich "documenttext.ocr.licenseexpired
max allowed images: 0".
Ist auch in diesem Fall ein OCR benötigt? Welche PDF-Dateien lassen sich auch ohne OCR Volltext indexieren?

Danke und Gruß
M.Ghermezi
Dateianhang:
Dateiname: booklist.zip
Dateigröße: 218856
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7907
oliver.schulze (Admin)
Admin
Beiträge: 1824
graph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Geschlecht: männlich agorum core Ort: Neuhausen Geburtstag: 1978-09-17
Aw: Nochmal OCR! vor 8 Jahren, 9 Monaten Karma: 22  
Hallo,

es tut mir leid, ich habe im Eifer des Gefechts im Kopf ein Wort verdreht. Ich meinte nicht "PDF-File", sonder JAR-Datei (also der Patch für die Fehlermeldung in Ihrem Log-File). Dass der OCR fälschlicherweise angesprochen wird liegt ja daran, dass der normale PDF-Text-Extract wegen der fehlenden Java-Klasse nicht funktioniert.

Von daher haben Sie absolut recht: PDF-Dateien sollten, wenn Sie Text beinhalten, nicht über das OCR gehen. Da bei Ihnen aber irgendwie die falsche Klasse für das "normale" PDF-Text_Extrahieren installiert ist, geht das ganze doch übers OCR...

Daher wollte ich einen Screenshot, wo Sie die von mir geschickte JAR-Datei (pdfbox-1.6.0.jar) abgespeichert haben, damit ich sicher gehen kann, dass es richtig gepatcht ist...
 
Moderator informieren   Gespeichert Gespeichert  
 
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7908
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 9 Monaten Karma: 0  
Hallo,

hier ist die Liste der Dateien im Ordner, in dem die pdfbox kopiert worden ist. Ich bin nicht sicher, ob Sie diese Liste meinten. Vielleicht gesammte Folder-View?
Dateianhang:
Dateiname: dateiliste_roi.zip
Dateigröße: 881
 
Moderator informieren   Gespeichert Gespeichert  
 
Letzte Änderung: 11.09.2012 10:51 von ggmahyar. Grund: Anhang vergessen
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7909
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 9 Monaten Karma: 0  
Hallo,

und vielleicht meinten Sie etwas wie dieses Bild?


Welche Änderungen in MetaDB sind relevant, damit ein PDF zuerst über OCR geht, anstatt deren Text lokal extrahiert wird?
Vielleicht habe ich etwas unbewusst geändert!

Gruß
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7911
oliver.schulze (Admin)
Admin
Beiträge: 1824
graph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Geschlecht: männlich agorum core Ort: Neuhausen Geburtstag: 1978-09-17
Aw: Nochmal OCR! vor 8 Jahren, 9 Monaten Karma: 22  
ja, genau so ein Bild, allerdings, hätte ich gerne noch ein "ls -l p*", damit ich die Dateigrößen sehe und ich hätte dasselbe gerne von Ihrem OCR-Server...

Die relevanten Einstellungen finden Sie in der MetaDb unter MAIN_MODULE_MANAGEMENT/documentservice/control/services/a, genau so ein Bild, allerdings, hätte ich gerne noch ein "ls -l p*", damit ich die Dateigrößen sehe und ich hätte dasselbe gerne von Ihrem OCR-Server...

Die relevanten Einstellungen finden Sie in der MetaDb unter MAIN_MODULE_MANAGEMENT/documentservice/control/services/[ DocumentConverter ]

Und dort dann convertPDF2TXT...

Allerdings haben Sie doch oben geschrieben, dass der Exception mit dem ClassNotFound immer noch kommt, also hat das damit zu tun, dass die JAR-Datei einfach noch nicht richtig geladen werden konnte...
 
Moderator informieren   Gespeichert Gespeichert  
 
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7912
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 9 Monaten Karma: 0  
Hallo,

ein Screenshot mit ls -l p*

und von OCR-Server


und ein Screenshot von MetaDB und convertPDF2TXT Einstellungen



Grüße
M.Ghermezi
 
Moderator informieren   Gespeichert Gespeichert  
 
Letzte Änderung: 13.09.2012 13:51 von ggmahyar.
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7913
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 9 Monaten Karma: 0  
sorr, screenshot von agorum server
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7914
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 9 Monaten Karma: 0  
screenshot von MetaDB
 
Moderator informieren   Gespeichert Gespeichert  
 
Letzte Änderung: 13.09.2012 13:52 von ggmahyar.
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7918
oliver.schulze (Admin)
Admin
Beiträge: 1824
graph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Geschlecht: männlich agorum core Ort: Neuhausen Geburtstag: 1978-09-17
Aw: Nochmal OCR! vor 8 Jahren, 9 Monaten Karma: 22  
Nach dem Austausch der Jar-Dateien, haben Sie da auch agorum core neu gestartet (auf beiden Seiten?).. also auch den DocumentService?

Ich hätte dann noch gerne einen Screenshot von convertPDF2TXT_1 und _2

Wenn Sie übrigens unser Support-Telefon anrufen ist das Problem wahrscheinlich innerhalb von ein paar Minuten gelöst... So über das Forum ist das doch ein sehr langwieriger Vorgang
 
Moderator informieren   Gespeichert Gespeichert  
 
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7919
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 9 Monaten Karma: 0  
Hallo,

leider kann ich bis über nächste Woche nicht zurück zur Arbeit gehen und von daher habe ich versucht, irgendwie diese Zeit zu benutzen, um diese Fehler zu beheben.
Ja, agorum und Documentservice habe ich neu gestarte.
Die Screenshots sind am Anhang.

Dateianhang:
Dateiname: screenshots.zip
Dateigröße: 63651


Danke!
M.Ghermezi
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7920
oliver.schulze (Admin)
Admin
Beiträge: 1824
graph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Geschlecht: männlich agorum core Ort: Neuhausen Geburtstag: 1978-09-17
Aw: Nochmal OCR! vor 8 Jahren, 9 Monaten Karma: 22  
Die Konfiguration der MetaDb sind korrekt, aber das ist, wie gesagt, glaube ich, nicht Ihr Problem, sondern viel eher, dass etwas mit der pdfbox-jar nicht stimmt, oder diese nicht richtig installiert ist.
 
Moderator informieren   Gespeichert Gespeichert  
 
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7929
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 9 Monaten Karma: 0  
Hallo Herr Schulze,

es scheint mir jetzt, als ob ohne ghostscript/imagemagick/agorum-ocr-engine(also ein Remote-DocumentService-Server) kann der Text von PDF-Dokumenten nicht extrahiert werden. Ist das richtig?
Mit ein OCR-Server/Remote-DocumentService/Server bin ich in der Lage, den Text zu extrahieren, ohne eine gültige OCR-Lizenz zu haben.
Vielleicht müssen wir gs/imagemagick auch auf dem agorum-Server installieren, wenn kein Remote-DocumentService-Server vorhanden ist. Kann das mein Problem sein?

Grüße
M.Ghermezi
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7930
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 8 Monaten Karma: 0  
Hallo nochmal,

die Lösung war sehr klar und genau vor meinen Augen! Ich musste nur convertPDF2TXT und convertPDF2TXT_1 umtauschen.
So gehen die Dokumente zuerst über pdfbox und wenn es keinen Text gibt, über RemoteConverter!

Danke für Ihre Hilfe und Mühe
M.Ghermezi
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7933
oliver.schulze (Admin)
Admin
Beiträge: 1824
graph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Geschlecht: männlich agorum core Ort: Neuhausen Geburtstag: 1978-09-17
Aw: Nochmal OCR! vor 8 Jahren, 8 Monaten Karma: 22  
ok, damit haben Sie das jetzt über den lokalen pdfbox Konverter geleitet, damit funktioniert das zwar, aber die Ursache ist damit nicht gefunden. In Ihrer Konstellation bedeutet das einfach, dass PDFBox auf dem Remote-Server einfach nicht funktioniert. (Aber für Ihren Fall ist das jetzt ok so).
 
Moderator informieren   Gespeichert Gespeichert  
 
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7940
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 8 Monaten Karma: 0  
Hallo ,
Wie Sie gesagt haben, in diesem Fall ist alles ok für mich!

Ich habe nun ein neues Problem, für das ich keine neue Thread beginne, sondern frage ich es einfach hier. Als ich gestern ein paar neue Dokumente auf dem DMS-Netzlaufwerk kopiert habe, geht die Indizierung wahrscheinlich nicht mehr. Im server.log steht :

Do Not Index This (NotIndexInThisPaths): /agorum/roi/.../(filename.ext)

und das gilt nicht nur für die schon ältere Dateien, die schon im Index sind, sondern auch für die neu kopierte Dateien. So weit ich mich erinnere, habe nichts in MetaDB geändert.

Ich bedanke mich im voraus.
M.Ghermezi

PS: Ich habe vergessen zu erklären, dass ich heute ein paar alte Dateien gelöscht habe, weil es zu wenig Platz auf DMS-Netzlaufwerk gab (1,5GB frei von 20GB und ich hatte nur ca. 7GB Daten kopiert). Dann ich habe den Serverpapierkorb bereinigt (12 GB frei von 20G,CreatePrevieWhileIndexing ausgeschaltet und nachher ca.2,5GB kopiert.
 
Moderator informieren   Gespeichert Gespeichert  
 
Letzte Änderung: 28.09.2012 13:37 von ggmahyar.
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7945
oliver.schulze (Admin)
Admin
Beiträge: 1824
graph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Geschlecht: männlich agorum core Ort: Neuhausen Geburtstag: 1978-09-17
Aw: Nochmal OCR! vor 8 Jahren, 8 Monaten Karma: 22  
Können Sie bitte das komplette server.log hier als Zip gepackt anhängen?!
 
Moderator informieren   Gespeichert Gespeichert  
 
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7946
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 8 Monaten Karma: 0  
Hallo,

ich habe auch versucht, die MySQL-Tabellen zu leeren und alles genau wie im Handbuch beschrieben gemacht, aber die Indexierung wird noch nicht durchgeführt.

Nun habe ich einmal neu gestartet und dann einen Ordner indizieren lassen. Text-Index Status sieht immer so aus, wie im PDF-Datei im Anhang: nur ATTRIBUTEXMLOBJECT_OBJEKTID und kein Filename.

Ich frage mich immer: Was kann vermütlich beim Kopieren und Löschen von Dokumenten schief gehen, damit so ein Problem entstehen kann? Vielleicht habe ich unbewusst etwas getan?



Grüße
M.Ghermezi
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7947
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 8 Monaten Karma: 0  
sorry .7z ist wahrscheinlich nicht akzeptabel gewesen!

Dateianhang:
Dateiname: agorumlog.zip
Dateigröße: 194766
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7951
oliver.schulze (Admin)
Admin
Beiträge: 1824
graph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Geschlecht: männlich agorum core Ort: Neuhausen Geburtstag: 1978-09-17
Aw: Nochmal OCR! vor 8 Jahren, 8 Monaten Karma: 22  
Ein erstes Problem, dass ich in Ihrem Log-File sehe ist, dass Sie irgendwann mal das AgorumCoreSync Modul installiert hatten, welches jetzt aber nicht mehr da ist (haben Sie die Datenbank mal in ein neues System importiert?)

Aber Sie haben Recht, hauptsächlich verantwortlich ist die Ausgabe Do not Index this (NotIndexInThisPaths)...

Prüfen Sie mal in der MetaDb folgende Einstellung: MAIN_MODULE_MANAGEMENT/textindexservice/control/NotIndexedFolders was steht da bei Ihnen?

Welche agorum core Version setzen Sie ein?
 
Moderator informieren   Gespeichert Gespeichert  
 
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7954
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 8 Monaten Karma: 0  
1. Das ist aber seltsam, dass AgorumCoreSync Modul nicht mehr da ist, da ich nichts geändert habe. Ich habe mir gedacht, dass die Datenbank kaputt gegangen ist und von daher gemäß §6.5. von Admin-Handbuch die Index neu aufgebaut. Ich habe gar keine Ahnung, wie ich die Datenbank in ein neues System importieren kann!

2. Bei NotIndexedFolders steht nichts, also leeres Feld. Vorher hatte ich einen Ordner hier eingegeben, die nicht indiziert werden sollte, und wurde auch nicht indiziert. Nun habe ich den Ordner gelöscht und das Feld leer gelassen.

3. Version 7.0.0
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7959
oliver.schulze (Admin)
Admin
Beiträge: 1824
graph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Geschlecht: männlich agorum core Ort: Neuhausen Geburtstag: 1978-09-17
Aw: Nochmal OCR! vor 8 Jahren, 8 Monaten Karma: 22  
zu 2) Sie müssen den Eintrag komplett entfernen aus der MetaDb, dann sollte es gehen
zu 1) Komisch, warum das Modul nicht mehr da ist, es scheint irgendwie eine Lib weg zu sein. Installieren Sie einfach das Sync-Modul nochmal nach
 
Moderator informieren   Gespeichert Gespeichert  
 
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7960
ggmahyar (Benutzer)
Junior Boarder
Beiträge: 36
graphgraph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Aw: Nochmal OCR! vor 8 Jahren, 8 Monaten Karma: 0  
Erstens, vielen Dank! NotIndexedFolders sollte auskommentiert werden und es reicht nicht, wenn man das Feld leer lässt.
Das Sync-Modul steht nicht in der Liste der installierten Module und steht auch nicht bei den anderen heruntergeladenen Softwares, deshalb denke ich nicht, dass dieses Modul überhaupt installiert worden ist. Auf jeden Fall werde ich es später installieren.

Vielen Dank für die Tipps.
M.Ghermezi
 
Moderator informieren   Gespeichert Gespeichert  
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
#7968
oliver.schulze (Admin)
Admin
Beiträge: 1824
graph
Benutzer offline Hier klicken, um das Profil dieses Benutzers zu sehen
Geschlecht: männlich agorum core Ort: Neuhausen Geburtstag: 1978-09-17
Aw: Nochmal OCR! vor 8 Jahren, 8 Monaten Karma: 22  
Das ist komisch mit dem Sync-Modul... Muss ich testen, ob das vielleicht ein Fehler bei uns ist...
 
Moderator informieren   Gespeichert Gespeichert  
 
  Kein öffentlicher Schreibzugriff erlaubt, bitte erst registrieren!
Zum Anfang gehen Neues Thema
Powered by FireBoarddie neusten Beiträge direkt auf Ihrem Desktop erhalten