pdf durchsuchen ......

Rantanplan

Blöder Hund
Registriert
7 Mai 2021
Beiträge
752
Erhaltene Likes
1.333
Hallo Gemeinde
Mit welchem Tool könnte ich Folgendes automatisieren:
Ein mehrseitiges pdf Dokument durchsuchen und den Inhalt von ganz bestimmten Stellen extrahieren und in eine Exceltabelle einfügen.
Datenfelder (immer an gleicher Stelle) im Dokument wären:
Objekt
Straße
PLZ
Einheit
Wohnfläche


Hintergrund:
Ich als Sachbearbeiter einer Hausverwaltung muss aus allen Objekten die Wohnungen mit Wohnfläche angeben.
Diese Angaben benötigen wir um den Hydraulikabgleich für Heizungsanlagen vorzubereiten.

Sodele ...... KI Marsch Marsch 😉
 
Zuletzt bearbeitet:

tastebin

InventarNr. #290621
Crew
Registriert
29 Juni 2021
Beiträge
3.027
Erhaltene Likes
6.862
Ich bastel gerade ein Script. Hast du ein Beispiel des Aufbaus der PDF?

Ich habe einfach als Startpunkt dies benutzt:

Objekt: Musterstraße 5 – Haus A
Straße: Musterstraße 5
PLZ: 12345 Musterstadt
Einheit: WE 08
Wohnfläche: 73,5 m²

Taucht das in etwa so auf? Evtl. wäre noch wichtig an welcher Stelle im PDF danach gesucht werden soll.
 
Zuletzt bearbeitet:
Kommentieren

Rantanplan

Blöder Hund
Themenstarter
Registriert
7 Mai 2021
Beiträge
752
Erhaltene Likes
1.333
Hallo Maestro

Genau das wären die Daten.
Uns wurde sowas schon vorgeführt, allerdings kann ich nicht sagen welche Technik dahinter stand.
Nur soviel:
Ich konnte in dem Tool welches Dokument ich "scannen" will. Dann hatte ich in einem Dropdown Feld verschiedene Auswahlmöglichkeiten, die ich anwählen konnte ..... wie zB "Straße"

Daraufhin ging ein Cursor auf und ich musste markieren wo die Information "Straße" in dem Dokument zu finden war.
Dann die nächste Auswahl "Ort" .... wieder markieren.
Dann am Schluss "Export" nach ......

Ich will hier nicht unserer Firma Kohle sparen, oder einen Orden verdienen.

Aber ich hatte schon Bekanntschaft gemacht, mit jemandem der mit ner KI arbeitet. Ich habe für einen Vergleich von 5 Angeboten Stunden gebraucht, und der Eigentümer hat mir das in Excel umgesetzt nach 15min geschickt ..... mit dämlichen Nachfragen, die ich nicht beantworten konnte 🤨
 
Kommentieren

tastebin

InventarNr. #290621
Crew
Registriert
29 Juni 2021
Beiträge
3.027
Erhaltene Likes
6.862
Ich schau mal wie ich es hinbekomme.

Wenn das als Block immer wieder so auftaucht, sollte es einigermaßen funktionieren. Lass mich diese Nacht mal tüfteln. Ich erstelle mal Testfiles mit Dummytext in denen der Datensatz so auftaucht.
 
Kommentieren

Rantanplan

Blöder Hund
Themenstarter
Registriert
7 Mai 2021
Beiträge
752
Erhaltene Likes
1.333
Ich will das aber irgendwie nachvollziehen können ...... bin da sowas von wissbegierig 🤷
 
Kommentieren

tastebin

InventarNr. #290621
Crew
Registriert
29 Juni 2021
Beiträge
3.027
Erhaltene Likes
6.862
Wird wahrscheinlich auf ein Python Script hinauslaufen. Die kann man eigentlich ganz gut lesen.
 
Kommentieren

Rantanplan

Blöder Hund
Themenstarter
Registriert
7 Mai 2021
Beiträge
752
Erhaltene Likes
1.333
Sorry, die Adresse ist im Anschriftenfeld ähnlich eines DIN Briefes.
Die Einheit steht einzeln irgendwo rechts oben
Die Wohnfläche wieder 15 ca tiefer unter zig anderen Daten.

Daher ging das irgendwie wie im vorletzten Post beschrieben mit "markieren"

Aber bitte jetzt nicht die Nacht um die Ohren schlagen ..... obwohl, bin schon mitten in der Nacht aufgestanden und an den Rechner weil ich für ein anderes Vorgaben ne Idee hatte 😁
 
Kommentieren

tastebin

InventarNr. #290621
Crew
Registriert
29 Juni 2021
Beiträge
3.027
Erhaltene Likes
6.862
Ich mach sowas nur aus Langeweile und weil man immer wieder was lernen kann. Alles gut 😋💪
 
Kommentieren

Rantanplan

Blöder Hund
Themenstarter
Registriert
7 Mai 2021
Beiträge
752
Erhaltene Likes
1.333
Du solltest dann aber noch einen "Seitenwechsel" einprogrammieren.
Das Dokument ist nämlich ähnlich eines Serienbriefes von zB 200 Seiten, aber in einem pdf
Also das nächste "Suchareal" wäre nach zb 2 Seiten. Immer nach 2 Seiten fängt das wieder mit dem Adressfeld an ..... schwierig zu erklären 😉
 
Kommentieren

tastebin

InventarNr. #290621
Crew
Registriert
29 Juni 2021
Beiträge
3.027
Erhaltene Likes
6.862
Ich lasse eh das ganze PDF scannen. Alles andere würde mir zu komplex.
Grob sieht der Schlachtplan so aus das die Zeile mit dem Schlüsselwort bis zur Leerstelle kopiert werden soll. Ich bin gespannt😋😂
 
Kommentieren

tastebin

InventarNr. #290621
Crew
Registriert
29 Juni 2021
Beiträge
3.027
Erhaltene Likes
6.862
PDF → Excel Extraktor

Ein kleines, portables Python-Projekt mit GUI, das automatisch bestimmte Daten aus PDF-Dateien extrahiert und in Excel-Dateien einträgt.



pBTyQII.png


cUkjkWm.png



r05bcep.png



Bitte, Anmelden oder Registrieren um den Inhalt zu sehen!

Bitte, Anmelden oder Registrieren um die Links zu sehen!

Virustotal:
Bitte, Anmelden oder Registrieren um die Links zu sehen!


Code extractor_gui.py :


Python:
Bitte, Anmelden oder Registrieren to view codes content!



Ich hoffe es läuft bei Dir auch so sauber. Viel Spass beim Testen.
 
Zuletzt bearbeitet:
Kommentieren

tastebin

InventarNr. #290621
Crew
Registriert
29 Juni 2021
Beiträge
3.027
Erhaltene Likes
6.862
Schick mir doch Mal ein PDF mit Daten die aus Fantasienamen bestehen damit ich das Script anpassen kann. PM natürlich. So 6-8 Seiten.
 
Zuletzt bearbeitet:
Kommentieren

Rantanplan

Blöder Hund
Themenstarter
Registriert
7 Mai 2021
Beiträge
752
Erhaltene Likes
1.333
Mach ich ....... morgen ....... heute war Stresstag 🥱


Edith schreit aus derr Küche: Heute noch !!!!
 
Zuletzt bearbeitet:
Kommentieren

Rantanplan

Blöder Hund
Themenstarter
Registriert
7 Mai 2021
Beiträge
752
Erhaltene Likes
1.333
Ist ein Serienbrief mit 6 Seiten
Bitte, Anmelden oder Registrieren um die Links zu sehen!

Die Markierten Infos sollte ich in ner Excelliste haben
(Sorry, dass die Felder jetzt anderst heißen
Die m² sind tatsächlich vor der Feld Heizfläche, sollte aber als Wohnfläche ausgegeben werden)

Bitte, Anmelden oder Registrieren um die Links zu sehen!
 
Zuletzt bearbeitet:
Kommentieren

Rantanplan

Blöder Hund
Themenstarter
Registriert
7 Mai 2021
Beiträge
752
Erhaltene Likes
1.333
Sieht aber immer wieder anderst aus, das Dokument. Daher hatte das was mir vorgeführt wurde
auch "frei verteilbare" Felder die extrahiert wurden. Ähnlich meiner Gelben Markierungen.
Aber tu Dir keinen Zwang an ...... ;)
 
Kommentieren

tastebin

InventarNr. #290621
Crew
Registriert
29 Juni 2021
Beiträge
3.027
Erhaltene Likes
6.862
passt schon so. die maske ist jetzt schon relativ variabel. mit den beispielen wird das schon. ich mach morgen weiter.
 
Kommentieren

thugggy

Neuer Pirat
Registriert
13 November 2021
Beiträge
2
Erhaltene Likes
1
ich habe ein rag chatbot geschrieben, die beste qualität habe ich nun mit docling hinbekommen
 
Kommentieren
Oben