Hat jemand schon mal ein Buch eingescannt?

tastebin

InventarNr. #290621
Crew
Registriert
29 Juni 2021
Beiträge
3.404
Erhaltene Likes
7.865
Ich teste und tüftel ja viel daran Bücher mit KI zum Hörbuch zu basteln. Jetzt habe ich ein sehr analoges Problem.
Das Buch meiner Wahl gibt es anscheinend nicht einmal als E-Book.
Da ging dann die Rechnerei los.
Zwei Seiten pro Scanvorgang bei 736 Seiten...😂💪
Gibte es Tools für sowas?
Achja, falls jemand wissen will was mein Buch der Wahl ist:
Dean Koontz - Der Wächter
Das hab ich jetzt 6 mal gelesen.🫣😂
 

KOLWE-X

...sucht das ONE PIECE
Registriert
23 August 2022
Beiträge
679
Erhaltene Likes
4.052
Das ist das gleiche Problem wie bei Mangas. Ich denke ums zerschneiden und per Dokumentenscanner (also Stapelverarbeitung) kommst du nicht drumherum, denn die andere Variante per Flachbettscanner will man sich denke ich nicht antun. Scann ist immer ne schei** schöne Arbeit :p
 
Kommentieren

tastebin

InventarNr. #290621
Crew
Themenstarter
Registriert
29 Juni 2021
Beiträge
3.404
Erhaltene Likes
7.865
Ach, schau mal. Scheuklappen! Stimmt. An zerschneiden habe ich noch gar nicht gedacht.
 
Kommentieren

Master_3

Namhafter Pirat
Registriert
26 Februar 2024
Beiträge
342
Erhaltene Likes
669
Das wohl schnellste und einfachste:

Spiegelreflexkamera, Stativ, vernünftige Beleuchtung, jede Seite Abfotografieren, alle in Adobe Reader Pro zusammenführen, OCR drüber laufen lassen und Abfahrt - danach kurze Kontrolle ob alles richtig erkannt wurde.

Bitte, Anmelden oder Registrieren um die Links zu sehen!

F34VE7IFHJMNRPH.png


Wenn der Aufbau erstmal steht ist das echt schnell,vor allem wenn du am besten noch einen Funkauslöser hast.

So wird das übrigens auch (in professioneller Form) mit wichtigen alten Büchern gemacht.

scribe01.jpg
 
Kommentieren

tastebin

InventarNr. #290621
Crew
Themenstarter
Registriert
29 Juni 2021
Beiträge
3.404
Erhaltene Likes
7.865
@tanljeft Oh dammed! Das ist so uralt aber für das hier ein echter Gamechanger!! Boah, danke das du dafür im "Museum" warst!🍻
Edith:
 
Zuletzt bearbeitet:
Kommentieren

borstel

Namhafter Pirat
Registriert
11 November 2023
Beiträge
51
Erhaltene Likes
174
Es soll Buchscanner mit Blätterfunktion geben. Mir hat mal letztes Jahr jemand den Tipp gegen, das es an den Unis Geräte gibt, die frei zugänglich sind. Habe es aber nicht probiert.
 
Kommentieren

tastebin

InventarNr. #290621
Crew
Themenstarter
Registriert
29 Juni 2021
Beiträge
3.404
Erhaltene Likes
7.865
Zur Uni hab ich gute Kontakte. Hab da ein paar Jahre für Sicherheit gesorgt. Fragen schadet nicht 💪
 
Kommentieren

tastebin

InventarNr. #290621
Crew
Themenstarter
Registriert
29 Juni 2021
Beiträge
3.404
Erhaltene Likes
7.865
Boah wie Scheisse ist das denn? Jetzt rufe ich gerade an, um nach den Scannern zu fragen. -Du warst schon länger nicht mehr hier oder??😂 Kann ja sein das wir sowas haben. Aber seit wir die Bibliothek wegen Asbest abgerissen haben, ist sämtlicher Kram irgendwo eingelagert bis der Neubau steht. Kannst dich ruhig mal öfter blicken lassen...😂
 
Kommentieren

notimp

Pirat
Registriert
25 Dezember 2024
Beiträge
10
Erhaltene Likes
8
Bücher vollständig in andere Sprachen zu übersetzen ist (zum Glück) noch nicht dort wo wirs haben wollten. :) Dennis Scheck bekäme einen Herzinfarkt. ;) (
Bitte, Anmelden oder Registrieren um die Links zu sehen!
) Was schwierig ist - kann hier nachgelesen werden:
Bitte, Anmelden oder Registrieren um die Links zu sehen!


Das erwähnte Buch ist bereits digital auf deutsch verfügbar. Trail hier:
Bitte, Anmelden oder Registrieren um die Links zu sehen!


Aber jetzt zur generellen Frage.

Die Antwort ist Flachbrett Scanner.

Wenn es sich nur um unter 10 Bücher handelt.

So aufwändig das Blättern ist. :) Einfach ein 40 Euro Kombigerät (die sind höher als dezidierte scanner und das ist angenehmer, dann ne Serie schauen, und drauflos scannen, es dauert nicht so lang, wie du denkst.).

Zielformat kann alles sein, darauf achten, dass es in graustufen oder Farbe aber nicht in schwarz/weiss gescannt wird, 300 dpi ist ausreichend. Wenn das Zielformat eine Bilddatei ist, empfielt sich die Weiterverarbeitung in Scantailor - die Perspektivkorrektur wird man dabei auch nicht brauchen, da Flachbrettscans perspektivisch korrekt sind. Aber fürs zuschneiden (masking) und ggf aufteilen von Doppelseiten ist es oft praktisch. Aber je nach OCR Software auch kein Muss.

Einfach ne AI nach der software im zusammenhang mit Buch scans fragen, sie ist schon älter.

Danach empfielt es sich imho immer noch mit Finereader (nicht Mac version) weiterzuarbeiten, da die ein gutes Feature hat um OCR Erkennungsfehler statistisch auszuweisen, dh - das sagt dir recht schnell falls Seiten missglückt sind. Wenn du das manuell machen kannst, pfeif auf die Software, und geh direct in eine OCR AI wie Mistral, oder Deepseek rein. Die haben ne höhere Erkennungsgenauigkeit nahe am Falz - sagen dir aber nicht wo sie anfangen Wörter zu erfinden. (Geht hier um die Balance zur Scanqualität, die ist bei Flachbrettscannern meist hoch genug, dass mans machen kann.) (edit: Also, die AI sagens dir über die Metadaten statistisch schon, .. aber die APIs meist nicht... Wenn du da gräbst, bekommst du die Info vermutlich auch aus der dem LLM raus.... Sollte man eigentlich versuchen, ... :) )

Ideal wäre eigentlich ein AI Abgleich zu ner konventionell (Finereader) OCRten Variante -- aber die Tools sind wenn dann gebastelt.

Finereader alleine geht auch. Tutorial für regexes zum zusammenführen von Seiten findest du, wenn du meine Posting Historie durchgeshst (ich hab hier nicht viel gepostet, ist einfach. :) ).

Hier zum warum.

V-förmige scanner (abfotographieren), sind - wenn dus manuell machst beim blättern angenehmer, und zerstören den Buchrücken weniger. Um "perfekte" scanqualität zu haben, brauchst du aber nen keil der dir die fläche glättet (Glas, Plexiglas) - gute Ausleuchtung, eine ordentliche Kamera -- oder du verlässt die auf Perspektivkorrektur Software. Das ist dann ein extra Schritt. Die reduziert dir bei konventioneller OCR software wieder die Erkennungsgenauigkeit - und du wirst dich spielen um ein optimum zu bekommen.

Das Lohnt sich nicht für zehn Bücher.

Wenn du zur Uni gehst um zu scannen ("professionelle" Geräte) ist das Stehen und umblättern unangenehmer als zu Hause im Schneidersitz mit nem 40 Euro Scanner zu arbeiten.

Ist im Endeffekt daher oft langsamer. Schont aber den Buchrücken.

Die "Rollscanner" machen zu viel Aufwand (blättern, anpressen, Knopf drücken fertig ist da bereits ökonomischer).

Irgendwo da draußen existiert sicher auch ein cheapo Top Down scanner (so wie die V scanner vom Kamera Element her, aber mit einer günstigeren Kamera), der mit flacher Buchauflage (== dein Tisch) und mit software perspektiv Korrektur gute Resultate liefert. Das ist auch schnell (mein Röntgen Labor verwendet die im Kundenkontakt), und bei 300 dpi ausreichend - aber wie vergleichen, und einige davon sind Schrott.

Einfach nur Handy geht auch - und ist auch sehr schnell - macht aber deutlich am wenigsten Spass (krampfhafte Haltung) und du verlässt dich mehr auf OCR AI als mit jeder anderen Methode. (Tutorials siehe meine Posting Historie.)

Bei den AIs sei noch dazu gesagt, dass wenn du services nutzt (Deepseek OCR oder verglecihtbar ginge auch lokal bei dir am Rechner, da open source (open weights), wenn der beefy genug ist) -- deren Mitarbeiter nicht sofort eine Anzeige einreichen werden, wenn du copyright verletzt, aber falls aus jedweden Gründen bei denen wer anfragt - liegt das Material bei denen, und sie gebens auch gerne an staatliche Stellen weiter.

Dh. nutze die Services (APIs) aber mit Bedacht.

Die Risikoabschätzung für die Privatperson, mit fünf Büchern ist recht einfach - ich äußere sie hier trotzdem nicht.

Tools.

briss zum zuschneiden von pdfs

ScanTailor für masking und zuschneiden von Bildern. (Für Perspektivkorrektur gibt es sicher schon besseres)

Perspektivkorrektur und "automagic" Bildbearbeitung (Fingerentfernung, aufhellen, Schatten entfernen, whitening, ...) hab ich bisher nur bei Handybildern nutzen müssen - da war CamScanner (chinesische Entwickler) sehr gut.

OCR AI, die dir dann Markdown rauswirft ist am einfachsten für die Weiterverarbeitung - Finereader braucht Kenntniss der Settings, siehe meine Postinghistorie, hab das in einem github beitrag nochmal abgeradelt, wenn du den liest, liest du das Richtige.

Flachbrettscanner, und konvetionelle OCR Software ist immer noch ein sehr guter weg.

Handyphotos, und OCR AI - ist definitiv schneller - aber die Fehlerkorrektur wird aufwändiger.

Für nen Mix, musst du erst recht wieder die konventionelle OCR Software lernen, ... :)

V scanner nur, wenn du das mit vielen Büchern machst, und dir die Buchrücken zu schade sind um sie durch aufdrücken zu beschädigen (je mehr du drückst, desto weniger Schatten, ...).

V scanner die automatisch blättern (Ansaugvorrichtung), sind meist sehr langsam.

Den letzten Stand den ich hab war dass das auch mit Fließband style (links rechts movement des gesamten Buchs) Konzept Aparaturen versucht wurde, und dass die gut waren, aber die niemand gekauft hat. Für die V scanner mit ansaug vorrichtung gabs bereits nen Markt.

Gute Ausleuchtung und damit die Notwendigkeit der Vscanner wurde durch die Entwicklungen im AI Umfeld immer weniger wichtig. Perspektivkorrektur macht mit OCR AI auch keine Probleme - bei konventioneller OCR suchst du wahrscheinlich noch nach "optimal settings".

Wenn du Nachforschen möchtest, wirf einen Blick auf teurere chinese vendor style tabletop scanner.

Oder informier dich wo die "auto blättern" Bastler grand stecken. :)

Bau keinen V Scanner für 10 Bücher -- auch mit viel Freude am Basteln.

Das sind so die Eckpunkte... :)

Bei 5 Büchern musst du auch noch nicht den Umgang mit Regex lernen um Seiten zusammenzu-

fügen, das kannst du auch manuell.

Falls du in meinen Tutorials über Empfehlungen zu alten Versionen von Sigil (epub Bearbeitung) stolperst, die haben den Vorteil, dass sie Regex suche und GUI (so sieht das epub aus, also WYSIWYG) editor noch in einem Vereinen. Neuere Sigil versionen, haben dann einfach die GUI Oberfläche "ausgelagert" und die nicht mehr integriert.

Für mich waren die alten Versionen immer praktischer, aber ich habe auch noch mit denen gelernt, und bin dann dabei geblieben.

edit: Das Projekt von Master 3 schaut auch gut aus - aber. Bei Taschenbüchern stoßen diese Tabletop scanner ohne Perspektivkorrektur schnell an Grenzen. Die legst du nicht so einfach flach auf einen Tisch. Die wölben sich gerne. Und das produziert Schatten am Falz. Und der Whitespace dort ist nicht immer optimal groß. Das läuft mit Andruck auf nen Flachbrettscanner besser (verletzt aber die Buchbindung mehr).

Dennoch diese Tabletop scanner sind die Empfelung wenn du versuchst was gutes, dezidiertes (11+ Bücher ;) ) zu finden. Wenn du den Sweetspot bei denen findest (inkl Perspektivkorrektur) - sind sie sie sicher der beste Kompromiss.
 
Zuletzt bearbeitet:
Kommentieren

Linksnap

Pirat
Registriert
8 Mai 2021
Beiträge
22
Erhaltene Likes
22
Wenn es dir nicht um den meditativen Akt des digitalisieren geht, dann schau doch mal auf Open slum 2.0 vorbei, dort wirst du sicherlich fündig.
 
Kommentieren

notimp

Pirat
Registriert
25 Dezember 2024
Beiträge
10
Erhaltene Likes
8
Hier noch der Einstieg in die Bastler communities:
Bitte, Anmelden oder Registrieren um die Links zu sehen!


Und "chinese tabletop scanner" sind sowas:

Bitte, Anmelden oder Registrieren um die Links zu sehen!

^ (Kickstarter)

Kickstarter Demo Video:

 
Zuletzt bearbeitet:
Kommentieren
Duckier

Sicher & Gratis VPN

Schütze deine Privatsphäre mit Duckier VPN — schnell, gratis und ohne Logs.

BlitzschnellKeine Geschwindigkeitslimits, kein Drosseln
Keine LogsDeine Aktivitäten bleiben privat — immer
Globales NetzwerkServer weltweit für beste Performance
100% KostenlosKeine Kreditkarte, keine versteckten Kosten
Oben