Vokabelscanner und -trainer mit Python

Ich fände es interessant, mit Python einen Vokabelscanner zu bauen, der mit Texterkennung Vokabeln, deren Übersetzung und weiteres (Stammformen, Beispiele) einscannen und in z.B. JSON umwandeln kann.
Dazu wäre es sinnvoll, auch direkt einen Trainer zu programmieren, mit dem man die Vokabeln in Lektionen oder Aufgaben unterteilen kann. Den Trainer kann man (bei Langeweile) außerdem gut um weitere Features ausbauen, wie z.B. ein Punktesystem.

Ich habe dieses Thema bei den Herbst-Campdays in Bielefeld als Session vorgeschlagen, bei der, sollte sie angenommen werden, das erste Treffen stattfinden soll.

Aber generell:

  • Ich habe Interesse
0 Teilnehmer

Wenn ihr mitmachen wollt, kommt am besten in den Matrix-Raum.

Sessionbericht zum 13.9.2025 (Campdays in Bielefeld)

Teilnehmende

@benny
@chickenlover
@justus
@maxisp19

Was haben wir gemacht?

  • Repo auf Codeberg erstellt
  • Überlegt, ob das Modul img2table geeignet ist:
    • Tabelle wird erkannt, doch nicht wirklich gut (fehlende Zeilen, zusammengefügte Zeilen, fehlerhafte Texterkennung (mit EasyOCR als lokalen OCR-Dienst))
  • Wir sind dann zu dem Schluss gekommen, dass vor der Erkennung von Tabellen das Bild noch bearbeitet werden muss (z.B. Verzerrung, sodass Text und Tabelle gerade sind)

Ich schlage vor, dass wir uns online treffen, um eine To-do-Liste zu erstellen und die Aufgaben untereinander zu verteilen. Das wird wahrscheinlich nicht lange dauern, maximal eine halbe Stunde, würde ich sagen.
Danach kann man (je nach Lust und Zeit) anfangen, und Fragen, Probleme oder Ideen direkt besprechen.

BBB-Room: https://bbb.teckids.org/b/rooms/qbq-erc-ptu-x91/join

Terminumfrage:

Der Termin fällt auf den 2025-10-12T14:00:00Z

  • Donnerstag, den 09.10. um 17:00 Uhr
  • Donnerstag, den 09.10. um 18:00 Uhr
  • Samstag, den 11.10. um 13:00 Uhr
  • Samstag, den 11.10. um 14:00 Uhr
  • Samstag, den 11.10. um 15:00 Uhr
  • Samstag, den 11.10. um 16:00 Uhr
  • Samstag, den 11.10. um 17:00 Uhr
  • Samstag, den 11.10. um 18:00 Uhr
  • Sonntag, den 12.10. um 13:00 Uhr
  • Sonntag, den 12.10. um 14:00 Uhr
  • Sonntag, den 12.10. um 15:00 Uhr
  • Sonntag, den 12.10. um 16:00 Uhr
  • Sonntag, den 12.10. um 17:00 Uhr
  • Sonntag, den 12.10. um 18:00 Uhr
  • Freitag, den 17.10. um 13:00 Uhr
  • Freitag, den 17.10. um 14:00 Uhr
  • Freitag, den 17.10. um 15:00 Uhr
  • Freitag, den 17.10. um 16:00 Uhr
  • Freitag, den 17.10. um 17:00 Uhr
  • Freitag, den 17.10. um 18:00 Uhr
0 Teilnehmer

An den Daten, die in der Vergangenheit liegen, findet der Termin natürlich nicht statt.

Sessionbericht zum 12.10.2025 (Online-Treffen)

Teilnehmende

@benny
@justus
@maxisp19

Was haben wir gemacht?

Aktueller Vortschritt des Vokabelscanners

Der Vokabelscanner kann:

  • ein Bild als Input nehmen
  • das Bild zurechtdrehen (deskew)
  • OCR über das Bild laufen lassen (EasyOCR)
  • Zeilen erkennen
  • aus den gegebenen Daten ein Dictionary mit mit Karten generieren, die eine Vorder- und Rückseite haben
  • dieses Dict als JSON und CSV (für Anki) exportieren

Ideen für Dinge, die der Scanner noch haben könnte:

  • gut funktionierender Anki-Export
  • besseres/genaueres OCR und Zeilenerkennung (vlt. auf bestimmte Bücher angepasste OCR-Skripte)
  • Eine Benutzeroberfläche:
    • Web-UI:
    • Anki Add-on (falls gut möglich und sinnvoll)