Skip to content

Scripts parsing data from IT-Grundschutz-Kompendium

License

Notifications You must be signed in to change notification settings

gockelhahn/grundschmutz-tools

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

grundschmutz-tools

Dieses Repository enthält ein Script, welches die Daten des IT-Grundschutz-Kompendiums des Bundesamts für Sicherheit in der Informationstechnik (BSI) herunterlädt, konvertiert, parst und im Anschluss als JSON bereitstellt.

Howto

Das Script funktioniert unter Linux und benötigt zusätzlich das Tool/Package pdftohtml. Vor dem Ausführen müssen die Python-Abhängigkeiten installiert werden:

pip install -r tools/requirements.txt

python3 tools/download_and_convert.py

Die Daten werden im "data" Ordner abgelegt.

Howto Docker Alternative

Wenn man unabhängig vom Betriebssystem sein will, kann so vorgegangen werden:

docker build -t grundschmutz-tools:latest .

docker run --rm -v $(pwd)/data:/home/user/data grundschmutz-tools

Der Teil $(pwd)/data muss ggf. je nach Betriebssystem angepasst werden (siehe docs.docker.com VOLUME).

Intention

Nach dem Prinzip von Open Data sollten alle öffentlichen Daten möglichst maschinenlesbar zur Verfügung gestellt werden, damit man sie filtern, verknüpfen oder anderweitig verarbeiten kann.

Seit der Version 2021 stellt das BSI das Kompendium nur noch in Form von nicht barrierefreien PDF-Dateien bereit. Selbst auf mehrere Informationsfreiheitsanfragen bzgl. dessen wurde ablehnend und intransparent reagiert:

Für die Version 2022 stellt das BSI das Kompendium zusätzlich als XML (DocBook) zur Verfügung. Dieses Format eignet sich jedoch nur zur Erstellung von technischer Dokumentation, jedoch hilft es nicht dabei, die Daten zu attributieren und zu linken.

Daraus ergibt sich die Notwendigkeit dieses Repositorys, welches strukturierte Daten (aus den offiziellen Quellen) unter Einhaltung des definierten Datenschemas erzeugt.

Lizenz

Für alle aktuellen Dateien in diesem Repository gilt folgende Lizenz.