Meine API-Datasette ist versehentlich eine KI-Teergrube

Die Metadaten meiner Wetter-APIs (Stationen & Parameter) biete ich unter anderem auf der Seite API-Datasette an. Das ist eine kleine Webapplikation welche SQLite-Datenbanken auf mannigfaltige Arten und Weisen darstellt und durchsuchbar macht. Jede Tabelle wird aus verschiedenen Perspektiven visualisiert, gefiltert, sortiert, arrangiert, facetiert etc. Datasette kommt aus dem Datenjournalismus und ist im Bereich Open Data sehr beliebt.

Letzthin ist mir aufgefallen, dass die API-Datasette überdurchschnittlich viel Systemleistung meines Servers beansprucht. Bei der Kontrolle in den Log-Dateien fand ich die Ursache: Zahlreiche KI-Bots, welche konstant das Internet zum Füttern ihrer Modelle abgrasen, haben die API-Datasette gefunden und kommen jetzt nicht mehr raus: Die zahlreichen Darstellungsarten der Tabellen führen zu Millionen von kombinierten Links welchen diese Bots allesamt folgen.

KI-Bot-Anfragen im Sekundentakt

Ich bin halb amüsiert und halb wütend: Da jede KI-Firma ihre eigenen Bots losschickt, sind es dutzende Bots welche in dieser Teergrube feststecken. Auf der anderen Seite ist das eine unglaubliche Ressourcenverschwendung! Sowohl an elektrischer Energie wie auch an mentaler Energie für Personen, welche öffentliche Systeme betreiben.

Link zum Wochenende: Datasette.io

Screenshot api-datasette für hydro_parameters

Das Open Source-Tool Datasette verwandelt SQLite-Datenbanken (Oder indirekt quasi jede CSV-Datei) schnell und unkompliziert in eine Webseite inkl. API. Es erlaubt einfach durch die Daten zu reisen, filtern, analysieren.

Screenshot api-datasette für hydro_locations

Erweiterbar mit Python-Plugins erlaubt es zusätzliche Visualisierungsmöglichkeiten wie diese Kartendarstellung.

Ich benutze es für meine OpenData-APIs für die Metadaten der Hydrologie- und SwissMetNet-Datenbanken. Dazu ruft ein Skript jeweils beim Deployment die API-Methoden auf und speichert die Resultate in die SQLite-Datenbank. Das ganze Skript als anschauliches Beispiel gibt es auf GitHub.

Office Hours

Auf das Projekt bin ich via diesem Artikel gestossen: Open source projects: consider running office hours. Letzte Woche habe ich einen dieser Slots gebucht und 20 Minuten mit Simon Willison konferiert.

Alles in allem ist Datasette eine ausserordentlich tolle Erfahrung, sowohl technisch wie auch menschlich. Ich kann es kaum erwarten noch mehr Anwendungsfälle dafür zu finden.