Meine API-Datasette ist versehentlich eine KI-Teergrube

Die Metadaten meiner Wetter-APIs (Stationen & Parameter) biete ich unter anderem auf der Seite API-Datasette an. Das ist eine kleine Webapplikation welche SQLite-Datenbanken auf mannigfaltige Arten und Weisen darstellt und durchsuchbar macht. Jede Tabelle wird aus verschiedenen Perspektiven visualisiert, gefiltert, sortiert, arrangiert, facetiert etc. Datasette kommt aus dem Datenjournalismus und ist im Bereich Open Data sehr beliebt.

Letzthin ist mir aufgefallen, dass die API-Datasette überdurchschnittlich viel Systemleistung meines Servers beansprucht. Bei der Kontrolle in den Log-Dateien fand ich die Ursache: Zahlreiche KI-Bots, welche konstant das Internet zum Füttern ihrer Modelle abgrasen, haben die API-Datasette gefunden und kommen jetzt nicht mehr raus: Die zahlreichen Darstellungsarten der Tabellen führen zu Millionen von kombinierten Links welchen diese Bots allesamt folgen.

KI-Bot-Anfragen im Sekundentakt

Ich bin halb amüsiert und halb wütend: Da jede KI-Firma ihre eigenen Bots losschickt, sind es dutzende Bots welche in dieser Teergrube feststecken. Auf der anderen Seite ist das eine unglaubliche Ressourcenverschwendung! Sowohl an elektrischer Energie wie auch an mentaler Energie für Personen, welche öffentliche Systeme betreiben.