Das goldene Dreieck und Google’s Prefetch

Google führt zusammen mit Firefox ein neues Feature ein: Prefetch. Dabei werden Suchresultate die der Benutzer mit hoher Wahrscheinlichkeit anklickt im Hintergrund bereits runtergeladen.

Und natürlich wird das in Blogs weltweit sofort diskutiert. Und zu meinem Erstaunen scheinen all die Leute die sich einmal mehr über Google empören nie die FAQs gelesen zu haben.

Von wegen Bandbreitenverschwendung für kleine Anbieter, von wegen Statistikverfälschung… Stimmt ja alles gar nicht.

Insbesondere wenn man diesen Enquiro-Bericht über das goldene Dreieck liest, erfährt man dass viele Benutzer nur die ersten 4 bis 5 Resultate bei einer Google-Suchanfrage lesen. Und laut Google selber wissen sie ziemlich genau, wann auf den ersten Link geklickt wird und wann das Suchresultat nicht so eindeutig ist.

Apple Motion Sensor als Zufallszahlengenerator

Wirklich zufällige Zahlen zu generieren ist extrem schwierig, besonders für einen Computer der ja (theoretisch) sich deterministisch verhält. Ein einfacher Ausweg aus der Misere sind physikalische Seeds: Ein Sensor der Zahlen aus externen, nicht berechenbaren Quellen generiert. Für gewöhnlich hat ein handelüblicher Computer leider keinen derartigen Sensor und man bedient sich einer Menge mathematischer Tricks um wenigstens zufällig aussehende Zahlen zu erzeugen.

Und Lavalampen hat auch nicht jedermann zuhause.

Bei der Lektüre eines Artikels über den Apple Motion Sensor in den neuen Powerbooks ist mir die Idee gekommen dass dieser Sensor genau die Daten liefert die man für einen Seed braucht.

Leider habe ich (noch) kein Powerbook und kann nicht überprüfen ob der Apple Motion Sensor auch brauchbare Daten liefert wenn das Powerbook ruhig auf einem Pult liegt. In einer Woche weiss ich vielleicht mehr (Noch befindet sich mein Powerbook irgendwo zwischen Holland und meinen Händen.)

Japanische Schreibmaschinen

Einmal mehr ein äusserst interessanter Artikel via We-Make-Money-Not-Art.com: In The Quest for a Faster Way to Write wird der Werdegang von japanischen Schreibmaschinen beschrieben.

Eine kurze Erläuterung für diejenigen meiner zwei Leser die mit dem Japanischen Schriftensystem nicht vertraut sind: Es gibt grundsätzlich drei Alphabete: Die beiden Silbenalphabete Hiragana und Katakana haben je ca. 60 Schriftzeichen. Sie werden benutzt um grammatikalische Konstruktionen und Fremdwörter auszudrücken. Ausser in Kinderbüchern wird der eigentliche Text aber mit den Wortschriftsymbolen Kanji ausgedrückt. Diese Symbole haben sich die Japaner aus dem Chinesischen entliehen, allerdings meist ohne die Bedeutung zu übernehmen. Der in der Schule gelehrte Grundwortschatz beträgt ca. 12’000 Zeichen (von mehr als 50’000), allerdings reicht für die Lektüre gewöhnlicher Publikationen ein Kernsatz von 5000 Zeichen.

Dieser Umstand und die komplizierte Struktur der Kanjis führt natürlich zu einer Menge interessanter technischer Probleme: Schriften-Displays müssen hochauflösend sein, Eingabesysteme diese Eigenheiten intelligent unterstützen. Und führt zu Schreibmaschinen wie diese hier (Video).

〈Via We-Make-Money-Not-Art.com

Die Illusion von maschinellen Übersetzungen

(Da glaubt man sich nach Ablauf der obligatorischen Schulpflicht von
aller Grammatik befreit und kaum hockt man 5 Jahre später in einer Vorlesung über maschinelle Textverarbeitung wird man damit wieder konfrontiert.)

Was ich nicht wusste: Maschinelle Übersetzung gilt als eine der ersten Computeranwendungen überhaupt. Man dachte in den 50er Jahren dass wenn Kleinkinder Sprachen erlernen können, dies für eine Maschine kein grösseres Problem darstellen sollte. Auch wenn automatisierte Rumpf-Übersetzungen schon seit dem 2. Weltkrieg gute Dienste leisten konnten, machte sich schnell Ernüchterung breit.

Heutzutage ist man trotz Fortschritten noch weit von einer generellen automatischen Übersetzung entfernt. Das einzige oft zititierte Beispiel funktioniernder Automatisation sind Wettervorhersagen mit streng limitierter Vokabular- und Phrasensammlung. Die Systeme funktionieren generell besser je technischer die Quelltexte sind.

Ein einfaches Testverfahren um die Qualität von Übersetzungen zu testen sind übrigens Nebensätze: Kaum ein System erkennt diese zuverlässig oder schafft es die grammatikalischen Strukturen überhaupt zu erkennen.

Desweiteren können Maschinen bei der Übersetzung den kulturellen Kontext (D.h. Redewendungen, bekannte Fakten die nicht explizit erwähnt sind usw.) nicht benutzen und haben somit keine Chance bei umgangssprachlichen oder belletristischen Texten.

Das Gebiet bleibt dennoch ein beliebtes Forschungsfeld: Der Markt ist riesig. Alleine die EU muss all ihre öffentlichen Dokumente in sämtliche Sprachen ihrer Mitgliedsstaaten übersetzen (Derzeit ca. 25 verschiedene). Der Bedarf an Übersetzungen hat in den letzen Jahren so weit zugenommen, dass weltweit ein Mangel an menschlichen Experten besteht.

Weiterführende Literatur:

Herrliche Middleware: iPhotoToGallery

Ich kann nicht ganz immer nachvollziehen warum sich Softwarehersteller so dagegen wehren ihre Systeme zu öffnen. Durch Middleware werden viele Anwendungen erst recht interessant. Opensource-Programmieren haben das schon längst begriffen.

Hier mein Lieblingsstück Middleware für den Moment: Man nehme Apples iPhoto (Dessen HTML-Export mehr als zu wüschen übrig lässt, zumindest in der Version 4) sowie die populäre Online-Galerie Gallery und verknüpfe die beiden bequem mit dem Plugin iPhotoToGallery.