Anti-Twin ... funktioniert

Technik



Häufig werde ich gefragt ...
„Warum ist Anti-Twin so schnell?“
oder „Warum ist Anti-Twin so langsam?“

Das unterschiedliche Geschwindigkeitsempfinden der Benutzer ist stark von der Nutzungsart und insbesondere von der Anzahl der zu vergleichenden Dateien abhängig.

Besonders schnell ist Anti-Twin beim Namensvergleich und beim 100%-Duplikatsvergleich. Hingegen sind der Ähnlichkeitsvergleich (95% oder weniger) und der Bildvergleich (nach Pixeln) erheblich langsamer.

Ein besonderer Multiplikator ist zudem die Dateianzahl: Schon bei nur 100 zu vergleichenden Dateien, muss Anti-Twin knapp 5.000 Dateivergleiche durchführen. Die erste Datei wird mit den restlichen 99 Dateien verglichen, die zweite Datei dann nochmal mit den darauffolgenden 98 Dateien, und so weiter.
So sind es bei 1.000 Dateien schon eine halbe Million Vergleiche, und bei 10.000 Dateien muss bereits 50 Millionen mal eine Datei mit einer anderen verglichen werden. Will man sogar eine ganze Festplatte mit z.B. 100.000 Dateien durchsuchen, ist die enorme Anzahl von 1,2 Milliarden Dateivergleichen notwendig.

Am simpelsten - und damit am schnellsten - funktioniert der Namensvergleich, denn dafür ist es nicht nötig den Datei-Inhalt zu laden und zu begutachten. Allerdings sind Dateinamen ggf. wenig aussagekräftig, denn es wäre möglich, dass z.B. eine Textdatei und eine Videodatei den gleichen Dateinamen tragen, obwohl sie inhaltlich evtl. gar nichts miteinander zu tun haben.

Recht entspannend ist für Anti-Twin auch der 100%-Vergleich des Inhalts. Denn hierbei wird intern mit einem Trick gearbeitet: Zum einen brauchen nur Dateien miteinander verglichen werden, die die gleiche Länge haben, und zum anderen kann man den Inhalt mit Prüfsummen abstrahieren. Anhand dieser Prüfsumme des Inhalts kann Anti-Twin quasi schon „im Vorbeigehen“ sehen, ob Inhalte überhaupt gleich sein könnten. Erst dann wird im Bedarfsfall nochmal ein individueller Byte-für-Byte-Vergleich durchgeführt, um letzte Gewissheit zu bekommen.

Beim Ähnlichkeitsvergleich der Inhalte, kann leider nicht mit Prüfsummen gearbeitet werden. Das bedeutet, dass wirklich jeder Inhalt mit jedem anderen Inhalt verglichen werden muss. Das bedeutet auch, dass jede einzelne Datei zig-mal wieder neu geladen werden muss. Echter Streß für Anti-Twin und die Festplatte. Den Ähnlichkeitsvergleich sollte man deshalb nicht mit vielen tausend Dateien durchführen - oder viel Zeit mitbringen.

Bei Bildern ist der Vergleich nach Pixeln eine sehr spezielle Methode. Am Anfang des Suchlaufs werden alle Bilder geladen, was insbesondere bei großen Fotos sehr viel Zeit in Anspruch nimmt. Denken Sie daran, dass es auch mehrere Sekunden dauern kann, um z.B. ein einzelnes großes Bild in ein Grafikprogramm zu laden. Genau dieses Problem hat Anti-Twin leider auch. Erst nachdem endlich alle Bilder geladen sind, läuft der weitere Vergleich dann eigentlich relativ zügig. Intern arbeitet Anti-Twin mit verkleinerten Ansichten (Thumbnails). Dadurch entgehen Anti-Twin zwar einige Bilddetails, für einen groben Vergleich reicht es jedoch aus.




AIDeX Twins