Streit um Benchmarks: Mauschelei pro Intel?

RollerChris

R.I.P.
In einem angeblich von AMD stammenden Dokument wird der Benchmark-Organisation BAPCo mangelnde Neutralität vorgeworfen. Der neue Leistungstest SYSMark 2002 benachteilige den AMD Athlon XP gegenüber dem Intel Pentium 4.

Die BAPCo (Business Applications Performance Corporation) veröffentlicht die Anwendungs-Suite SYSMark, die gängige Programme installiert und durch Skripte automatisierte Tests ablaufen lässt. In der neuen Version 2002 sind dem Dokument zufolge die Skripte zu Gunsten des Pentium 4 verändert worden. Es seien viele Arbeitsschritte weggefallen, die der AMD-Prozessor besonders schnell abarbeitet. Auf der anderen Seite würden einige Schritte unverhältnismäßig oft durchlaufen, die den Pentium 4 als schneller darstellen. Insgesamt verschiebe sich das Verhältnis um 10 bis 20 Prozent zu Intels Gunsten.

Weiter heißt es, AMD werde als Konsequenz weiterhin den bisherigen SYSMark 2001 benutzen. Zudem wolle AMD der BAPCo beitreten und dort nach einer Erklärung für die Veränderung der Skripte forschen. In der Tat ist AMD seit Anfang Juni Mitglied der BAPCo, der außer Intel auch Herstellern wie Dell, HP, IBM und Microsoft angehören.

Von offizieller Stelle bei AMD war bisher nichts zu diesem Thema zu hören. In der Pressemitteilung zur Vorstellung des XP 2400+ und 2600+ am vergangenen Mittwoch hieß es lediglich, dass "Insider in Sachen Mikroprozessoren" erkannt hätten, dass "es Unsinn ist, die Megahertzrate als Symbol für die Leistung eines Prozessors zu werten." Unterschiedliche Chip-Designs machten "Leistungsvergleiche auf der Grundlage von Taktrate sinnlos". Damit hat AMD zweifelsfrei Recht.

Die Einführung der "Quantispeed"-Angabe im Oktober 2001 war eine Reaktion auf diese Tatsache. In der Tat zeigte sich bei vielen Benchmarks und Anwendungen, dass der AMD Athlon XP deutlich mehr "Leistung pro Megahertz" lieferte als der Intel Pentium 4. Doch weil sich so eine komplizierte Aussage nicht verkaufen lässt, gab AMD fortan die "Quantispeed"-Zahlen an, die mehr oder weniger zufällig in ähnlichen Größenordnungen lag wie die Taktraten des Intel Pentium 4.

Zur Ermittlung des Quantispeed-Ratings zieht AMD verschiedene Benchmarks heran und hat eine Gewichtung gefunden, die viele Experten für durchaus gerechtfertigt oder sogar bescheiden halten. Anlass für Diskussionen gibt es dennoch zu Genüge, denn Einzelergebnisse schlagen teilweise sehr extrem zugunsten des einen oder des anderen Prozessors aus. Die Gewichtung gibt also einige Gestaltungsfreiheit und ist sowohl bei Quantispeed wie auch beim SYSMark mit Vorsicht zu genießen. Bei Hersteller-eigenen Benchmarks (nichts anderes ist Quantispeed letztlich) erwartet man schon fast eine Bevorzugung der eigenen Produkte. Demgegenüber gilt die BAPCo nicht zuletzt aufgrund der Mitgliedschaft von Medienhäusern wie CNet, VNU und ZDNet als weitgehend unabhängig. Es wäre also ein herber Schlag für die Reputation der BAPCo, wenn die Behauptung zuträfe, dass Intel beim SYSMark 2002 manipulativ eingegriffen habe.

AMD gerät nicht zum ersten Mal mit der BAPCo aneinander: Vor etwa einem Jahr tauchte ein Patch auf, der einem Bestandteil des SYSMark 2001 nachträglich die SSE-Befehle des Athlon XP beibrachte. Auch dem 3DMark 99 hatte AMD auf einigen Testsystemen mal eine optimierte DLL untergeschoben. So verständlich das aus technischer Sicht jeweils sein mag, bedeutet es doch eine Manipulation der Benchmarks.

Neu ist der Versuch der Hersteller beileibe nicht, Benchmark-Ergebnisse zu manipulieren. Erst vor kurzem ging beispielsweise durch die Internet-Diskussionsforen, dass die neue Version 30 der Treiber für Nvidia-Grafikkarten einen im Zusammenhang mit dem sehr verbreiteten 3D-Benchmark MadOnion 3DMark 2001 auftretenden Fehler beheben würde: Der Benchmark lieferte schlechtere Ergebnisse, wenn man bestimmte Zwischensequenzen ausgeschaltet hatte. Die neuen Treiber sollen nun auch bei ausgeschaltetem "Splash Screen" zu den besseren Ergebnisse führen. Wie jedoch die Zwischensequenzen das Ergebnis verschlechtert haben sollen, bleibt unklar. Eine mögliche Interpretation wäre, dass der alte Treiber anhand der Zwischensequenzen erkennt, dass der Benchmark läuft, und dann einige Modifikationen zur Verbesserung der Ergebnisse durchführt -- mit anderen Worten: Pfusch. Die Verbesserung des neuen Treibers läge dann darin, den 3DMark anhand anderer Kriterien zu erkennen.

Für den Anwender zeigt die Diskussion vor allem, dass es zur Beurteilung der Leistungsfähigkeit von PCs nicht ausreicht, sich auf einzelne Zahlen und Benchmark-Ergebnisse zu beziehen. Benchmarkwerte spielen für den täglichen Einsatz keine Rolle, weil niemand -- außer die Mitarbeiter von Computer-Zeitschriften und Online-Magazinen -- ständig ausschließlich Benchmarks laufen lässt. Immer wieder ist festzustellen, dass bestimmte einzelne Anwendungen in den Benchmarkwerten nicht zutreffend repäsentiert werden. Zudem beeinflussen weitere System-Komponenten wie Grafikkarte, Speicher-Interface oder Festplatte die Ergebnisse erheblich.

Doch vielleicht kümmern sich bald die Gerichte um Benchmarking: Im US-Bundesstaat Illinois wurde Anfang Juni eine Klage gegen Intel, Gateway und (ebenfalls BAPCo-Mitglied) Hewlett-Packard eingereicht, die den Firmen irreführende Werbung vorwirft. Demnach sei der Pentium 4 "weniger leistungsfähig und langsamer als der Pentium III oder AMDs Athlon". (jow/c't)
 
Oben