INTEL Itanium 2 (McKinley)
64 bit Adressierung ermöglicht mehr direkt adressierbaren Speicherbereich:
-
theoretisch: 264.(= 16,8 109 TB = 16 EB)
-
praktisch: 244 (= 16 TB) ????), (1TB RAM würden derzeit ca. 200.000 Euro kosten !)
Anmerkung:
1 G
|
109
|
230
|
Giga
|
1 T
|
1012
|
240
|
Tera
|
1 P
|
1015
|
250
|
Peta
|
1 E
|
1018
|
260
|
Exa
|
Highlights:
-
64 bit addressing with 16 TB address space for applications that need access lots of data from fast memory.
-
VLIW (very long instruction word) is a clear break in processor architecture. Itanium runs 32 bit programs in an emulation mode in an attached x86 compatibility unit (slower than Pentium 4). Itanium is only optimised for 64 bit software !
-
The Compiler must discover and exploit instruction level parallelism (is different than forcing the processor to dynamically schedule instructions).
-
Itanium has 9 execution units and can run 6 instructions simultaneously.
-
2 floating-point execution units
-
2 integer execution units
-
2 integer/ load-store execution units
-
3 branch execution units
-
128 general purpose and 128 floating-point 64 bit registers
-
Itanium has more precision in floating-points maths, useful for encryption algorithms.
-
Itanium is the same platform for UNIX, Linux, Windows and may run the operation systems simultaneously.
Die size: 421 mm²
L3 is integrated in the die.
The Itanium 2 processor is based on the new Itanium architecture. The Itanium processor was designed to meet the increasing demands for high availability, scalability and performance needed for high-end enterprise and technical computing applications.
Product Highlights
-
Explicitly Parallel Instruction Computing (EPIC) technology enables up to 20 operations/clock.
-
Three levels of cache reduce memory latency: 3 MB or 1,5 MB Level 3 cache, 256 K Level 2 cache, and 32K Level 1 cache.
-
Operating frequencies up to 1 GHz.
-
400 MHz data bus enables 128 bit wide system bus transactions with 6,4 GB/s bandwidth.
-
Advanced error detection, correction and containment provided by Machine Check Architecture (MCA), comprehensive error logging, and Error Correcting Code (ECC) on caches and the system bus.
-
System management features such as a thermal sensing device.
-
IA-64 instruction binary compatibility in hardware.
-
220 million transistors
-
Scales up to 512 processors
-
64-bit addressing and high-memory bandwidth
-
HP-UX, Linux, Windows
-
I/O bandwidth: PCI-66 MHz
|
The uniquely designed EPIC (Explicitly Parallel Instruction Computing) architecture allows the highest possible performance via new levels of parallelism for enterprise and technical applications. World-class floating point performance enhances analytic and scientific design and visualization applications. 64-bit addressing and massive resources combine to provide a platform to handle many terabytes of data with improved memory latency and fewer branch misses to further improve database performance. High availability and scalability and breadth of enterprise operating systems and applications ensure investment protection for years to come.
Itanium architecture today includes world-class capability for targeted applications, including:
Large databases
Business Intelligence/Data Mining
Security Transactions
High Performance Computing
Mechanical Computer-Aided Engineering Analysis
|
Anwendungen:
Itanium®-based solutions meet the increasing demands for high availability, reliability, and performance needed for next generation enterprise and technical computing applications. The high volume transaction performance supports more users for e-Commerce applications like Catalog Retailing, CRM, SCM and ERP. Large database support is useful for Business Intelligence, Internet Directory Services, Data Mining and Data Warehousing. The breakthrough security performance enables capacity to handle a greater number of simultaneous, secure e-Commerce transactions. Plus Itanium®-based solutions offer end-users outstanding performance in scientific and analysis-intensive applications like High Performance Computing, Mechanical Design Automation, Digital Content Creation and Electronic Design Automation. In addition, there is increased availability through platform level error recovery.
The Intel® Itanium® 2 processor, the second in a family of processors based on the Intel Itanium architecture, is designed to address the needs of high-performance servers and workstations. The Intel Itanium architecture goes beyond RISC and CISC approaches by employing Explicitly Parallel Instruction Computing (EPIC), which pairs extensive processing resources with intelligent compilers that enable parallel execution explicit to the processor. Its large internal resources combine with predication and speculation to enable optimization for high-performance applications running on multiple operating systems, including versions of Microsoft Windows, HP-UX, and Linux.
The Intel® Itanium® 2 processor:
-
Runs at 1 GHz or 900 MHz and is available with 3 MB or 1.5 MB integrated on-die L3 cache.
-
Enables powerful solutions for vast amounts of data and users, high volumes of transactions and complex calculations.
-
Offers high-end reliability and scalability features for business critical computing.
-
Extends Intel volume economics to the most data-intensive, business-critical and technical applications.
-
Floating point architecture: Speeds up complex calculations. Responses to complex calculations come back quicker -- particularly useful in financial and scientific analysis.
-
Advanced Machine Check Architecture: Extensive error management in hardware, firmware and Operating Systems.
-
Built on an open and extensible framework.
-
High reliability, availability, serviceability and manageability.
-
Supports large SMP systems and highly clustered configurations.
-
Scale out with clusters for large distributed problem solving.
INTEL Itanium 2 (Madison)
Madison is the code name of the third processor in the Intel Itanium processor family built on Intel's 0,13 micron silicon process technology. It will have up to 6MB of integrated L3 cache and will be hardware and software compatible with the Itanium 2 processor, offering superior investment protection for OEMs and end-users. Madison will continue to extend the family into new solutions in the high-end enterprise server and technical computing market segments.
AMD Athlon 2800+
Basically a 32 bit x86 processor.
AMD Athlon 64 (Clawhammer)
The AMD Athlon is a single desktop processor with 64 bit architecture, one Hyper Transport link, integrated controller for 4 GB RAM, 256/512 KB L2 Cache, otherwise, see Opteron.
AMD Opteron (Sledgehammer)
64 bit Adressierung ermöglicht mehr direkt adressierbaren Speicherbereich:
-
Theoretisch: 264.(= 16,8 109 TB = 16 EB).
-
virtual: 248 (= 256 TB)
-
physical: 240 (= 1 TB) (1TB RAM würden derzeit ca. 200.000 Euro kosten !)
Highlights:
-
Opteron is an extension of the “old” x86 processor architecture. Opteron can run 32bit software as well as 64bit software at top speed, Intel's Itanium is only optimised for 64bit software and runs 32 bit software in an emulation mode.
-
64 bit addressing for applications that need access lots of data from fast memory. 240 physical reach, 248 reach.
-
Hammer has 9 execution units and can perform 6 instructions per cycle:
-
3 floating-point execution units
-
6 integer execution units (3 AGUs and 3 ALUs),
Anm: AGU = address generation unit
-
16 general purpose 64 bit registers
-
1, 2, or 3 AMD Hyper Transport links à 16 bit, connect up to 8 processors efficiently and replace address, data and control bus. Up to 6,4 GB/s bandwith per HT link.
-
On-chip double data rate (DDR) controllers to connect external SDRAMs, bus is 64 or 128 bit wide, i.e. integrated Northbridge to address up to 8 (4) GB of RAM.
Up to 5,3 GB/s bandwith.
Opteron Block Diagramm
Allgemeine Betrachtungen
Zukunft: Limits und Chancen
CPU Performance:
Lichtgeschwindigkeit (3*108 m/s), Signalgeschwindigkeit (ca. 2*108 m/s):
-
z.B. der Pentium 4 ist ca. 10*10 mm groß,
für 10 mm braucht das Signal 0,05 ns.
Für den Weg hin und zurück, also 20 mm, braucht das Licht mindestens 0,1 ns. Die Grenzfrequenz für 20 mm ist also 10 GHz ?
Wie groß sind CPU Chips ?:
-
in mm ?
z.B. der Itanium 2 ist ca. 20*20 mm groß
-
wie lange braucht Licht mindestens um von ALU zu Cache und zurück zu kommen ?
0,2 ns, Die Grenzfrequenz für 20 mm ist also 5 GHz ?
Steigerung der Performance:
-
höhere Taktfrequenz in den execution units und zwischen ALUs und Caches
-
Cache: Speicher nahe an der CPU, um hohe Datenübertragungsraten zwischen execution units und Cache zu erzielen
Forecast der maximal erreichbaren CPU Frequenz:
-
Derzeit bei Itanium:
Distanz zwischen Cache und CPU ist ca. 20 mm, Technology 130 nm,
Signallaufzeit: t= s/v = 0,02/ 2 * 108 = 0,1 ns,
Signallaufzeit hin/ zurück: 0,2 ns,
Grenzfrequenz: f = 1/ t = < 5 GHz
-
Annahme: 13 nm Technology wäre verfügbar,
Grenzfrequenz: f = 1/ t = < 50 GHz
-
Annahme: 1,3 nm Technology wäre verfügbar, d.h. nur ein paar Atome für einen Transistor,
Grenzfrequenz: f = 1/ t = < 500 GHz
-
Wann werden die 500 GHz CPU Frequenz nach Moore’s Law erreicht ?
6 GHz – 2004
12 GHz – 2006
24 GHz – 2008
48 GHz – 2010
100 GHz – 2012
200 GHz – 2014
400 GHz – 2016
Die Grenzfrequenz von 500 GHz für einen 20*20 mm Chip müsste nach Moore’s Law etwa im Jahr 2016 erreicht sein.
Wie sieht diese Überlegung für einen 10*10 mm Chip (Pentium 4) aus ?
Parallelität:
-
die ALU besteht aus mehreren Einheiten (z.B. der Pentium 4 hat 2 * 32 Bit ALUs, der Itanium hat 6 * 32/ 64/ 128 (????) Bit ALUs),
Pentium 4: CPI = ca. 1/ 1,5 clock cycles per instruction,
Itanium, Opteron: CPI = ca. 1/ 6 clock cycles per instruction
-
Multiprozessor Systeme: Intel Xeon, Intel Itanium, AMD Opteron
-
Mehrere Prozessoren auf einem Chip.
-
Neue Compiler Technology: Compiler generieren parallelen Code.
Parallel Speedup:
Amdahl’s Law:
p = Anzahl der Prozessoren
f = Anteil an Code, der nicht parallel verarbeitet werden kann (unparallelizable code)
Efficiency:
Beispiele:
f = 10%, p = 10
f = 10%, p = viele Prozessoren
Halbleiterphysik, technologische Entwicklungen:
-
In 2002: 90 nm Leiterbahnenabstand;
in 2003: 65 nm oder 45 nm Leiterbahnenabstand
-
Eine Isolierschicht aus SiO2 muss mindestens 4 Moleküle oder 1,6 nm „stark“ sein; heutige SiO2 Isolierschichten sind noch 12 Moleküle stark.
-
Lithography: Beleuchtung mit Elektronen statt Licht.
-
Vertikale Transistoren.
-
Neue Isolierschichten.
-
Neue Materialien.
-
Neue Herstellungstechnologien
-
Cores = Bundling von hochspezialisierten Chips.
-
MEMS: micro-electromechanical systems als Interfaces zwischen Silicon Chips und optischen Systemen.
(Low) Power Consumption:
-
Gadolinium Oxid auf einem GaAs Halbleiter: DSPs for PDAs und Handys mit 100 MHz und 1 V Spannungsversorgung.
High Networking Speed:
-
Legierung aus Silizium und Germanium für SDH Networks, 10 Gb Ethernets, 40 Gb Ethernets
Datenbusbreite:
-
intern derzeit 32 bit bis 256 bit, räumliche Begrenzung ?
Derzeit werden etwa 3 Milliarden Transistoren pro Sekunde hergestellt.
Es wird erwartet, dass die „Silizium“ Technologie bis 2015 die Basis der Prozessoren sein wird. Danach könnten optische oder biologische Prozessoren Anwendung finden.
Performance, Ausführungszeit (Response Time), Durchsatz (Throughput)
Performance = 1 / Ausführungszeit
Ausführungszeit des Programms = Anzahl benötigter Taktzyklen * Zeit eines Taktzyklus
Ausführungszeit des Programms = Anzahl benötigter Taktzyklen / Taktrate
Beispiel:
Wie lange benötigt ein Programm mit 109 Taktzyklen und 2.000 MHz Taktrate ?
Ausführungszeit des Programms = 0,5 s
mehr Performance bedeutet weniger Taktzyklen oder höhere Taktrate.
Alte Prozessoren benötigen für manche Instructions länger als 1 Taktzyklus.
Moderne Prozessoren verarbeiten mehrere Instructions in einem Taktzyklus.
Clock cycles per Instruction (CPI):
-
Pentium 4: 1-2 instructions per cycle, CPI = 1 bis 0,5
-
Itanium: 6 instructions per cycle, CPI = 1/ 6
-
Alte Pentiums: CPI = 1,35 (ist abhängig vom geschriebenen Programm)
Ausführungszeit des Programms = Anzahl der Instructions * CPI * Zeit eines Taktzyklus
Ausführungszeit des Programms = Anzahl der Instructions * CPI / Taktrate
Beispiel:
Wie lange benötigt ein Programm mit 1010 Instructions, CPI=2 und 2.000 MHz Taktrate ?
Ausführungszeit des Programms = 1010 *2 / 2.000 MHz = 10 s
Beispiel:
Prozessor A: Taktzyklus = 1ns, CPI = 2,0 für Programm X
Prozessor B: Taktzyklus = 2ns, CPI = 1,2 für Programm X
Welche CPU ist schneller ?
Durchsatz (Throughput) durch einen Prozessor
Million instructions per second (MIPS),
Durchsatz (MIPS) = Anzahl der Instructions / Ausführungszeit des Programms / 106
Beispiel:
|
Häufigkeit pro Befehlsklasse
|
1 CPI
|
2 CPI
|
3 CPI
|
Code von Compiler 1
|
4 * 109
|
2 * 109
|
2 * 109
|
Code von Compiler 2
|
10 * 109
|
1 * 109
|
1 * 109
|
Welcher Code ist schneller ?
Was sind die MIPS bei 2 GHz Prozessortakt ?
(MOPS = million operations per second)
(MFLOPS = million FP operations per second)
SPEC (System Performance Evaluation Cooperative) Score:
Vergleich der Performance durch ein definiertes SW-Bündel an einem Referenzsystem (derzeit: SunSparc Station 10/40).
Durchsatz (Throughput) durch einen Bus
In Byte pro Sekunde, GB/s.
Durchsatz = Datenbus Breite (Bit) / 8 * Taktfrequenz des Busses.
Beispiel:
Datenbus = 64 Bit, 800 MHz
Durchsatz = 64 / 8 * 800000000 = 6,4 GB/s (z.B. Pentium 4 FSB)
Wichtige Konzepte in der Computer Architektur
Pipelines:
Mutter’s Wasch-Pipeline:
Ohne Pipelining würde die Waschmaschine erst dann wieder befüllt werden, wenn die erste Wäschepartie schon im Schrank einsortiert ist.
Mit Pipelining kann die Waschmaschine bereits befüllt werden, wenn die erste Partie im Trockner ist.
4-stage processor instruction pipeline:
Vorteile:
-
mehrere Arbeitsgänge zugleich
-
Paralleles Abarbeiten Verbesserungen des Durchsatzes,
aber nicht der Ausführungszeit eines einzelnen Arbeitsschrittes
Nachteile:
-
Länge der Arbeitsgänge nicht gleich angleichen
-
Ausführungszeit wird nur dann um die Anzahl der Pipeline-Stufen schneller, wenn die Länge der Arbeitsgänge gleich ist und genug Arbeit vorhanden ist, um alle Stufen zu beschäftigen
Singlecycle versus Pipelined Performance:
Singlecycle: ein Befehl wird innerhalb eines Taktzyklus ausgeführt die Taktzykluszeit orientiert sich an jener Anweisung, deren Ausführung am längsten benötigt und ist für alle Befehle gleich lang.
Pipelining: alle Stufen müssen gleich lang sein und orientieren sich ebenfalls an der langsamsten Anweisung und der am zeitaufwendigsten Stufe.
4-stage pipeline:
Ausführungszeit des Programms = (ungefähr)
Anzahl der Befehle des Programms * Zeitdauer der am längsten dauernden Stufe
Mikroprozessoren und Mikrocomputer, 2: Teil / Version: 1.1, tt.10.jjjj
Share with your friends: |