高级计算机系统结构部分知识点整理

时间：2024-10-21 13:09:51

高级计算机系统结构部分知识点整理是为了计算机体系结构考试的一个准备资料

工具/原料

word

ppt

lenovo

方法/步骤

1、1.高级计算机系统结构：AdvancedComputerArchitecture（ParallelComputer）：Thecomputersystemconstitutedbymanyprocessunitsofmutualcommunicationforsolvingsomelarge-scaleapplications。翻译：由多个处理单元组成的计算机系统，相互通信和协作，能快速求解大型复杂问题

2、第一章绪论3.MIPS　处理机的运算速度　MIPS=Fz*IPCFz处理机的主频；IP觊皱筠桡C每个时钟周期平均执行指令数4.计算机技术快速愉桴狁焕进步的原因：计算机生产技术的发展—集成电路技术IC）；计算机设计的创新—计算机系统结构。5.2004年，Intel取消了高性能单核处理器项目，和其他公司一起宣布：为了获得更高性能的处理器，应当提高一个芯片上集成的核心数目，而不是加快单核处理器的速度。历史性转折的里程碑信号处理器性能的提高从单纯依赖指令级并行（ILP）转向数据级并行（DLP）和线程级并行（TLP）6.体系结构研究的内容:--进一步提高单个微处理器的性能（光速极限问题）--基于微处理器的多处理器体系结构--全面提高计算机系统性能：可用性、可维护性、可缩放性--新型器件的处理器：如光计算机；新原理的计算机（生物、分子、量子、DNA计算机）7.应用程序中主要有以下两种并行：数据级并行（DLP）：其出现是因为可以同时操作许多数据项任务级并行（TLP）：其出现是因为创建了一些能够单独处理但大量采用并行方式执行的工作任务.8.计算机硬件以如下四种主要方式来开发这两种类型的并行性：[1]指令级并行：在编译器的帮助下，利用流水线等思想适度开发数据级并行，利用推理执行等思想以中等水平开发数据级并行；[2]向量体系结构和图形处理器（GPU）：将单条指令并行应用于一个数据集，以开发数据级并行[3]线程级并行：在紧耦合硬件模型中开发数据级并行或任务级并行，允许在并行线程之间进行交互；[4]请求级并行：在程序员或操作系统指定的大量去耦合任务之间开发并行性。9.计算机系统性能指标:时钟周期：CPU是由一个恒定周期（τ，以ns表示）的时钟驱动。时钟频率：周期的倒数是时钟频率f=1/τ，以MHz表示CPI（CyclesPerInstruction）:每条指令时钟周期数CPI=程序的CPU时钟周期数/指令数IC时钟周期=IC×CPI10.程序访问的局部性原理：经验规律—90%～10%规律：一个程序90%的执行时间花费在仅10%的代码中。程序局部性意味着可以根据一个程序最近访问的指令数据，比较准确的预测它近期会使用哪些内容，局域性原理也适用于数据访问，不过不像代码访问那样明显。11.Amdahl定律-----应用：使用该定律可改善“系统瓶颈”性能。基本思想：系统优化某部件所获得的系统性能的改善程度，取决于该部件被使用的频率，或所占总执行时间的比例。作用：[1]利用Amhahl定律，可以计算出通过改进计算机某一部分而获得的性能增益[2]使用某一种快速执行模式获得的性能改进受限于可使用此种快速执行方式的时间比例.加速比：对某一计算机进行某种性能升级，在采用这一升级时计算机性能的提高。定义为：加速比=整个任务采用该升级时的性能/整个任务未采用该升级时的性能=整个任务在采用未升级时的执行时间/整个任务采用该升级时的执行时间与原计算机相比，通过升级的计算机上运行一个任务可以加快多少加速比取决于以下两个因素：1)原计算机计算时间中可升级部分所占的比例fe<=1，称为升级比例2)通过升级得到的改进。该值等于原执行时间除以改进后的执行时间re>1，称为升级加速比.12.举例：某功能处理时间为系统原来时间的40%，将其处理速度加快10倍后，整个系统性能提高多少？已知:fe=0.4，re=10，利用Amdahl定律，则Sp=1.56Amdahl定律阐述了一个回报递减规律：如果仅改进一部分计算的性能，在增加改进时，所获得的加速比增量会逐渐减小.推论：若某一升级仅对一项任务的一部分使用，则该任务的总加速比不会超过一个数值.13.软硬件取舍原则

3、第二章三种加速比性能定律/模型1.Amdahl定律—固定问题规模Amhahl定律的几何意义：不论PE个数有多少，可并行计算量是不变的随着PE的增大，TP可能会越来越小，但T1不会改变修改后的加速比-考虑额外开销串行分量和额外开销的比例越大，并行加速比越小2.Gustafson定律—可扩展加速比模型（固定时间模型）处理器的增多，是为了增加计算量，将同等大小问题在各PE上求解增加PE的同时，问题规模也增大，所以Tp不变Sun&Ni定律—存储器受限的加速比模型G（p)=1,与Amdahl定律等效G（p)=p,与Gustafson定律等效4.影像加速比的因素：处理器数和问题规模。增加处理器数和求解问题规模可以提高加速比。5.系统可扩展性相关内容ppt查看

4、第三章并行处理的三个关键领域（H.T.Kung,1991）并行计算的计算模型并行系统结爿瑰鲚母构中的处理机间的墩伛荨矧通信将并行系统加入通用计算环境的系统集成2.并行性表现为：时间重叠、资源重叠、时间+资源重叠和资源共享3.主要研究三种相关性数据相关：数据相关之一：流相关（1）流相关：如果从S1到S2存在执行通路，而且如果S1至少有一个输出可供S2用作输入，则S2与S1流相关。表示为S1→S2.数据相关之二：反相关（2）反相关：如果在程序次序中S2紧接S1，而且如果S2的输出与S1的输入重叠，则S2与S1反相关。表示为S1→S2。数据相关之三：输出相关（3）输出相关：如果两条语句能产生同一输出变量，则它们是输出相关。表示为S1→S2。数据相关之四：I/O相关（4）I/O相关：读与写都是I/O语句。数据相关之五：不确定相关(5）未知相关：下列情况，两条语句之间的相关关系不能确定※变量下标就是它本身（间接寻址）；※下标不包括循环指标变量；※带有不同循环变量系数的下标的变量不止一次地出现；※下标在循环指标变量中是非线性的。控制相关控制相关常使正在开发的并行性中止，因此要使用编译技术来克服控制相关。资源相关与系统进行的工作无关与并行事件利用整数部件、浮点部件、寄存器、存储器等共享资源时发生的冲突有关。如ALU相关、存储器相关等等。4.顺序代码转换成可并行实行的代码有两种方式：显示并行--程序员并行编程；隐式并行编译器自动检测5.Bernstein条件设有两个进程P1和P2，它们的输入集合分别为I1和I2，输出集合分别为O1和O2。如果这两个进程不相关（流不相关、反不相关、输出不相关…），那么它们就能并行运行，表示为P1∥P2。6.并行性程度（级别）与粒度规模的关系从程序员和编译器设计者角度来“观察”（1）指令级——细粒度（2）循环级（<500条指令）——细粒度（3）过程级（<2K条指令）——中粒度（4）子程序级（<nK条指令）——中、粗粒度（5）作业或程序级（>nK条指令）——粗粒度7.将粒度组合与复制结点结合起来，确定最佳粒度，形成并行调度方案步骤：1．构造细粒度程序图图2-92．调度细粒度计算图2-103．进行粒度组合，得到粗粒度图2-11（a）4．在组合图基础上产生并行调度方案2-11（b）

5、第四章1.相邻层之间的数据传送单位CPU«高速缓存：字高速缓存«主存储器：块（每块32个字节（8个字））主存«磁盘：页面（比如每页4K字节，包含128块）磁盘«磁带：段2.局部性（locality）时间局部性（temporallocality）：最近的访问项（指令或数据）很可能在不久的将来再次被访问。即对最近使用区域的集中访问。空间局部性（spatiallocality）：一个进程访问的各项的地址彼此很近，例如，表操作或数组操作含对地址空间中某一区域的集中访问。顺序局部性（sequentiallocality）：在典型程序中，除非转移指令产生不按次序的转移外，指令都是顺序执行的。3.页面替换算法/策略原因：可用页面框架比页面少得多，页面框架最终被完全占用。再容纳一个新页面，必将有一个页面框架让出来。让“谁”，则是替换算法要完成的工作。目标：使可能发生的缺页的数量降到最小（减少有效存取时间）效率：取决于程序行为，所用存储器通信模式（与程序局部性相匹配）常用替换算法：近期最少使用（LRU)最优算法（OPT）先进先出（FIFO）随机替换（RAND）

6、第五章1.多个Cache不一致的原因：【1】共享可写数据的不一致性sharingofwritabledata）【2】进程迁移的不一致性【3】I/O操作（绕过Cache的I/O操作）2.两种设计Cache一致性协议策略【1】写无效（writeinvalidate）任一处理器写它的私有Cache时，它都使所有其它的Cache中的副本失效。对Write-through，它也更新memory中的副本（最终是一个Cache中的副本和memory中的副本是有效的）。对Write-back，它使memory中的副本也失效（最终只有一个Cache中的副本是有效的）。【2】写更新（writeupdate）任一处理器写它的私有Cache时，它都立即更新所有其它的Cache中的副本。对Write-through，它也更新主存储器中的副本对Write-back，对存储器中副本的更新延迟到这个Cache被置换的时刻。3.监听总线协议(Snoopyprotocol)：通过总线监听机制实现Cache和共享存储器之间的一致性。适用性分析：适用于具有广播能力的总线结构多机系统，允许每台处理机监听其它处理机的存储器访问情况。只适用于小规模的多处理机系统。4．三种Cache一致性策略采用Write-Through策略的Cache采用Write-Bach策略的Cache采用Write-Once策略的Cache

7、第七章1.指令级并行性概念：指令间潜在的重叠执行方式称为指令级并行性。利用指令级并行性主溴溢菏确要可分为两个方法：■依赖于硬件，动态的发禊耗髻编现和开发指令级并行性■依赖于软件技术，在编译阶段静态的发现并行性2.流水线机器的CPI等于基本CPI与各种停顿所使用的周期数的和，即：流水线CPI=理想流水线CPI+结构停顿+数据冒险停顿+控制停顿其中，理想流水线CPI指在执行过程中可能达到的最大值。通过减少右边等式各项的值，可以使流水线CPI达到最小。3.三种不同类型相关：【1】.数据相关（Datadependences）(alsocalledtruedatadependences，亦称真数据相关)数据相关：如果下面的条件之一成立，则指令j数据相关于指令i：■指令j可能会引用指令i的结果■指令j数据相关于指令k，而指令k数据相关于指令i条件二表明：如果两条指令间存在由第一种类型的相关组成的相关链，则这两条指令也是相关的数据相关会限制指令级并行度的开发克服方法有以下两种：■在保持相关的情况下避免冒险■代码转换消除相关。【2】名字相关（namedependences）名字相关发生在使用相同的寄存器或存储器单元（称为名字）的两条指令之间。名字相关种类：a指令i和j之间的反相关：指令i读一个寄存器或存储单元，而指令j写该寄存器或存储器单元。b.输出相关：指令i和指令j写相同的寄存器或存储器单元时发生当存在上述情况时必须保证指令的原始执行顺序。克服方法：寄存器重命名[3].控制相关（controldependences）决定与转移指令有关的指令执行顺序以保证其正确执行。一般来说控制相关会带来两类的限制：■与某一转移相关的指令不能被移动到该转移之前，否则会使指令的执行不再受控于该转移。比如不能将if语句的then部分指令移到if之前。■与某一转移无关的指令不能被移动到该转移之后，否则会使指令的执行受控于该转移。比如不能将if语句之前的指令移到该if语句的then部分。4.数据冒险（DataHazard）如果两条相关指令在执行顺序中足够接近，使得它们在执行期间产生重叠，并且这种重叠会使访问相关操作数的顺序发生改变，此时就会发生数据冒险。可能的数据冒险包括：RAW,WAR,WAW(依据流水线必须保护的程序顺序来对冒险命名)

8、两种动态调度方法Scoreboard方法：为CDC6600（SeymourCray1963年）设计，硬件Tomasulo算法：为IBM360/91设计的，它采用的是寄存器重命名的方法来消除寄存器数据流之间的假相关，即用虚拟寄存器集代替真实的FPR，虚拟寄存器集在tomasulo算法中由每一功能单元所带的保留站(reservationstation)、取数缓冲区(loadbuffers)和存数缓冲区(storebuffers)组成。