http://www.7klian.com

IC 工程师:ProgPoW 浸染不大,GPU 四倍效率 ASIC 将很快呈现

这样一来,出产一个 RTX2080 显卡所用的硅晶片数量可以出产出 3 个 ASIC 芯片。也就是说,ASIC 芯片的本钱就只是 RTX2080 显卡的 1/3 。

最后,IfDefElse 还提到:

IfDefElse 还认为:

表 1. 英伟达显卡芯片的制造参数和机能

哈希率也翻了一番。可是,4GB GDDR6 芯片的面积只有 8GB GDDR6 芯片的一半。因此,前者的价值比后者低了 60% 多。GDDR6 芯片的总本钱见下表一。

假如芯片只是由计较单位构成的,那么低电压设计是可行的,好比 SHA256d 的 ASIC。一旦整合了其它模块,好比 SRAM (ProgPoW 数据缓存所必需的模块),低电压设计就变得很是难,甚至基础不行能。

对付一款只有一个成果单位(functional unit)的芯片来说,更小的芯单方面积的出产率会比大面积芯片更高。但对付现代 GPU 来说并非如此,因为本日的 GPU 用的是无数个很是微小、缺陷可忽略不计的反复单位,险些可以任意组合(binnable)和规复(recoverable)。只要每一个可二进制化成果单位都很小,那么大芯片的出产率可以跟利用更大成果单元的小面积芯片一样高,甚至更高。

IfDefElse 表明道:

Hashrate = k*BW (哈希算力 = k*总带宽 ) (个中 k 是常量,ETHash 和 ProgPoW 算法利用的 k 值差异。)

Innosilicon (芯动)和 Bitmain (比特大陆),甚至 linzhi (凛炙),大概都已经为原始的 Ethash ASIC 矿机找到了一个乐成的架构,,我相信对他们的 ASIC 设计者来说,将 Ethash ASIC 进级到 ProgPoW 只需要几周时间。整个设计流程、封装、测试模块和计较模块都可以重用,所以他们很容易就可以进级。

以 Nvidia 的 RTX2080 GPU 芯片为例,它的芯单方面积(die area)是 545 mm^2 ,按照公式可计较出收益率为 23%。假如将芯单方面积淘汰至本来的 1/3 ,收益率 Y 将增加 60% 。低收益率可以这算为 GPU 的本钱。ASIC 芯片的本钱将是 GPU 芯片的 1/3*23/60 = 0.13。因此,针对 ProgPow 算法研发的 ASIC 芯片在本钱优势上是商用 GPU 芯片的 7.7 倍。思量到 GPU 芯片的技能更为成熟,在下一步计较的时候我会将这一倍数节制为 5 。假如 ASIC 出产商去掉商用 GPU 芯片所需的 PCIE 和巨大的散热设计,ProgPow ASIC 芯片在 PCB 系统的设计上同样具有本钱优势。在一台 ASIC 矿机内,有大量 ASIC 芯片和 GDDR6 越发细密地封装(集成)在一起,它们在散热设计上要简朴的多,本钱效益也更好。一块商用 GPU 芯片的系统本钱或许占到了 50% ,而一台 ASIC 矿机的 PCB 系统本钱很容易就能降至 30% 。我在表一中较量了 GPU 和 ASIC 的本钱。

翻译 & 校对:闵敏、阿剑

hashrate = BW/64/256 = 27.3Mh/s

总之,假如回收了 ProgPoW 算法,将来势必会呈现 ProgPoW ASIC ,并且只需要 3 至 4 个月就能实现量产。并且,ProgPoW ASIC 在本钱和功率效率方面起码是 GPU 的 4 倍。绕了一圈之后,我们照旧得面临同一个问题:为什么要回收 ProgPoW 算法,为什么要抵抗 ASIC 挖矿?

所以说,要想在 ETHash 或 progPoW 算法下晋升算力,我们需要增加内存带宽。早几年的时候,主流的高带宽内存设备就是利用 GDDR5 显存的显卡。(因为)只有 AMD 和 Nvidia 的 GPU 用得上这么高带宽的内存。因此,这两款 CPU 最适适用于 ETHash 挖矿。今朝的环境是,市场对内存的需求已经因为 ETHash 挖矿而大幅提高。对高速内存需求敦促了 GDDR6 和 HMB2 等下一代高速存储技能的成长。在 2018 年的第四季度,矿机厂商 Innosilicon 推出了本身的 GDDR6 IP 和针对 ETHash 算法的 ASIC 矿机。鉴于 ProgPoW 在算法和架构上与 ETHash 存在许多相似之处,我认为 Innosilicon 会针对 ProgPoW 算法研发下一代 ASIC 矿机。一旦 ProgPow 算法的参数确定下来,只需 3 到 4 个月就能设计并量产出相应的 ASIC 矿机。想必比特大陆也在奥秘研发本身的 GDDR6 IP 芯片。Rambus 和 eSilicon 等公司也已经宣布了本身的 GDDR6 IP 和 HMB2 IP。我相信剩下的 ASIC 制造商,譬喻 Linzhi 和 Canaan Creative ,在研发下一代芯片的时候也会回收 GDDR6 或 HBM2 显存。因此,比及未来 ProgPoW 算法启用之后,大概会呈现许多回收 GDDR6/HBM2 显存的 ASIC 矿机。

作者:ether4life

首先,带宽倍增之后,计较本领也需要倍增,所以这是线性上升的,没有谁具有优势。

ASIC 的电压可以降至 0.4 V,即商用 GPU 的 1/2 。因此,在哈希率沟通的环境下,ProgPoW ASIC 所耗损的电力只有 GPU 的 1/4 。换言之,ProgPoW ASIC 的能效比是 GPU 的 4 倍。出产商在制造比特币矿机的时候已经回收了这种低电压的 ASIC 设计,没原理不会将这种设计用到 ProgPoW ASIC 上。这种设计同样可用于 LPDDR4x DRAM 芯片,比回收 GDDR6 显存的显卡耗电量更低。GDDR6 需要 1.35 V 的电压,而 LPDDR4X 需要 0.6 V 的电压,是 GDDR6 的 1/2 不到。因此,GDDR6 的耗电量至少是 LPDDR4x 的 4 倍。也就是说,LPDDR4x DRAM ASIC 的功率效率是 GDDR6 GPU 的 4 倍。如表二所示。

总之,假如回收了 ProgPoW 算法,将来势必会呈现 ProgPoW ASIC ,并且只需要 3 至 4 个月就能实现量产。并且,ProgPoW ASIC 在本钱和功率效率方面起码是 GPU 的 4 倍。绕了一圈之后,我们照旧得面临同一个问题:为什么要回收 ProgPoW 算法,为什么要抵抗 ASIC 挖矿?

图一:Nvidia RTX2080 显卡的架构

思量到存储效率的影响,实际值应该为 25.5Mh/s 。ASIC 出产商可以利用小一点的 GDDR6 内存条,这样对比 GPU 就有了本钱上的优势。回收 16 个 GDDR6 4GB 内存条可以在保持 GDDR6 本钱稳定的同时实现 2 倍带宽。在这种环境下,带宽可到达 16 * 14 * 32/8 = 896Gbps ,哈希率理论上可到达

在 ASIC 的世界里,这话是差池的。固然 ProgPoW 中插手了很大都学方程以及归并函数(Merge Function,来晋升计较进程中对计较机焦点和内存的利用率,但 ASIC 芯片可以垂手可得实现这些方程(请看这篇文章:《仅带来 1% 能耗比晋升的开源芯片设计》)。我们都知道,计较机能的增长切合摩尔定律,也就是说每 18 个月计较机能就会翻一番,可是,内存会见的机能远远落伍于计较机能的希望。所以内存会识趣能才是整个系统机能的瓶颈,这也就是所谓的 ”内存极限右墙“,如图一所示。

ProgPoW 的哈希率是由两个因素抉择的:计较焦点以及内存带宽。这就是 Ethash 与 ProgPoW 存在区此外原因……

顺带说一句,从芯片区域预计一款芯片的本钱是所有 ASCI 工程师的根基技术。从表 1 中可以看出,GPU 的本钱可以基于硅晶单方面积估算出来,GPU 芯片的本钱以及相应显卡的价值在表 1 和图 2 中列出来了,可以看出本钱和价值是相关的。

ProgPoW 和 Ethash 之间独一的相似性就是在 DAG 在全局内存中的运用。从纯粹的计较角度出发,Ethash 只需要牢靠的 keccak_f1600 焦点,以及一个求模方程。ProgPoW 则差异,既需要执行一个 16-lane 的随机数学序列,同时还得会见高带宽的 L1 缓存。设计一个可以运行 ProgPoW 数学序列的计较焦点要比设计一个执行牢靠算法(好比 Keccak 函数)的焦点要可贵多了。

此刻,以 Nvidia 的 RTX2080 显卡为例,我们来看一下 GPU 芯片的内部布局,见 Nvidia 显卡先容的图一。

P = U*I = U^2/R

就耗电量而言,商用 GPU 在 0.8 V 的正常电压下要比 ProgPOW ASIC 高得多。不外,ProgPoW ASIC 的耗电量是可以通过低落电压来淘汰的。按照欧姆定律,电功率与电压的平方成正比:

Y = 1/power(1+0.08*die_area)^22.4

ASIC 矿机可以基于 GDDR6 和 HBM2 显存回收许多优化要领。个中一种是,在 ASIC 矿机中添加比 GPU 多的 GDDR6/HBM2 内存条。以 Nvidia 的 2080 显卡为例,配备的是 8GB GDDR6 显存,运转速率为 14Gbps ,总带宽(BW)达 8*14*32/8 = 448Gbps。按照 ProgPoW 算法的带宽需求来算,哈希率(hashrate)理论上应该到达

RTX2080 显卡内部有许多模块,占据了很大一部门芯单方面积,并且对 ProgPow 算法毫无用处。这些模块包罗 PCIE、NVLINK、L2Cache、3072 个着色单位、64 个 ROP 和 192 个 TMU 等等。ASIC 矿机出产商可以去掉这些图形成果,将这部门芯单方面积举办优化,用于 ProgPow 算法,可以将 Nvidia 的 RTX2080 芯单方面积淘汰约莫 2/3 。

IfDefElse 上面的说法是禁绝确的。固然在大芯片中利用冗余设计可以修复一些芯片并提高制品率,这些次级芯片中只有少量才气挽救下来。冗余和修复在 SRAM 出产中是很常用的,因为它逻辑较量简朴并且布局上有许多反复单位。对计较逻辑单位来说,电路并不像 SRAM 那么简朴。利用冗余设计意味着插手冗余的 SM 焦点,可能雷同的对象。这种冗余性一定回增大硅的面积,并因此拉高本钱。对付 SRAM 来说,冗余一般会试本钱提高 10%。并且,不是所有的失败可以用冗余焦点来调停。只有估量算的失败(pre-calculated failure)才可以用冗余逻辑来修复。

不管是 ProgPow 算法照旧 ETHash 算法,算力都是由外部 DRAM 的存储带宽抉择的。也就是说

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

相关文章阅读