选自arXiv
作者:Shuqing Bian等
机器之心编译
随着区块链的热潮,加密数字货币正吸引着越来越多人的注意。然而,面对层出不穷的新「币种」,我们很难判断其投资价值,甚至会面临很大的欺诈风险。近日,香侬科技创始人、斯坦福大学博士李纪为联合美国加州大学圣塔芭芭拉分校、斯坦福大学共同提出了一种基于深度学习的加密数字货币 ICO 诈骗鉴别系统 IcoRating,试图帮助解决这一问题。这种新方法评估了市面上绝大部分加密货币的生命周期、价值变化与其 ICO 信息(包括白皮书、github 库、创始人信息)之间的关联,去预测并实现了很高的准确率。
引言
加密货币(如 BTC、ETH、NEO 等)正吸引着越来越多人的关注。与中心化电子货币和中心化银行系统相反,大多数数字代币不需要任何授权。这些去中心化系统通过区块链运转,区块链是一个开放、持续增长的分布式账本。加密货币的市场资本化在过去的三年中取得了显著增长,如图 1 所示。根据 CoinMarketCap.com 提供的数据,加密货币日最高交易量接近 2017 年纽约证券交易所的日均交易量。
因其去中心化的本质,加密货币众筹不需要满足风险投资的必要条件,而是经过 ICO。在 ICO 中,投资者用法定货币(如美元、人民币)或其他加密货币(BTC、ETH)来获得众筹的加密货币。ICO 后,这些众筹的加密货币成为具备货币功能的货币单元。新型加密货币发行前一般会先准备一个白皮书,详细介绍这个币的商业、技术和财政细节。如图 2 所示,ICO 项目的数量从 2013 年 7 月到 2017 年 1 月稳定增长,而 2017 年突飞猛进。
图 1: 市场资本化 v.s. 时间
图 2:新 ICO 项目的数量 v.s. 时间
尽管 ICO 项目可以提供公平的投资机会,众筹的便捷性给肆无忌惮的企业创造了使用 ICO 进行「拉高出货」的机会。也就是说 ICO 的发起人抬高了众筹加密货币的价格(「俗称拉盘」),然后迅速出售加密货币来获利(「俗称砸盘」)。此外,加密货币的去中心化本质对政府监管带来了极大的挑战。根据 Engadget 的数据,2017 年,902 个基于众筹的数字货币中 46% 都失败了。图 3 和图 4 展示了一个更严重的问题。图 3 和图 4 中 x 轴上每一个间隔(bucket)表示价格改变范围,y 轴上对应的值表示 ICO 项目的百分比。可以看到的,4.56% 现有 ICO 项目在发行半年后都遭受了价格下跌,下跌程度超过令人发指的 99.9%,一年后该比例甚至上升到了 6.89%。大约 29% 的项目在半年后价格下降超过 80%,一年后这一比例上升到了 39.6%。虽然说每一个价格骤跌的 ICO 项目都是诈骗是不确切的,但构建一个可靠的 ICO 信用评级系统在 ICO 之前对数字货币进行评估是必要且紧迫的。
图 3: ICO 项目百分比 vs 半年后价格变化
图 4:ICO 项目百分比 vs 一年后价格变化
本论文提出 IcoRating,一种基于机器学习的 ICO 评级系统。通过分析 2251 个 ICO 项目,研究者关联了数字货币的生命周期和价格变化与不同级别的 ICO 信息,包括白皮书、创始团队、GitHub 库、网站等。通过整合不同种类的信息,该模型能够以 0.83 的准确率和 0.80 的 F1 分数预测一个 ICO 项目能够在 ICO 半年以后依然存活。
IcoRating 是一个基于机器学习的系统。与人类评级系统相比,IcoRating 有两大强项:(1)客观性:机器学习模型包含更少的先验知识,可以从数据中学习因果关系,这与需要大量人类专家的人类评级系统相反,且人类专家不可避免会引入错误。(2)不会被肆无忌惮的人随意篡改:该信用评级结果是机器学习模型通过黑箱训练得到的输出。该过程涉及极少的人为操作。
希望这个工作可以鼓励大家更多地分析和评估 ICO 项目的质量,并且可以潜在地帮助投资者识别哪些是 ICO 项目诈骗。
本论文其余部分的结构如下:第二部分简要概述加密货币、区块链和 ICO。第三部分介绍了 ICO 项目数据集的构建过程,并且提供了一些基本的数据分析。第四章介绍了论文提出的机器学习模型,第五部分是简短总结。
加密货币、区块链和 ICO
加密货币
加密货币是「一种数字资产,旨在作为交换媒介,使用加密技术来保护其交易。」大多数加密货币使用去中心化控制。第一个去中心化的加密货币是比特币(简称 BTC)(Nakamoto, 2008),由一个或一群不明身份的人用 Satoshi Nakamoto(中本聪)的名字于 2009 年创建。自 BTC 出现后,多种加密货币被创造出来,最著名的包括 Ethereum、Ripple、EOS 和 NEO。
区块链
加密货币的交易由区块链进行验证。人们可以将区块链视为分布式账本,它不断增长并永久记录两方之间的所有交易。每条记录叫作一个块,包含链接到前一个块、时间戳和交易数据的加密哈希指针。账本以分布形式被所有参与者拥有,且记录只能在改变所有后续网络块的情况下得到更改。交易被广播给网络中的所有节点。区块链使用多种时间戳方案,例如工作量证明或股权证明。区块链概念消除了数据集中储存的风险:它没有中心故障点,数据对每个参与者都是透明的。
ICO
ICO 是以加密货币为中心的众筹融资手段。在 ICO 中,众筹加密货币(主要以代币形式)被转移给投资者,以换取法定货币或其他加密货币。当 ICO 的融资目标达到时,这些代币就成为具备货币功能的货币单元,可用于交易货物或者其他加密货币。
ICO 为早期项目提供众筹机会,以逃避风险投资家、银行和证券交易所的规定。它们还提供了超越风险投资或私募股权投资的投资机会,二者是早期投资机会的主导。另一方面,由于缺乏监管,ICO 给投资者带来了重大风险。不同的国家对 ICO 和加密货币有不同的规定。例如,中华人民共和国政府禁止所有 ICO,而美国证监会(SEC)则表示它有权对 ICO 应用联邦证券法,而委内瑞拉政府则推出了自己的加密货币 petromoneda。
数据集构建、处理和分析
研究者收集了 2251 个 ICO 项目的信息,包括白皮书、网站信息、ICO 时的 GitHub 库,以及创始团队。我们从多个提供商处获取数据,提供商包括 CryptoCompare、CoinMarketCap 和 CoinCheckup。
LDA
研究者在收集到的白皮书上运行了一个潜在狄利克雷分布(LDA)模型(Blei et al., 2003)。LDA 是一个生成统计模型,解释了具备基于词共现的词丛(即「topic」)的文本文档。每个文档以潜在主题的概率分布形式呈现,每个潜在主题都是词的概率分布。LDA 的生成过程如图 5 所示,过程图示见图 6。
图 5:在收集到的白皮书上运行 LDA 模型。
图 6:LDA 模型概览。假设我们有 M 个白皮书、K 个主题、V 个不同单词。每个白皮书 m ∈ M 都有文档-主题分布 θ(M × K 矩阵)。每个主题 k ∈ K 都有主题-单词分布 φ(K × V 矩阵)。
ICO 评级模型
IcoRating 是一个基于机器学习的评级模型。这里使用的模型是监督学习模型。在标准监督学习设置中,研究者希望找到模型 F,可使输入 x 映射至输出 y:
输入 输入 x 是 ICO 项目,包括其公开可获取的各方面信息。
表 2:不同 LDA 主题的 top word,以及分配至该主题的加密货币。
输出 输出 y ∈ {0, 1} 是一个二分变量,表示输入 ICO x 是否为诈骗项目。这里的关键问题是如何确定 ICO 项目是诈骗项目。本文认为如果数字货币在其 ICO 一年后下跌 80%,则该 ICO 项目是诈骗项目。换言之,通过检查数字货币的历史价格,如果数字货币一年后的价格不到初始价格的 20%,则我们认为该 ICO 项目是诈骗。在收集到的 2251 个项目中,研究者收集了 1482 个项目的历史价格,且这些 ICO 项目都实施至少一年(截止到本研究进行时)。
结果
实验结果展示了使用不同的特征组合识别 ICO 诈骗项目的结果。随着 m 值从 0.01 逐渐提升至 1,诈骗项目的比例也逐渐增加,查准率不断提升,召回率逐渐降低。实验显示,白皮书和 GitHub 库是最重要的两类特征,在 m 值分别为 0.1 和 0.5 时 F1 分数都达到了 0.7。研究者考虑了更多特征,能够逐渐获得更好的查准率和召回率。研究者使用所有类型的特征,在 m=1 时预测 ICO 诈骗项目达到了 0.83 的查准率、0.77 的召回率和 0.80 的 F1 分数。
表 5:识别 ICO 诈骗项目的结果。
论文:IcoRating: A Deep-Learning System for Scam ICO Identification
论文链接:https://arxiv.org/pdf/1803.03670.pdf
摘要:加密货币(或数字代币、数字货币,如比特币、以太币、 XRP 和 NEO)近年来在公众使用、看重程度和理解方面增长迅速,为投资者带来了惊人的利润。与其他货币或银行系统不同,大多数数字代币无需中央授权。这种去中心化的方式对信用评级构成了重大挑战,大多数 ICO 项目目前不受政府监管,这意味着我们急需一种值得信赖的 ICO 评级系统。
本论文介绍了 IcoRating,第一个基于机器学习的加密货币评级系统:我们分析了目前 2251 种数字货币,并评估了货币的生命周期、价格变化与其 ICO 信息之间的关联,ICO 信息包括白皮书内容、创始团队、GitHub 库和网站。该系统预测 ICO 诈骗的准确率达到了 0.85。
我们希望该研究可以帮助投资者识别 ICO 诈骗,同时引出更多对 ICO 项目的分析与评估研究。