Alluxio的数据编排平台现在跨越了多个云
Alluxio Inc .专门为数据科学和分析工作负载开发了一个虚拟分布式文件系统,该公司今天发布了自三年多前首次发布以来对其平台最重要的增强。
公司销售同名开源数据整理技术的商业版。这项技术的前身是超光速粒子,它在存储和计算资源之间提供了一个一致的层,使分析应用程序能够快速访问数据,而不受位置的限制。
Alluxio不依赖带宽密集型复制,而是使用智能缓存和内存中的全局命名空间和元数据来跟踪数据的位置及其源数据的变化。Alluxio表示,其技术的开源版本被世界十大互联网公司中的七家使用。
在2.0版中,此过程现在可以由用户定义的策略来管理,这些策略会自动跨存储系统移动数据。新版本还支持跨多个云的数据移动、更好的可扩展性、集群划分,以及通过代表性状态传输或REST接口与外部数据源的集成。
Alluxio表示,它为困扰大多数大型组织的数据孤岛问题提供了独特的解决方案。试图构建跨企业运行的分析程序的数据科学家必须处理多个数据源,这些数据源是通过部门规划、收购和遗留应用程序出现的。数据虚拟化是解决这一问题的一种相对较新的方法。它试图在没有复制的情况下协调不同的源,这是一个资源密集型的过程,可能会引入危险的数据质量问题。
然而,该技术的创始人李浩源表示,许多解决方案旨在优化存储,而不是计算。他在加州大学伯克利分校实验室(samplab)攻读博士学位时,与他人合作开发了这项技术。尽管这些方法可能会减少拷贝并优化存储效率,但它们无助于分析例程更快地运行。
“筒仓是不可避免的,”李说。我们不是通过创建副本来解决问题,“我们在逻辑上聚合数据,以便您可以通过软件层将其作为文件夹进行访问。该软件绑定到一个分析应用程序,如Apache Spark或Presto,以优化应用层的性能。
Alluxio 2.0中的新策略功能可跨任意数量的存储系统(包括本地存储系统和多云存储系统)提供热数据、热数据和冷数据的自动分层。用户可以在任何目录和文件夹级别配置策略,以自定义和简化数据访问。单个数据集的定义可以涵盖写入数据或与存储系统同步数据等功能。
当使用基于云的数据源时,用户现在可以划分Alluxio层,这样不同分析框架使用的数据集就不会互相污染。来自外部源的数据也可以通过RESTful接口进行聚合,方法是将源文件指向Alluxio,以便根据需要进行访问。
负责产品管理和营销的副总裁Dipti Borkar表示,随着最近向谷歌LLC的开源远程流程框架gRPC的转型,Alluxio现在可以扩展到集群中的5000个节点。对开源RocksDB持久键值存储的支持提高了性能,并允许将分层元数据管理扩展到数十亿个文件。
Alluxio提供免费社区版和企业版,具有增强的安全性、额外的编排功能和技术支持。该软件被交付给Docker容器进行内部部署。未指定定价。