首页 > 自考资讯 > 自考知识

超人tas,超人数据官网网址

头条共创 2024-07-05

作者| 褚新娟,核可乐

6月17日,极客时间《企业级 Agents 开发实战营》正式上线。掌握企业级代理的设计、开发和部署的整个过程需要10 周的时间。

我们有一个每月下载数百万的数据库项目,仅扩展后的下载流量就超过每天4TB。该数据库包括GitHub 和社交媒体平台上数以万计的明星和粉丝,以及围绕该数据库建立的两家初创公司。

这种生态发展的活力和水平,往往只有大型、老旧的开源列式存储数据库才能实现。然而,这个数据库已经有大约5 年的历史了。最近,这个非常受欢迎的数据库推出了第一个主要版本1.0.0,代号为“Snow Duck”(anas nivis)。

是的,这是一个分析型关系数据库DuckDB。

DuckDB 联合发明人、支持公司DuckDB Labs 创始人Hannes Mhleisen 表示:“我们本可以在2018 年发布DuckDB 1.0.0,或者再等10 年。” TeX) 永远不会完成。

现在发布它是因为“1.0.0 版本比煮蛋计时器等应用程序更适合数据管理系统(无意冒犯)”。

Muehleisen 解释说,由于数据管理系统(甚至是纯分析系统)是任何应用程序的核心组件,因此开发人员和用户之间始终存在隐式信任契约。用户依靠数据库提供正确的查询结果而不丢失数据。同时,系统开发人员必须清楚自己的责任,确保不随意破坏用户的应用程序。

随着1.0.0版本的发布,DuckDB成为一个成熟的数据库解决方案,承诺采用新的数据模型和更高的稳定性以增强向后兼容性。

据报道,该团队已经进行了一些更改以确保向后兼容性,并且现在能够在存储格式级别实现一定程度的向上兼容性。 “当将数据写入DuckDB 数据库时,这种新格式甚至允许用户在10 年后读取这些文件。这是一个重大变化。”

f52e6793537c48d08936c828d6e08ccf~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720730567&x-signature=urIFzwntgP7ZHryQgrtimx7WOUg%3D

凭什么在数据库市场“杀”出来

“自从我在2018 年为这个项目编写初始源代码以来,近六年里发生了很多事情。我们现在有超过300,000 行C++ 引擎代码和超过42,000 次提交,提出了大约4,000 个问题,”回忆道。该项目的创始人是Mark Larsfeldt 和Hannes Mhleisen。

85171a0c19964f47b611008314f6a333~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720730567&x-signature=Y860u6w93D5tJecZ2aD2RtEqcUQ%3D

DuckDB Github 星数变化

DuckDB 诞生于阿姆斯特丹Centrum Wiskunde Informatica 数学和理论计算研究中心,Mhleisen 是该中心的教授。 2018 年,Mhleisen 和当时的CWI 博士生Mark Raasveldt 创建了DuckDB。

Mhleisen 希望创建一个像F1 赛车一样强大、又像丰田卡罗拉一样易于使用的分析数据库。当他和他的团队开始创建这样一个系统时,DuckDB 就诞生了。

该项目被命名为“DuckDB”,因为它的创建者相信鸭子具有适应性,可以在任何东西上生存,类似于数据库系统的运行方式。此外,Mhleisen 还有一只名为Wilbur 的宠物鸭,该项目也因此得名。

尽管Vectorwise 的创建者Peter Boncz 并未深入参与DuckDB 代码库的创建,但他为作者提供了宝贵的建议和见解。

事实上,DuckDB 在很多方面都代表了典型大数据管理产品的对立面。

DuckDB的开发人员并没有像其他人一样选择使用分布式数据存储来处理大规模数据。相反,我们打破了从众心理,毫不犹豫地选择了单一节点。

作为一名一生都在学术界度过的数据库研究员,Muhleisen 不喜欢现代大数据管理系统给数据科学和高级分析带来的复杂性和难度。

“我们很早就明确表示不会使用分布式架构。大家都在谈论将TB 级、PB 级数据集分布在数万个节点上。但实际上,用户99% 的人都在使用数据集,这是不可能实现的除非你有分销选择,否则这种规模,”Muehleisen 说。

当客户的业务达到谷歌的规模时,唯一的选择就是分布式架构以及由此而来的“所有非常复杂的解决方案”,例如MapReduce。但是,Mhleisen 说:“对于我们大多数人来说,PB 级的数据根本不是我们关心的数据。这更像是,‘这是一个烦人的文件,我想读取它的内容并用它做点什么。’”做到这一点,”他强调说。外科手术'。

DuckDB 的另一个特点是它对传统SQL 的忠实。虽然NoSQL 运动仍在蓬勃发展,许多人希望使用Python 和数据框架来查询数据,但Mhleisen 和他的团队认为SQL 本身并没有缺陷,意识到没有必要强制更换。

“我多次听说SQL 等于死刑,但我还是决定使用SQL,”Mhleisen 说。

与其他OLAP 风格的数据库一样,DuckDB 使用列式存储(用于高效聚合)和矢量化(用于提高性能)来非常快速地执行SQL 查询。然而,与Teradata 和Redshift 等强调数据仓库特性的数据库不同,它并不是存储所有数据以建立“单一事实来源”的好选择。

其他OLAP数据库在右边,DuckDB在右边。从功能配置的角度来看,DuckDB 更像是一个嵌入式分析应用程序,而不是典型的数据仓库。

DuckDB体积小,只有50MB,可以运行在多种操作系统(Linux、Windows等)上,并提供包括Python、R和JavaScript在内的多种软件包。

前谷歌BigQuery工程师Jordan Tigani指出,DuckDB逆着数据仓库向云扩展的趋势而设计,以高性能笔记本电脑作为执行载体而设计。 Tigani 是DuckDB 的忠实粉丝,他与他人共同创立了MotherDuck,这是一家为DuckDB 提供后端扩展的公司。

DuckDB还具有在有限资源下提供高性能分析和文件转换的独特技能。

DuckDB 的设计考虑了分析处理,而不是事务处理。 DuckDB 无法像Postgres 数据库那样每秒处理数百万行数据,但如果您需要每秒读取10 亿行数据,那么它是正确的选择。

DuckDB在分析效率方面具有显着优势。该数据库通常可以用1 个节点替代以前需要10 个节点的小型Spark 集群。同样,“向Pandas 中塞入太多行数据”往往会产生大量的操作开销,这凸显了DuckDB 的轻量级本质。

“我们有时称自己为用于分析的SQLite。本质上,我们可能发明了一种新型系统.基本思想是一个单独的数据库服务器,您不需要这样做;您可以将DuckDB 粘贴到上面您现有的应用程序并进行分析,”Muehleisen 说。例如,连接到仪表板后,该C++ 数据库可以在仪表板上提供毫秒级响应时间。

“DuckDB 对我们客户的价值在于它可以在任何需要的地方运行,通过使查询处理尽可能靠近用户,为用户体验带来显着的好处,”Mhleisen 说。

如果用户需要进程内OLTP 系统,Mhleisen 建议考虑SQLite。相反,如果SQLite 用户需要分析功能,Mhleisen 建议给DuckDB 一个机会。

远离硅谷和风投的 18 人团队

DuckDB Labs 数据库背后的工程团队位于阿姆斯特丹,远离美国硅谷的喧嚣。

—— 阿姆斯特丹数学和计算机科学中心是世界上最流行的编程语言Python 开发团队的所在地。 Mhleisen 承认,走自己的路给了DuckDB 独特的优势。

“我认为这给了我做出非常规选择和结果的自由,而这是我在旧金山无法自由做出的。我现在可以忽略这些商业惯例,做我认为正确的事情。现在你实际上可以实现某物。 ”

此外,该公司还抵制风险投资。

第二家DuckDB 初创公司是位于华盛顿州西雅图的MotherDuck,它正在开发DuckDB 的无服务器版本,并得到了Mhleisen 和DuckDB Labs 联合创始人兼首席技术官Mark Raasveldt 的支持。该公司已筹集5250 万美元,预计今年秋季估值为4 亿美元,但DuckDB Labs 尚未收到一分钱。

DuckDB Labs 是雇用DuckDB 核心贡献者的公司,没有外部投资,因此该公司完全由团队拥有。这种做法也受到了社区的欢迎,他们表示,“这似乎是长期保护开源项目的一个很好的结构。”

风险投资家当然渴望伸出橄榄枝。 “当然,我们得到了很多风险投资公司的关注,各方都想与我们交谈,比如安德森和红杉,但最终“总的来说,我们拒绝了所有风险投资人的邀请。

这当然不是一个简单的过程。他“只是某种技术提供商”的想法并没有引起共鸣。然后,在与其他老牌数据库公司的人员交谈后,Muehleisen 意识到他想要更加开放、更加灵活,而不是局限于特定的服务。应用领域。

目前,该研究所的商业模式是为DuckDB提供咨询和支持服务,团队表示目前这一切正在步入正轨。 DuckDB Labs 通过合同收入为18 人的团队提供用于DuckDB 开发的长期战略资金。同时,该项目的知识产权由独立的DuckDB 基金会持有,这是一个非盈利基金会,确保DuckDB 始终处于MIT 许可之下。

12c4f8ce926245f9a87983386c2e5f33~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720730567&x-signature=7crdKptwGE5fvs1xH7cFhGTfgLM%3D

DuckDB 实验室员工

DuckDB Labs 的CTO Mark 是主要程序员,据报道独自完成了50% 的代码,还有其他13 名程序员、1 名测试实习生和1 名开发者生态系统代表。负责使用文档进行培训。

结束语

“我最近在DuckDB 上下了很大的赌注。我将DuckDB 添加到了免费SQL 编辑器qStudio 的核心中。该编辑器现在允许您将任何数据库中的表保存到本地的duckdb 实例中。任何服务器。”一位网友说道。

随着DuckDB 实例在全球范围内传播,这种独特的旗帜变得越来越明显。 Mhleisen 表示,该项目的受欢迎程度主要来自于欣赏DuckDB 独特设计理念的用户的口碑。

“我认为推动成功的另一个因素是该领域尚未拥挤并由技术解决方案主导。数据库市场并不是特别拥挤,我认为我们所做的最明智的权衡是不妥协并实现A。”一种创造与人们产生共鸣的产品的新方法。 ”

据Mhleisen 介绍,NASA 正在某些应用场景中部署DuckDB(尽管没有明确说明),FiveTran 也将DuckDB 纳入其Apache Iceberg 项目的开发流程中。

DuckDB 的流行对于Mhleisen 来说绝对是一次有趣的经历。迄今为止他的整个职业生涯都非常“单调”,只是一个实用的数据库研究员。 “我们所看到的实在是太疯狂了。作为一名软件开发者,谁能想到他的作品会获得如此夸张的受欢迎程度和受欢迎程度?”

参考链接:

https://www.madrona.com/motherduck-jordan-tigani-duckdbs-hannes-muhleisen-partnerships-commercializing-open-source-projects/

https://www.datanami.com/2024/03/05/duckdb-walks-to-the-beat-of-its-own-analytics-drum

https://www.theregister.com/2024/06/05/duckdb_promises_greater_stability_with/

原文链接:离开硅谷,不再依赖风险投资!18人团队逆势打造了一个极受欢迎的数据库。 CTO 5年写了15万行代码_大数据_楚杏娟_InfoQ文章精选。

版权声明:本文由今日头条转载,如有侵犯您的版权,请联系本站编辑删除。

猜你喜欢