OpenPie 拓数派

专访丨从技术流派到实际应用,邱培峰全面解析向量数据库的选型要点

2024-06-11

本文转载自公众号 IT168企业级《从技术流派到实际应用,邱培峰全面解析向量数据库的选型要点》


IT168 特别策划了《向量数据库选型指南》,笔者通过对话一线技术专家,全面剖析向量数据库的最新发展动态与核心技术优势,分享各个行业实际应用中遇到的挑战及成功案例,为用户在选型过程中提供有力支持。


本期,我们有幸采访到了拓数派向量数据库负责人邱培峰,针对向量数据库的技术路线选择,以及 PieCloudVector 有哪些独特的优势,向量数据库未来的发展趋势,以及选型建议等问题进行了深入交流。


向量数据库选型三大关键点


向量数据库作为专为向量搜索而设计的数据库,其学术研究和产业实践均取得了显著进展。然而,随着大语言模型技术的突破,与自然语言紧密相关的向量数据量呈指数级增长,这不仅加剧了对高效搜索的需求,还衍生出对向量与标量数据混合管理的新挑战。


传统数据库在应对向量与标量数据混合查询时显得力不从心,无法充分适应多模态数据处理和高效的相似度搜索复杂场景,难以满足企业日益增长的业务需求。而向量数据库擅长容纳图像、音频、文本等多模态数据,并通过将这些数据映射为向量表示,利用向量相似度进行关联和检索。


邱培峰认为,“在选择向量数据库时,用户需要综合考虑向量算法、通用数据管理和配套工具生态三个方面。”同时,还需要结合具体的业务需求和技术要求进行评估和测试,以选择最适合自己的数据库产品。此外,随着技术的不断发展,还需要关注数据库产品的更新和升级情况,以确保其能够持续满足业务需求。


  • 向量算法优化


向量搜索算法作为向量数据库的核心功能,扮演着举足轻重的角色,不同算法依据特定场景和性能需求各有千秋。用户在评估时,核心关注点通常集中于几个关键指标:每秒查询量(QPS)、召回率(即准确度)、CPU 与内存资源消耗,以及 GPU 加速支持。


这些性能指标之间往往需要取舍,单一算法无法在所有维度上都达到最优。因此,提供更多样化的算法选项和细致的参数调节能力至关重要,这有助于用户在各项性能指标间灵活找寻最佳平衡点,进而拓宽数据库的适用场景和提升其泛用性。


  • 通用数据管理强化


通用数据管理是向量数据库不可或缺的组成部分,关键在于有效整合向量数据及其伴随的元数据,如原始文本、创建时间、用户标识、来源路径或 url 等,这些附属信息统称为标量数据,对向量的搜索最终是要反映到这些关联信息上面。


数据一致性、操作原子性、混合查询、多用户、权限管理等是衡量一款向量数据库通用数据管理能力的关键指标。


  • 配套工具生态完善


配套工具生态系统直接关乎向量数据库的用户友好度与实用性。一些关键的优化点涵盖了 SDK 开发、数据导入导出、备份恢复、数据可视化,以及与大语言模型生态的集成等方面。


向量数据库的两种技术流派


当前向量数据库技术领域分化为两大流派:一方是以 Pinecone、Zilliz 和 Chroma 为代表的专有向量数据库,它们凭借卓越的向量检索速度著称,但面对复杂多维的通用数据处理时,灵活性略显不足。


另一方则是传统数据库如 PostgreSQL,通过集成如 pgvector 之类的扩展模块,增强了处理向量数据的能力,尽管在通用性上有所提升,却难以匹敌专有向量数据库在性能和扩展性上的表现。


实际上,前者侧重于向量搜索算法为核心,围绕其构建功能完善的生态系统,诸如 Pinecone 与 Zilliz,它们多基于 faiss 这一强大开源库,性能表现直接受益于 faiss 的优化。后者则是在成熟的 SQL 数据库基础上,如 PostgreSQL,引入向量搜索功能,pgvector 即为典型例证,以此实现向量化数据的便捷查询。


在设计 PieCloudVector 时,拓数派力求融合两大技术方向之长,独辟蹊径。邱培峰指出,“我们选择将 faiss 组件与自研的基于 postgres 内核的关系型数据库对接起来,这样既能达到 pinecone 等产品同级别的性能,又能有基于postgres的通用数据库能力。”


PieCloudVector 为大模型提供长期记忆


拓数派秉承“数据计算,只为新发现”的使命,其大模型数据计算系统实现了AI数学模型、数据与计算的无缝融合,共同推动社会经济效益的持续增长。PieCloudVector 作为拓数派大模型数据计算系统的核心计算引擎之一,是大模型时代分析型数据库的升维之作,它专为多模态大模型AI应用而生。


在邱培峰看来,“相较于传统数据库,PieCloudVector 突破了技术瓶颈,实现了向量化存储和计算资源的弹性扩缩,提高了易用性和性能,增强了元数据变更功能,解决了数据一致性问题,并克服了安全性、可靠性和在线性方面的技术难题。”


据悉,PieCloudVector 全面兼容SQL:2016和 PostgreSQL 生态,支持行存和行列混存。基于 eMPP(弹性大规模并行计算)架构构建,PieCloudVector 不仅支持通过 SQL 接口进行非结构化数据检索,还能与结构化数据进行关联分析。


功能方面,PieCloudVector 基于 PostgreSQL 内核和 faiss 算法库打造,拥有完整的 ACID 数据管理能力,支持标量与向量的混合查询。它支持主流的近似最近邻(ANN)算法和向量编码或压缩算法,支持 SIMD/GPU 加速,并兼容 langchain 等大模型工具生态。


PieCloudVector 不仅支持灵活的单节点部署,更可轻松扩展至分布式架构。在分布式部署中,每个节点承载数据集的一个子切片,搜索结果经过跨节点汇总与重排序,确保返回全局最优解。这一架构设计使 PieCloudVector 能够随着节点数量的增加,线性扩展其数据处理能力,轻松应对海量数据挑战。


性能调优方面,PieCloudVector 提供了灵活的参数调整机制,特别关注于向量搜索算法参数的优化。以ivf算法为例,用户可根据需求调整总分区数和每次搜索分区数这两个核心参数。低分区数有助于缩短索引创建时间,而提高搜索分区数则能增强单次搜索的召回率(recall),但可能伴随搜索时间的增加。


数据安全方面,拓数派团队还为 PieCloudVector 量身打造了透明加密功能。这一功能使得数据在写入磁盘时即自动完成加密,无需用户额外操作,从而大大简化了数据加密的流程。透明加密功能不仅保证了数据的机密性,还确保了即使数据在存储介质上被非法获取,也无法被轻易解密和读取。


PieCloudVector 凭借其卓越的性能和广泛适用性,已成功在各行各业的大模型领域中落地应用,特别是在金融大模型领域展现了显著的优势。其中,东吴证券作为 PieCloudVector 的首个成功落地案例,为用户深入理解市场需求、优化产品设计和功能提供了宝贵的经验。


写在最后


随着技术的演进和市场需求的变化,邱培峰预见到,向量数据库的未来将朝向一个更为全面和智能的方向发展,即直接支持文字搜索的 AI 数据库。基于此,拓数派正积极探索集成大模型和内置向量转换等前沿技术,以实现文字到向量的自动转换和高效搜索。


展望未来,拓数派将持续关注市场和技术的发展动态,不断探索和创新,聚焦数据库在多模态大模型系统中的应用场景,并计划让 PieCloudVector 在这一领域进行深入探索。通过优化 PieCloudVector 对多模态数据的处理能力,为用户提供更为丰富和高效的 AI 应用体验。


嘉宾介绍


邱培峰 拓数派向量数据库负责人 


邱培峰目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验,在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发,并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心开发和性能优化等实践经验。


关于 PieCloudVector


拓数派大模型数据计算系统(PieDataCS)目前支持 PieCloudDB Database、PieCloudVector 和 PieCloudML 三款计算引擎,其中第二款云原生向量计算引擎 PieCloudVector 是大模型时代的分析型数据库升维。PieCloudVector 助力多模态大模型 AI 应用,进一步实现海量向量数据存储、向量数据高效查询,支持和配合大模型的 Embeddings,帮助基础模型在场景 AI 的快速适配和二次开发,是大模型应用必备。

相关博文

暂无相关推荐