您当前的位置:首页 > 电脑百科 > 数据库 > 百科

使用矢量数据库打造全新的搜索引擎

时间:2023-07-31 15:33:17  来源:微信公众号  作者: Java学研大本营


在技术层面上,矢量数据库采用了一种名为“矢量索引”的技术,这是一种组织和搜索矢量数据的方法,可以快速找到相似矢量。其中关键的一环是“距离函数”的概念,它可以衡量两个矢量的相似程度。

1 矢量数据库简介

矢量数据库是专门设计用来高效处理矢量数据的数据库。什么是矢量数据呢?矢量数据代表多维空间中的数据点,是一种用数学方法来定义现实世界信息的方式。

比如说,您有一组图片,每张图片都可以在高维空间中表示为一个矢量,其中每个维度都与图片的某些特征(如颜色、形状或纹理)相关。通过比较这些矢量,我们可以找到相似的图片。

这种能力非常关键,因为它可用来进行相似性搜索——一种寻找相似物品而不是完全相同复制品的搜索方式。对于推荐系统和机器学习等许多领域来说,这都是一个重大的变革。

2 解析矢量数据库

在技术层面上,矢量数据库采用了一种名为“矢量索引”的技术,这是一种组织和搜索矢量数据的方法,可以快速找到相似矢量。其中关键的一环是“距离函数”的概念,它可以衡量两个矢量的相似程度。

当您寻找与给定矢量相似的矢量时,数据库并不会将给定矢量与数据库中的每个矢量进行比较。相反,它使用矢量索引快速定位到可能相似的一小部分矢量。这个特性使搜索变得更快、更高效。

3 矢量数据库的实际应用

矢量数据库在实际应用中的优势:

  • 推荐系统:许多受欢迎的网站和应用都使用矢量数据库向您推荐喜欢的节目和产品。他们将项目(如电影或产品)和用户表示为矢量,然后利用项目矢量和用户矢量之间的相似性来预测用户可能喜欢的项目。
  • 图像和视频搜索:矢量数据库非常适合图像类比这种应用,它们使图像或视频搜索系统能够根据视觉相似性而不仅仅是文本标签来查找相似的图像或视频。
  • 语义搜索:语义搜索是一种高级的方式,可以理解查询的含义,不仅仅是特定的单词。例如,如果您搜索“可爱猫咪的图片”,语义搜索系统可能还会向您展示可爱的小猫的图片,即使“小猫”这个词不在您的查询中。矢量数据库可以将文档、查询和概念表示为矢量,然后利用矢量相似性来查找相关结果。

4 将文本转换为矢量

当我们谈论将查询和文章转换为矢量时,实际上我们想要的是将人类可读的文本转换为机器可以理解和执行的格式,即矢量。在这种情况下,矢量实质上是个数字列表,捕捉了文本的本质或含义。这个过程通常被称为“文本嵌入”或“词嵌入”。

4.1 应用于我们的情况:

对于我们的应用程序,我们需要将文章和用户查询都转换为矢量。我们来看看如何完成此过程:

  • 选择嵌入算法:假设我们使用word2Vec,这是一种可以接收文本并输出矢量的算法。Word2Vec通过分析单词在文本中出现的上下文,并以这样一种方式分配矢量,使共享相似上下文的单词被分配相似的矢量。
  • 预处理文本:在我们将文本输入Word2Vec之前,我们需要对其进行一些清理。这通常涉及将所有文本转换为小写,删除标点符号和特殊字符,有时甚至删除意义不大的的常用词(如 "和"、"的"、"是 "等)(称为“stop words”)。
  • 将清理后的文本输入到算法中:文本整理好后,就将其输入到Word2Vec中。输出将是矢量,我们可以将其用于我们的矢量数据库。

4.2 案例:

假设我们有一篇标题为“The Best Chocolate Chip Cookie Recipe”的博客文章。清理后,它可能看起来像“best chocolate chip cookie recipe”。然后,使用Word2Vec,我们将每个单词转换为矢量。为简单起见,假设我们的矢量只有两个维度。 “best”的矢量可能看起来像[0.25,-0.1],“chocolate”可能是[0.75,0.8],“chip”可能是[-0.6,0.5],“cookie”可能是[0.4,-0.2],“recipe”可能是[-0.1,0.65]。

在这种情况下,我们将这些矢量的平均值表示整个文章,然后将其用于我们的矢量数据库。用户查询也会经过相同的过程,它们的矢量将用于搜索矢量数据库。

这是一个简化的解释,实际过程涉及更复杂的数学和更大的矢量,但这提供了如何将查询和文章转换为矢量的基本理解。一旦您了解了基本概念,就有很多库可以为您完成繁重的工作!

在我们的JAVA Spring Boot应用程序中,可以使用像DL4J(Deeplearning4j)这样的库来帮助我们进行文本到矢量的转换。虽然使用 DL4J 进行文本到矢量的转换需要一些时间和精力去掌握,但一旦掌握,DL4J 就是数据管理工具包中非常强大的一个工具。

现在,我们将这一步添加到我们的Spring Boot应用程序中,使用Deeplearning4j库将文本转换为矢量。以下是如何使用它创建一个Word2Vec模型的示例:

首先,请将DL4J库添加到您的pom.xml中:

<dependency>
    <groupId>org.deeplearning4j</groupId>
    <artifactId>deeplearning4j-core</artifactId>
    <version>1.0.0-beta7</version>
</dependency>

以下代码显示了如何构建Word2Vec模型:

import org.deeplearning4j.text.sentenceiterator.BasicLineIterator;
import org.deeplearning4j.text.sentenceiterator.SentenceIterator;
import org.deeplearning4j.text.tokenization.tokenizer.preprocessor.CommonPreprocessor;
import org.deeplearning4j.text.tokenization.tokenizerfactory.DefaultTokenizerFactory;
import org.deeplearning4j.text.tokenization.tokenizerfactory.TokenizerFactory;
import org.deeplearning4j.models.word2vec.Word2Vec;

public Word2Vec createWord2VecModel(String filePath) {
    SentenceIterator iter = new BasicLineIterator(filePath);
    TokenizerFactory t = new DefaultTokenizerFactory();
    t.setTokenPreProcessor(new CommonPreprocessor());
    Word2Vec vec = new Word2Vec.Builder()
            .minWordFrequency(5)
            .iterations(1)
            .layerSize(100)
            .seed(42)
            .windowsize(5)
            .iterate(iter)
            .tokenizerFactory(t)
            .build();
    vec.fit();
    return vec;
}

以上是构建Word2Vec模型的示例代码,下面是如何将文本转换为矢量的示例代码:

import org.nd4j.linalg.api.ndarray.INDArray;
public INDArray textToVector(Word2Vec word2VecModel, String text) {
    TokenizerFactory t = new DefaultTokenizerFactory();
    t.setTokenPreProcessor(new CommonPreprocessor());
    List<String> tokens = t.create(text).getTokens();
    INDArray vector = word2VecModel.getWordVectorMatrixNormalized(tokens.get(0));
    for (int i = 1; i < tokens.size(); i++) {
        vector.addi(word2VecModel.getWordVectorMatrixNormalized(tokens.get(i)));
    }
    vector.divi(tokens.size());
    return vector;
}

将INDArray对象转换为双精度列表的代码如下:

public List<Double> toDoubleVector(INDArray vector) {
    return Arrays.stream(vector.toDoubleVector())
            .boxed()
            .collect(Collectors.toList());
}

5 在Spring Boot应用程序中实现矢量数据库

让我们从理论转向实践,看看如何将矢量数据库集成到Spring Boot应用程序中。在本示例中,我们将使用Vespa,这是一个开源的矢量数据库,它在语义搜索方面表现非常出色,因此备受关注和推崇。

首先,您需要在pom.xml中的Maven依赖项中添加Vespa客户端:

<dependency>
    <groupId>com.yahoo.vespa</groupId>
    <artifactId>vespa-feed-client</artifactId>
    <version>8.91.4</version>
</dependency>

然后,您将创建一个与Vespa数据库交互的VespaClient类。

public class VespaClient {
    private FeedClient feedClient;
    public VespaClient(String endpoint) {
        this.feedClient = FeedClientFactory.create(new FeedParams.Builder().build(), endpoint);
    }
    public CompletableFuture<Result> indexDocument(String documentId, Map<String, Object> fields) {
        DocumentId docId = new DocumentId("namespace", "documentType", documentId);
        Document document = new Document(docId, fields);
        return feedClient.send(document);
    }
    // 其他Vespa客户端方法在此处...
}

您还将拥有一个BlogPost类,该类将表示您的数据。

public class BlogPost {
    private String id;
    private String title;
    private String content;
    // Getters、setters和其他方法在此处...
}

要索引文章,我们将把BlogPost转换为Vespa友好格式,该格式是一个Map<String, Object>,其中键是字段名称,值是字段值。您可能会使用一个方法来执行此转换。

public CompletableFuture<Result> indexBlogPost(BlogPost post) {
    Map<String, Object> fields = new HashMap<>();
    fields.put("id", post.getId());
    fields.put("title", post.getTitle());
    fields.put("content", post.getContent());
    // 根据需要包含其他字段...
    return indexDocument(post.getId(), fields);
}

使用Vespa,您可以进行最近邻搜索,以查找与给定查询类似的文章。我们假设您有一种方法可以将查询和文章转换为矢量。

public CompletableFuture<SearchResult> searchSimilarBlogPosts(String query) {
    List<Double> queryVector = convertQueryToVector(query);
    Query request = new Query.Builder("namespace", "documentType")
        .setYql("select * from sources * where ([{" +
                ""targetNumHits": 10," +
                ""algorithm": "euclidean"," +
                ""pivot": " + queryVector.toString() +
            "}])" +
            " output distance")
        .build();
    return feedClient.search(request);
}

现在您已经将矢量数据库集成到Spring Boot应用程序中,并准备使用矢量数据库的强大功能来改善搜索功能!

6 总结

矢量数据库已经成为一种处理搜索功能的新方式,提供了独特的优势,特别是在处理“相似性”概念至关重要的数据时。通过了解这项技术的基本原理并学习如何在实际场景中应用它,您可以发掘其潜力,从而彻底改变处理数据的方式。



Tags:矢量数据库   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
嵌入和矢量数据库实操指南
译者 | 布加迪审校 | 重楼这场革命的核心是矢量数据库概念,这一突破性发展正在重塑我们处理复杂数据的方式。与传统的关系数据库不同,这种数据库具有管理和处理高维矢量数据的...【详细内容】
2023-12-28  Search: 矢量数据库  点击:(102)  评论:(0)  加入收藏
使用矢量数据库打造全新的搜索引擎
在技术层面上,矢量数据库采用了一种名为“矢量索引”的技术,这是一种组织和搜索矢量数据的方法,可以快速找到相似矢量。其中关键的一环是“距离函数”的概念,它可以衡量两个矢...【详细内容】
2023-07-31  Search: 矢量数据库  点击:(272)  评论:(0)  加入收藏
矢量数据库对比和选择指南
矢量数据库是为实现高维矢量数据的高效存储、检索和相似性搜索而设计的。使用一种称为嵌入的过程,将向量数据表示为一个连续的、有意义的高维向量。本文将研究存储/检索向量...【详细内容】
2023-07-08  Search: 矢量数据库  点击:(251)  评论:(0)  加入收藏
▌简易百科推荐
向量数据库落地实践
本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见: https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】
2024-04-03  京东云开发者    Tags:向量数据库   点击:(4)  评论:(0)  加入收藏
原来 SQL 函数是可以内联的!
介绍在某些情况下,SQL 函数(即指定LANGUAGE SQL)会将其函数体内联到调用它的查询中,而不是直接调用。这可以带来显著的性能提升,因为函数体可以暴露给调用查询的规划器,从而规划器...【详细内容】
2024-04-03  红石PG  微信公众号  Tags:SQL 函数   点击:(3)  评论:(0)  加入收藏
如何正确选择NoSQL数据库
译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出,业界对于NoSQL数据库的需求正在持续上升。2022年,全球NoSQL市场的销售额已达73亿美元,预计到2032年将达...【详细内容】
2024-03-28    51CTO  Tags:NoSQL   点击:(13)  评论:(0)  加入收藏
为什么数据库连接池不采用 IO 多路复用?
这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时,还是经常性采用c3p0,tomcat connection pool等技术来与DB连接,哪怕整个程序已经变成以...【详细内容】
2024-03-27  dbaplus社群    Tags:数据库连接池   点击:(12)  评论:(0)  加入收藏
八个常见的数据可视化错误以及如何避免它们
在当今以数据驱动为主导的世界里,清晰且具有洞察力的数据可视化至关重要。然而,在创建数据可视化时很容易犯错误,这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可...【详细内容】
2024-03-26  DeepHub IMBA  微信公众号  Tags:数据可视化   点击:(6)  评论:(0)  加入收藏
到底有没有必要分库分表,如何考量的
关于是否需要进行分库分表,可以根据以下考量因素来决定: 数据量和负载:如果数据量巨大且负载压力较大,单一库单一表可能无法满足性能需求,考虑分库分表。 数据增长:预估数据增长...【详细内容】
2024-03-20  码上遇见你  微信公众号  Tags:分库分表   点击:(13)  评论:(0)  加入收藏
在 SQL 中写了 in 和 not in,技术总监说要炒了我……
WHY?IN 和 NOT IN 是比较常用的关键字,为什么要尽量避免呢?1、效率低项目中遇到这么个情况:t1表 和 t2表 都是150w条数据,600M的样子,都不算大。但是这样一句查询 &darr;select *...【详细内容】
2024-03-18  dbaplus社群    Tags:SQL   点击:(5)  评论:(0)  加入收藏
应对慢SQL的致胜法宝:7大实例剖析+优化原则
大促备战,最大的隐患项之一就是慢SQL,对于服务平稳运行带来的破坏性最大,也是日常工作中经常带来整个应用抖动的最大隐患,在日常开发中如何避免出现慢SQL,出现了慢SQL应该按照什...【详细内容】
2024-03-14  京东云开发者    Tags:慢SQL   点击:(4)  评论:(0)  加入收藏
过去一年,我看到了数据库领域的十大发展趋势
作者 | 朱洁策划 | 李冬梅过去一年,行业信心跌至冰点2022 年中,红衫的一篇《适应与忍耐》的报告,对公司经营提出了预警,让各个公司保持现金流,重整团队,想办法增加盈利。这篇报告...【详细内容】
2024-03-12    InfoQ  Tags:数据库   点击:(26)  评论:(0)  加入收藏
SQL优化的七个方法,你会哪个?
一、插入数据优化 普通插入:在平时我们执行insert语句的时候,可能都是一条一条数据插入进去的,就像下面这样。INSERT INTO `department` VALUES(1, &#39;研发部(RD)&#39;, &#39...【详细内容】
2024-03-07  程序员恰恰  微信公众号  Tags:SQL优化   点击:(19)  评论:(0)  加入收藏
站内最新
站内热门
站内头条