🧮 “Vector” trong ngữ cảnh AI / Pinecone
- Vector ở đây chính là một dãy số (một mảng nhiều chiều) biểu diễn cho ý nghĩa (ngữ nghĩa) của một đoạn văn bản, hình ảnh, âm thanh…
- Nó còn được gọi là embedding.
Ví dụ:
Câu “Con mèo nằm trên ghế” → model embedding biến thành một vector 1.536 chiều (với OpenAI text-embedding-3-small), kiểu như:
[0.013, -0.245, 0.782, ..., 0.056]
Đây giống như tọa độ của câu này trong không gian vector, các vật có ý nghĩa gần nhau như: dog - puppy thì sẽ có tọa độ gần nhau, các vật có ý nghĩa xa nhau thì sẽ có tọa độ cách nhau
AI không hiểu nghĩa của câu, nó chỉ có tìm kiếm các vật thể, các câu có tọa độ gần nhau thôi
🔎 Tại sao dùng vector?
Nếu bạn chỉ so sánh văn bản bằng keyword → rất hạn chế (ví dụ “car” và “automobile” thì khác nhau).
Nhưng embedding vector sẽ đặt hai câu gần nhau trong không gian vector, vì chúng có nghĩa giống nhau.
Ví dụ (giản lược 2D để dễ hình dung):
- “Tôi thích uống cà phê” → vector gần “Tôi muốn một tách coffee”.
- “Con mèo đang ngủ” → vector nằm xa hai câu trên.
🏗 Vai trò của vector trong Pinecone
Pinecone lưu trữ hàng triệu vector như vậy.
Khi bạn nhập một câu hỏi, Pinecone tìm những vector gần nhất → trả về dữ liệu gốc liên quan.
👉 Tóm lại:
- Vector = biểu diễn số học của dữ liệu (văn bản, hình ảnh, âm thanh).
- Nó cho phép AI so sánh ý nghĩa, thay vì chỉ so khớp chữ.