[心得] 我做了一個幾何語義模型引擎（PipeOwl） - Soft_Job板

作者 galaxy4552 (無聞)
標題 [心得] 我做了一個幾何語義模型引擎（PipeOwl）
時間 Thu Feb 19 20:35:11 2026

最近把之前做的 pipowl（minimal SBERT）重構了一下
變成一個比較乾淨的幾何語義引擎，叫做 PipeOwl

老實說也不是什麼很大的模型
比較像是我自己在研究語義結構時拆出來的一層

---

它在做什麼？

不是大型 Transformer，
也沒有接 decoding 端。

目前的形式是：

把模型壓成 .npy 向量場
然後用幾何方式做語義運算

核心公式：

score = α· base + β· delta_scalar

整體是：

純 Python
不跑大型 Transformer 推理
可以嵌入 CLI / API / Chatbot / IME
本地語義比對速度接近輸入法候選
比較像是一個：
embedding 運算層 + 語義場資料

---

為什麼做這個？

其實只是想試試看：

語義模型一定要是黑箱 end-to-end 嗎？

如果把模型壓成向量場，
讓語義變成可以觀測、可以組合的結構，
會發生什麼事？

目前還在摸索中，
尤其是拿掉 sentence-transformers 之後，
訓練方式跟主流就完全不同了。

算是一個方向性的嘗試

---

已知問題 / 還在實驗的地方

1.目前向量還沒做 norm1（正規化方式還在想要不要全場一致處理）

2.β· delta_scalar 這一層，可能改成降維後當作 loss 場會更合理，還沒完整實測

3.「語義」這類型的詞score有點高可能觸發後要RAG名詞解釋

---

Hugging Face
https://huggingface.co/WangKaiLin/PipeOwl

WangKaiLin/PipeOwl · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science. ...

一些 benchmark 圖和筆記
https://hackmd.io/@galaxy4552/BkpUEnTwbl

開發場論語言模型之路 part2 - HackMD
開發場論語言模型之路 part2 ...

---

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.73.51.159 (臺灣)
※ 作者: galaxy4552 2026-02-19 20:35:11
※ 文章代碼(AID): #1fbmE4x4 (Soft_Job)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1771504516.A.EC4.html

→ DrTech: 早期在沒有Bert的時代，就有一堆類似工作。word2vec時代，都有許多變形了。只在特定垂直領域，訓練短語級別，如果只是計算量比較低，可以做語意計算，看不出有什麼特別新的東西。
不使用 transformer或BERT，做短語embedding，其實早期大家都玩得蠻多了。
看了一下，基底是用BGE 做詞彙embedding，將預先計算的結果重複使用。就是用空間換時間啊。說不用S-Bert太牽強啦，還不是有用。
最後benchmark只比時間，太取巧了吧，只比時間。你用儲存空間換時間，當然時間上會硬贏阿。1F 02/20 01:11

→ galaxy4552: 確實我是從 S-BERT/BGE 的 embedding 出發做升級
我也還在思考怎麼驗證因為這是時間導向設計的沒錯12F 02/20 05:15

推 USD5566: 唉好不容易有人分享個實在點的專案鐵o伯又在硬聊了有夠尬14F 02/20 11:13

作者 galaxy4552 的最新發文:

+1 [心得] 我做了一個幾何語義模型引擎（PipeOwl） - Soft_Job 板

作者: galaxy4552 42.73.51.159 (台灣) 2026-02-19 20:35:11

15F 1推
+3 [心得] 我做了一個輕量語義搜尋引擎 - Soft_Job 板

作者: galaxy4552 114.136.167.188 (台灣) 2025-11-19 09:00:56

42F 3推
+6 [賣/桃園/龜山] 專任華悅城經典高樓兩房B1大車位 - home-sale 板

作者: galaxy4552 218.161.79.194 (台灣) 2023-05-07 10:19:08

14F 8推 2噓