※ 本文為 e6148532 轉寄自 ptt.cc 更新時間: 2014-05-02 01:57:09
看板 Gossiping
作者 標題 Re: [爆卦] 混淆網軍監測的方法 (代po)
時間 Fri May 2 00:06:27 2014
※ 引述《Lavchi (拉維奇)》之銘言:
: 其實還有一種法方
: 你要知道實其人類對於讀閱是有強大的適應力
: 根據研究指出,中文字的序順並不會響影閱讀
: 所以可以在召號文裡面故意把序順倒顛
: 例如把「包圍總統府」變成「包圍統總府」
: 死宅宅工程師寫出來的式程是死的 人腦才是活的
: 版權沒有 隨意錄轉
: 引用或轉錄得記附上作者 Lavchi 即可 謝謝
雖然我是偽Google,但還是要宣揚一下正確觀念
各位資訊人大學時代有修過 information retrieval 就知道
information retrieval 會處理 順序 錯字 別名
因此原PO說要改順序 這麼做是無效的 (你可以試著搜尋看看)
統總府:http://goo.gl/D6hyCz (順序錯仍會辨識成正確順序)
國民擋:http://goo.gl/22riqO (打錯字仍會辨識成正確名稱)
KMT: http://goo.gl/WgwNNp (用別名仍會辨識出通俗名稱)
也有人認為加空白沒有用只要把空白清掉就好 應該加符號
↑這也是錯誤想法
事實上
1. information retrieval 建 index 時就會把符號去除
這也是為什麼我們無法用搜尋引擎搜尋符號
例如搜尋逗號:http://goo.gl/iiAg6Q
一般我們如果想搜尋特殊符號時
會使用該符號的名稱,如:wildcard sharp dollar sign 等
2. information retrieval 建 index 時並不會把空白去掉
"this is a book"
清掉空白變成 "thisisabook"
那還建什麼index?
所以說,加空白其實是目前較好的做法
加空白會讓搜尋變困難 (只是變難但不是找不到)
以上提供給各位參考
(小魯只是在大學部修過一學期的課而已,有錯的話請各位先進指正了)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 163.27.78.169
※ 文章網址: http://www.ptt.cc/bbs/Gossiping/M.1398960390.A.3B4.html
※ 同主題文章:
05-01 23:19 ■ [爆卦] 混淆網軍監測的方法 (代po)
05-01 23:29 ■ Re: [爆卦] 混淆網軍監測的方法 (代po)
05-01 23:48 ■ Re: [爆卦] 混淆網軍監測的方法 (代po)
● 05-02 00:06 ■ Re: [爆卦] 混淆網軍監測的方法 (代po)
05-02 00:36 ■ Re: [爆卦] 混淆網軍監測的方法 (代po)
05-02 00:41 ■ Re: [爆卦] 混淆網軍監測的方法 (代po)
05-02 01:43 ■ Re: [爆卦] 混淆網軍監測的方法 (代po)
→ :國 民 黨 馬 英 無 限 期 支 持 台 灣 獨 立 總 統 腐1F 05/02 00:07
推 :還 滿 屌 的2F 05/02 00:07
→ :理論而已 我想能做到的世界上只有google有機會3F 05/02 00:08
推 :你拿google和接政府案子的計劃比,會不會太兇悍了4F 05/02 00:09
推 :你舉的是搜尋,如果被搜尋也會這樣嗎5F 05/02 00:09
→ :ufoon大 是先知阿 原來他早知道 (跪)6F 05/02 00:09
推 :你拿中文去空白看看7F 05/02 00:09
→ :問題是鴿子沒有GOOGLE的技術 別擔心8F 05/02 00:09
→ :改成代號就好了 ma in 9 死 爛 蛆 舔 支 那 賣 歹 灣9F 05/02 00:09
推 :倒果為因 google輸入總統府會跑出總府統嗎?10F 05/02 00:09
打什麼能搜到什麼 就表示這兩個詞是同義的 是連在一起的
至於會不會跑出來 這是順序的問題 只要那個網頁夠重要就會在越上面
不然可以請總統府明天把網頁標題改成"總府統"
可以跟你保證搜尋總統府還是出現這個網站
→ :不過要是騙得過google,幾乎等於騙過大部份系統了11F 05/02 00:09
推 :我不太相信政府寫的程式對中文辨別有做得那麼好12F 05/02 00:09
推 :手倉 斃 ma IN 救13F 05/02 00:09
※ 編輯: Goog1e (163.27.78.169), 05/02/2014 00:11:47→ :就算有也會有正確順序的垃圾資訊跑出來給黨工看14F 05/02 00:10
推 :瑪瓔韮陋釢15F 05/02 00:10
推 :寫直的,直式書寫。16F 05/02 00:10
推 :中文的IR要做得好 我看他們沒那技術XD17F 05/02 00:11
推 :a83 u/ ru.3 vu84 w9618F 05/02 00:12
→ :這樣搜尋的到嗎?
→ :這樣搜尋的到嗎?
Yahoo 有做注音這塊 不過目前 Google 好像還沒有 XD
但我相信政府的系統應該不會做啦XDDDDD
※ 編輯: Goog1e (163.27.78.169), 05/02/2014 00:14:03
→ :推 應該還是加空白比較有用20F 05/02 00:13
→ :既然符號會清掉⑨代替9如何21F 05/02 00:14
→ :DELETE FROM *22F 05/02 00:14
推 :原來如此23F 05/02 00:14
推 :政府外包的那種案子跟google比太嚴苛了24F 05/02 00:15
推 :木倉~sha~M阿~英~nine 手丁~人到~國~民~黨25F 05/02 00:15
推 :我猜上一篇的做法,是針警方只拿到純文字檔,自己做前處理26F 05/02 00:15
推 :其實...有做,而且比你們想的都還強27F 05/02 00:15
→ :CKIP我覺得是拿來練IEEE的 最後還是去編字典 苦情阿~28F 05/02 00:16
→ :團隊裡鄉民不少,而且都很聰明,尤其對網路使用者的習性29F 05/02 00:16
我錯了QQ 真的有做
http://goo.gl/mV0ugN
Google
世界中のあらゆる情報を検索するためのツールを提供しています。さまざまな検索機能を活用して、お探しの情報を見つけてください。 ...
世界中のあらゆる情報を検索するためのツールを提供しています。さまざまな検索機能を活用して、お探しの情報を見つけてください。 ...
→ :有人要開發PTT直行文轉換器嗎XD30F 05/02 00:16
推 :覺得很可悲,台灣的網路居然也像中國一樣要一堆符號了..31F 05/02 00:16
※ 編輯: Goog1e (163.27.78.169), 05/02/2014 00:17:40→ :以前看文章都還笑他們的,今天我們的台灣也...QQ32F 05/02 00:17
推 :我去年買了個錶 這樣子?33F 05/02 00:17
假古文.NEO.RETRO.XpEX.1.0 | 传统中文排版工具 从右到左 从上到下 - Classic Chinese Character Typeset - typeset.ipcn.org 假古文.NEO.RETRO.XpEX.1.0 | 传统中文排版工具 从右到左 从上到下 - Classic Chinese Character Typeset IPCN Windtear typeset.ipcn.org ...
→ :6719 6638 2876 1172 0149 9735F 05/02 00:19
推 :結果搞到後來,最簡單的方式其實就是換掉國民黨…36F 05/02 00:20
→ :不過雖然簡單但是如果○○○不覺醒也沒用
→ :不過雖然簡單但是如果○○○不覺醒也沒用
推 :其實順序有差的,你提的字都很少,排列組合極少38F 05/02 00:21
→ :用錯輸入法導出正確結果 是跑演算法加權出來的可能值40F 05/02 00:21
→ :給你一篇文章裡有100個詞的,根本無法正確組句41F 05/02 00:21
→ :稍微不怎麼熱門的字就不會有什麼正確結果42F 05/02 00:22
→ :而且google方法是紀錄你是否重新搜尋,建立詞與詞的聯結43F 05/02 00:22
推 :不能跟google比啦44F 05/02 00:22
→ :你多用幾個名詞試試看就知道大概都是沒有的45F 05/02 00:22
→ :才會有那種打e04連得到幹的情況,總之,滿複雜的46F 05/02 00:23
→ :2012年中有陣子稍微熱門的就是中文字代換英文字密碼47F 05/02 00:24
→ :因為某資安論壇開講公佈像第一名易破解的密碼叫
→ :"PASSWORD" 後來就有好多人認為中文輸入法代換可讀
→ :性的作法非常有密碼強度
→ :不然普遍西方人記密碼都是一些簡單的英文單字
→ :因為某資安論壇開講公佈像第一名易破解的密碼叫
→ :"PASSWORD" 後來就有好多人認為中文輸入法代換可讀
→ :性的作法非常有密碼強度
→ :不然普遍西方人記密碼都是一些簡單的英文單字
推 :所以橫轉直有用嗎?52F 05/02 00:27
→ :一個?萬字的字典就可以破掉30%人的密碼 太糟糕了53F 05/02 00:27
→ :所以夾雜數字會好一點嗎@@54F 05/02 00:28
→ :不過中文斷詞系統難做主要是因為英文單字相比55F 05/02 00:29
推 :所以順序+空白或是特殊符號會有加強效果嗎56F 05/02 00:30
→ :一句話很難判斷分拆字詞的點 只能靠詞性去組57F 05/02 00:31
→ :當然有阿 排列組合可以強化密碼強度 當然暴力破解
→ :當然有阿 排列組合可以強化密碼強度 當然暴力破解
→ :ㄋㄚˋ ㄓㄨˋ 一ㄣㄨㄣˊ ㄋ?59F 05/02 00:33
→ :以宏觀來看就是時間問題 不過時間能造成問題他就有效60F 05/02 00:33
→ :回到中文上 這種東西要靠量去擴充他的字典
→ :回到中文上 這種東西要靠量去擴充他的字典
推 :加*不行麼62F 05/02 00:35
→ :所以其實也不是做不到 我一直覺得PTT現在有網址生成65F 05/02 00:38
→ :方便站外連結就可以讓RSS讀 明顯降低門檻
→ :就是data mining的好材料
→ :方便站外連結就可以讓RSS讀 明顯降低門檻
→ :就是data mining的好材料
→ :夾雜數字呢@@?68F 05/02 00:40
→ :不必再拿程式爬 用現成的東西就好了69F 05/02 00:42
推 :推。不過我認為首要是資訊完整,如果因為怕人查,70F 05/02 00:44
→ :那資訊如何流通?
→ :那資訊如何流通?
→ :哦我覺得極權政府對於言論自由的箝制普遍有其針對性73F 05/02 00:54
→ :像LYS好了大家都知道是糗爺 689是什麼 9.2是什麼
→ :那這並不妨礙資訊流通阿 所以只要有專職人員監管
→ :將使用者們意識上代換的字詞做攔截 那其實也就跟正確
→ :的字詞無異(就多一個嘛) 這就是人的厲害之處
→ :程式就很難寫出這麼彈性的做法
→ :同樣的不可能包羅萬象面面俱到 所以中國網友很愛縮寫
→ :養成這種怪習慣是怎麼來的?
→ :其實普遍網站的經營者手上都會有一份禁字表
→ :這不只是極權政府了 比如說兒童色情各式各樣的關鍵字
→ :經營者在登載資訊時就會避免這類字詞出現 像台灣
→ :禁制網路販賣醫療用品 那你賣個口罩就必須躲過這個字
→ :百度也可以餵它六四天安門事件阿 甚至反饋給你假訊息
→ :你可以查到人山人海的圖片 可就查不到坦克車壓學生
→ :這才是真正的限制言論自由 真正的侵犯人權
→ :像LYS好了大家都知道是糗爺 689是什麼 9.2是什麼
→ :那這並不妨礙資訊流通阿 所以只要有專職人員監管
→ :將使用者們意識上代換的字詞做攔截 那其實也就跟正確
→ :的字詞無異(就多一個嘛) 這就是人的厲害之處
→ :程式就很難寫出這麼彈性的做法
→ :同樣的不可能包羅萬象面面俱到 所以中國網友很愛縮寫
→ :養成這種怪習慣是怎麼來的?
→ :其實普遍網站的經營者手上都會有一份禁字表
→ :這不只是極權政府了 比如說兒童色情各式各樣的關鍵字
→ :經營者在登載資訊時就會避免這類字詞出現 像台灣
→ :禁制網路販賣醫療用品 那你賣個口罩就必須躲過這個字
→ :百度也可以餵它六四天安門事件阿 甚至反饋給你假訊息
→ :你可以查到人山人海的圖片 可就查不到坦克車壓學生
→ :這才是真正的限制言論自由 真正的侵犯人權
--
※ 看板: Gossiping 文章推薦值: 1 目前人氣: 0 累積人氣: 1261
作者 Goog1e 的最新發文:
- 最新進度是,呱吉他開始發文狂噴黃國昌了 有人在問為什麼他會這麼討厭黃國昌 答案是因為,他身為政治網紅的優越感,漸漸變成自卑感,所以對黃國昌充滿敵意 自卑感是因為網紅越做路越窄、訂閱數越來越少 當年剛 …549F 296推 31噓
- 106F 37推 35噓
- 開獎了!有板友中大獎嗎? 抽中冰島機票和iPhone的出來面對! 小獎名額有25000個,應該不難中 五獎、六獎、七獎 這邊查: 頭獎、二獎、三獎、四獎 中獎名單: 可口可樂特別獎: 大獎領獎注意事 …66F 37推 3噓
- 還原5檢座吃奢宴現場!78歲吳乃仁拄枴杖入席 美女秘書挨身伺候 ETtoday/劉昌松 民眾黨代理主席黃國昌昨指出,台北地檢署檢察官徐名駒等人,上月底與因售地案遭判刑定讞的台糖前董事長吳乃仁在高檔餐 …14F 5推 3噓
- 快訊/蘿拉沉默7個月首發聲! 「反咬蔡阿嘎」爆料:幫公司做太多骯髒事 ETtoday 蔡宜芳/綜合報導 百萬YouTuber蔡阿嘎今年5月指控元老級員工蘿拉(林沛蓁)透過AB合約不法牟利,沒想到在2 …654F 299推 82噓
點此顯示更多發文記錄
回列表(←)
分享