2013年12月7日 星期六

從『玩股網驚魂記』談大禹治水


        楚狂人的『玩股網』前陣子發文公告系統不穩的情形,這兩天他寫了篇『玩股網驚魂記』說明了前因後果,看完後覺得可以當作一個個案解析的案例。

        先談談文章所說最後發現玩股網無法正常運作的結論:被大量的 Crawler(網路爬蟲抓資料導致伺服器過於忙碌。開頭原本說判斷這應該不是駭客攻擊,其實就結果來看,這也算是一種攻擊手法:分散式服務阻斷式攻擊DDoS

        以這個結果來說,所謂前十大知名網站工程師竟然花了這麼多天,繞路這麼久才發現問題根源,令我眼睛脫窗。整個查案過程,我看到的是普遍台灣工程師在幹的『土法煉鋼法』:也就是瞎子摸象、邊猜邊測邊找、從錯誤中排除可能

        沒有透過善用工具,用系統化的方式找問題,完全依賴工程師過往的經驗;也就是工程師曾經遇過的狀況,列舉逐一做實驗排除,遇到不曾遇過的狀況就攤手。文章描述的期間可以看到物力平白浪費錢多買新的等級主機卻沒有對症下藥人力工程師白花力氣熬夜加班卻只有苦勞沒有功勞)與營業損失長達數周網站無法提供完整功能,影響客戶與事後補償)。

        由於玩股網採用的是 .NET 與微軟 Windows Server 技術平台,在此平台上如何有系統的找出系統問題,之後我打算另外寫一篇文章分享個人 SOP 的做法流程沒辦法,年底了要趕快湊齊部落格的年度目標的文章數量,拆成兩篇比較賺),希望可以幫助其他公司與 IT 從業人員儘快鎖定問題根源,減少瞎子摸象、耗時耗力造成的經營損失。

        但在此之前,我想先從商業觀點談談這個案例背後可能的商業機會!所謂危機就是轉機,這件事在我看來怎麼樣都是玩股網個可以獲利的機會

        目前他們的做法是阻擋這些來竊取資料的不明 IP,若以古代治水方法來說,採用的是大禹的父親 - “鯀”的治水法阻擋

        這方式就算奏效,也是增加管理的複雜度,不堪其擾

        其實想想,有這麼多 Crawler 來爬網站的資料,代表市場上有這樣的需求在,為什麼,玩股網不乾脆開發一組 Web API 開放給外界用標準且正確的方法來撈資料?而且,這組 API 可以跟外界收取月費增加網站盈利

        就算 API 是免費提供,對玩股網一樣有以下好處:
  1. API 以獨立伺服器運作,與一般使用者瀏覽的網站伺服器切割,無論是流量多大,被打爆的是 API 伺服器,不會影響一般上網的使用者
  2. 易於管理,對 API 的使用者提供申請認證,可以真正掌握資料使用量的大戶,分析潛在B2B 客戶,增加日後商業合作的談判籌碼
        免費開放就有以上好處,若是收費,只要價錢合宜,也會有效引開爬蟲的流量。因為:
  1. 寫爬蟲也是花力氣成本的:寫爬蟲的人最討厭解析不規則的 HTML,也最怕網站不預期地改版網頁結構,導致爬蟲程式抓錯資料。如果官方提供標準格式的 API,將節省爬蟲的開發與維護成本,不用擔心哪天網頁改版。
  2. 商業依賴:如果爬蟲作者的自己經營的服務重度依賴玩股網的資料,最怕無預警地 IP 被阻擋,導致自己的服務也停擺,如果付點小錢就可以保證資料取得的穩定性,這是非常划算合理的交易。
        由於本人 IT 服務產業也是 Crawler 盛行的產業,上述的經營或是操作方式是確定有市場和可行性的

        以上,是我認為玩股網可以思考的『大禹治水法』,用『雙贏的思考』、『導引取代阻擋』,或許是一個更好的決策模式。

Google+ Badge