大數據年代的來臨


Gnip Seth 告訴我他公司每個月整理超過100億條網上社區留言是往年的三倍不動聲色地大數據年代已經來臨

今天海量的網絡數據都是像微博留言般沒有固定結構傳統的數據處理方法要整理這些材料已經捉襟見肘。硬件的突飛猛進固是這個大數據年代的催化劑; 20年前要儲存1GB的數據需要一個像冰箱般大的儲容器成本大約需1千美元今天小小一條手指便已足夠成本大約是1角。

但當硬件不再是樽頸如何處理這些來自FacebookTwitterYouTube…等的資訊卻變得越來越具挑戰性。今天很多西方科學家都利用不同的方法包括計算語言學(Computational linguistics)去梳理這些沒有一定法規的文字計算語言學是 “一門跨學科的研究領域試圖找出自然語言的規律建立運算模型最終讓電腦能夠像人類般分析理解和處理自然語言 …(Wikipedia)“早期的應用包括機器翻譯和語音識別

GnipDatashift是美國兩家領先的網上數據處理公司。Gnip是英文Ping的倒寫,Ping在電腦網絡語言中是一種程式,用來測試資料的接收率和網絡時延,因為這個程式的作用和潛水艇的聲納相似,所以便被稱作PingGnip的客戶包括九成的《財富500》公司,這些客戶因應不同的市場調查需求,希望在網絡社區中發掘一些重要的訊息,例如某大汽車生產商想知道那一位意見領袖最能夠影響消費者對該款汽車的感覺,Gnip的任務是作為一個數據綜合商(data aggregator),整理這些資料,再轉發給客戶研究。

近年,越來越多財經分析師嘗試利用社交網絡上的留言去預測短期的股市走勢。兩年前,美國對沖基金Derwent Capital宣佈成立一以分析Twitter內容作投資的對沖基金,Derwent後來改變策略,自己不當基金經理,改為出售投資訊號。

Twitter在中國的再生物是微博,新浪微博號稱有超過4億用戶,QQ更不止此數,微博在中國網民的滲透率是不容置疑的。大陸的股市,今天仍然是散戶主導,相對起世界其他主要市場的股民,大陸的股民更跟風更短線,按此道理,微博上的資訊對短線炒賣應該更具指導性。
我因為和國內的南方報業集團共同投資了一國內的財經社區(SNS) ,名字叫《投資脈搏》(www.iMAIBO.net) ,內容以A股為主,財經社區在國內仍是新生事物,網站為了突出自己的定位和增加用戶參與率,每天在平台上邀請用戶預測當天的市場走勢,然後將數據綜合為一情緒指數,再運用獨家的數量程序,結合其他市場因素,提出買賣建議,這是我們網站未來的殺手鐧 (killer-app)

二十多年前,我在國外投行工作,職責是開發數量模式來進行投資活動。今天,因緣際會,因為做了財經社區網站的天使投資者,走進大數據的大觀園,內裏的五花八門,實在令我目炫,但願能夠找到一些應用在中國市場的秘方。

(於2013年1月28日刊登於明報)  

留言

熱門文章