大數據年代的來臨
Gnip 的 Seth 告訴我,他公司每個月整理超過100億條網上社區留言,是往年的三倍。不動聲色地,大數據年代已經來臨。
今天,海量的網絡數據都是像微博留言般沒有固定結構,傳統的數據處理方法要整理這些材料,已經捉襟見肘。硬件的突飛猛進,固是這個大數據年代的催化劑; 20年前要儲存1GB的數據,需要一個像冰箱般大的儲容器,成本大約需1千美元,今天小小一條”手指”便已足夠,成本大約是1角。
但當硬件不再是樽頸,如何處理這些來自Facebook,Twitter,YouTube…等的資訊,卻變得越來越具挑戰性。今天,很多西方科學家都利用不同的方法包括計算語言學(Computational
linguistics)去梳理這些沒有一定法規的文字,計算語言學是 “…一門跨學科的研究領域,試圖找出自然語言的規律,建立運算模型,最終讓電腦能夠像人類般分析,理解和處理自然語言
…(Wikipedia)“,早期的應用包括機器翻譯和語音識別。
Gnip和Datashift是美國兩家領先的網上數據處理公司。Gnip是英文Ping的倒寫,Ping在電腦網絡語言中是一種程式,用來測試資料的接收率和網絡時延,因為這個程式的作用和潛水艇的聲納相似,所以便被稱作Ping。Gnip的客戶包括九成的《財富500》公司,這些客戶因應不同的市場調查需求,希望在網絡社區中發掘一些重要的訊息,例如某大汽車生產商想知道那一位意見領袖最能夠影響消費者對該款汽車的感覺,Gnip的任務是作為一個數據綜合商(data
aggregator),整理這些資料,再轉發給客戶研究。
近年,越來越多財經分析師嘗試利用社交網絡上的留言去預測短期的股市走勢。兩年前,美國對沖基金Derwent
Capital宣佈成立一以分析Twitter內容作投資的對沖基金,Derwent後來改變策略,自己不當基金經理,改為出售投資訊號。
Twitter在中國的再生物是微博,新浪微博號稱有超過4億用戶,QQ更不止此數,微博在中國網民的滲透率是不容置疑的。大陸的股市,今天仍然是散戶主導,相對起世界其他主要市場的股民,大陸的股民更跟風、更短線,按此道理,微博上的資訊對短線炒賣應該更具指導性。
我因為和國內的南方報業集團共同投資了一國內的財經社區(SNS)
,名字叫《投資脈搏》(www.iMAIBO.net) ,內容以A股為主,財經社區在國內仍是新生事物,網站為了突出自己的定位和增加用戶參與率,每天在平台上邀請用戶預測當天的市場走勢,然後將數據綜合為一”情緒指數”,再運用獨家的數量程序,結合其他市場因素,提出買賣建議,這是我們網站未來的殺手鐧
(killer-app) 。
二十多年前,我在國外投行工作,職責是開發數量模式來進行投資活動。今天,因緣際會,因為做了財經社區網站的天使投資者,走進大數據的大觀園,內裏的五花八門,實在令我目炫,但願能夠找到一些應用在中國市場的秘方。
(於2013年1月28日刊登於明報)
(於2013年1月28日刊登於明報)
留言
發佈留言