- 作(zuò)者:admin
- 發表時(shí)間(jiān):2018-07-30 10:16:27
- 來(lái)源:未知
文/ 瘋狂藥師(shī) 來(lái)源:阿爾法工場(chǎng)(alpworks)
全球股票(piào)市場(chǎng)正在演化為(wèi)一個(gè)數(shù)據戰場(chǎng)。
如我們所知,在股票(piào)市場(chǎng)中,誰有(yǒu)數(shù)據信息優勢,誰就具備收獲超額收益的可(kě)能。
問題是,該如何提前獲得(de)數(shù)據呢?恐怕多(duō)數(shù)人(rén)首先想到的是內(nèi)幕信息。
殊不知,通(tōng)過對公開(kāi)數(shù)據的收集和(hé)加工,并應用于投資,也是可(kě)以獲得(de)這種優勢的。
迄今,在以華爾街(jiē)為(wèi)中心的全球股票(piào)市場(chǎng)中,機構投資者通(tōng)過網絡爬蟲技(jì)術(shù)獲取領先數(shù)據,進而赢得(de)收益戰争的現象已越來(lái)越普遍。
就中國市場(chǎng)而言,通(tōng)過藥師(shī)的走訪調研得(de)知,中國私募機構們運用爬蟲技(jì)術(shù)的現象亦正日趨增多(duō)。其中主力,則多(duō)為(wèi)那(nà)些(xiē)此前率先涉事量化交易的私募機構們。
這類爬蟲私募是如何運作(zuò)的,藥師(shī)這就為(wèi)你(nǐ)揭示。
爬蟲:我隻是信息的搬運工
所謂爬蟲,是一種能自動獲取網頁內(nèi)容,并可(kě)以按照指定規則提取相應內(nèi)容的程序。
用大(dà)白話(huà)來(lái)說,爬蟲就是一個(gè)探測機器(qì),它的基本操作(zuò)就是模拟人(rén)的行(xíng)為(wèi)去各個(gè)網站(zhàn)溜達,點點按鈕,查查數(shù)據,把看到的信息背回來(lái)。
作(zuò)為(wèi)一種常用的收集數(shù)據手段,爬蟲往往會(huì)被數(shù)據采集公司,用來(lái)搜索出現在公共網站(zhàn)、社交媒體(tǐ)、在線社區(qū)、郵件插件上(shàng)可(kě)能有(yǒu)價值的信息。
例如從應用程序和(hé)用戶評論的下載,到航空(kōng)公司和(hé)酒店(diàn)通(tōng)過票(piào)務網站(zhàn)接收預訂的信息。
爬蟲可(kě)以跟蹤很(hěn)多(duō)東西,從雜貨到汽車(chē)銷售的價格趨勢。
分析師(shī)可(kě)以通(tōng)過抓取消費者網站(zhàn)上(shàng)産品的評論,來(lái)評估新産品的推出和(hé)産品生(shēng)命周期。
下圖展示的一家(jiā)數(shù)據公司,不僅提供多(duō)家(jiā)在美上(shàng)市公司的領先數(shù)據,還(hái)提供相關的投資分析服務。
包括特斯拉(NASDAQ:TSLA)的庫存數(shù)據,以及各社交網絡上(shàng)和(hé)用戶的交互數(shù)據。
以及,不久前在香港上(shàng)市的小(xiǎo)米(HK:01810)的社交網站(zhàn)的數(shù)據。
當然,這是免費版的界面,相信付費版中提供的內(nèi)容會(huì)更加豐富。
下面這家(jiā)數(shù)據分析公司,更是覆蓋多(duō)家(jiā)已經上(shàng)市的中概股,其中就包括剛剛登陸美股的拼多(duō)多(duō)(NASDAQ:PDD)的數(shù)據。
在一位匿名業內(nèi)人(rén)士看來(lái):“對于爬蟲技(jì)術(shù)而言,難點主要在于反抓取上(shàng),被爬取方可(kě)能會(huì)針對IP、頻次、請(qǐng)求習慣等方面做(zuò)一些(xiē)分析和(hé)限制(zhì),也會(huì)有(yǒu)圖形驗證碼等人(rén)機驗證手段防止爬取。”
他進一步表示:“其次的難點就不是爬蟲的問題了,而在于龐大(dà)數(shù)據的分析和(hé)清洗上(shàng),怎麽從看似雜亂的數(shù)據中分析出自己想要的內(nèi)容,也是很(hěn)需要技(jì)術(shù)含量的。”
比CEO更了解企業運營狀況
作(zuò)為(wèi)國內(nèi)較早将爬蟲技(jì)術(shù)應用于投資領域的保銀投資,近年來(lái)的投資可(kě)謂穩紮穩打,收益方面也是節節攀升。
究竟是如何做(zuò)到上(shàng)述這些(xiē)的?基金經理(lǐ)李墨給出了答(dá)案。
“為(wèi)了有(yǒu)效緊密跟蹤交易性機會(huì),充分尋找上(shàng)市公司各類蛛絲馬迹,目的是做(zuò)到比CEO更了解财務狀況,也比CFO更了解運營情況。首先要做(zuò)的,就是設置互聯網爬蟲系統緊密各類數(shù)據和(hé)信息。”保銀投資基金經理(lǐ)李墨表示。
具體(tǐ)來(lái)看,觀察産品價格背後的供需情況,以酒店(diàn)為(wèi)例,經濟型酒店(diàn)房(fáng)價處于動态變化,經營者根據入住情況不斷調整價格。因此,可(kě)以從線上(shàng)預定網站(zhàn)或線下渠道(dào),了解客源情況,并做(zuò)進一步微觀信息挖掘,深度了解運營能力。
通(tōng)過類似這樣的數(shù)據分析,就容易找到行(xíng)業內(nèi)公司間(jiān)的差異性,通(tōng)過運用股票(piào)多(duō)空(kōng)策略,就可(kě)以實現較為(wèi)穩健的獲利。
“比如說做(zuò)多(duō)招行(xíng)(SH:600036)做(zuò)空(kōng)農行(xíng)(SH:601288),那(nà)麽隻要招行(xíng)比農行(xíng)跌的少(shǎo),我就能賺錢(qián)。招行(xíng)比工行(xíng)農行(xíng)漲得(de)多(duō)也賺錢(qián),招行(xíng)比農行(xíng)好這件事情大(dà)概率是比較确定的。”保銀投資副總裁馬肸珣表示。
類似的例子,還(hái)有(yǒu)做(zuò)多(duō)吉利汽車(chē)(HK:00175),做(zuò)空(kōng)長城汽車(chē)(HK:02333)。
超額收益的來(lái)源:政策和(hé)情緒
“對于具有(yǒu)典型政策市特征的中國股市而言,通(tōng)過對官媒信息的有(yǒu)效分析,有(yǒu)助于判斷國家(jiā)政策變化。”某量化私募人(rén)士透露。
“以計(jì)劃生(shēng)育政策為(wèi)例,通(tōng)過對獨生(shēng)子女政策關鍵詞在官媒上(shàng)出現頻率的跟蹤,有(yǒu)助于預測政策變化。”上(shàng)述人(rén)士進一步表示。
“另外,個(gè)人(rén)投資者情緒的準确捕捉,對投資中國A股市場(chǎng)也至關重要。對社交媒體(tǐ)的有(yǒu)效分析,是獲得(de)中國A股超額收益的關鍵,因為(wèi)個(gè)人(rén)投資者占據了A股市場(chǎng)很(hěn)大(dà)一部分的交易量。”上(shàng)述人(rén)士透露。
他進一步表示:“我們每月都會(huì)通(tōng)過爬蟲抓取超過 200 萬篇的股評文章,從‘股吧(ba)’中每天讀取約 10 萬個(gè)帖子信息,用于觀察個(gè)人(rén)投資者情緒。發現個(gè)人(rén)投資者在網絡上(shàng)所發布的相關股票(piào)信息,可(kě)用于對相關股票(piào)未來(lái)收益的預測。”
“具體(tǐ)來(lái)看,高(gāo)度活躍的股票(piào)信息交流,通(tōng)常預示着相反的市場(chǎng)走勢;持續一緻的積極觀點,預示着潛在的市場(chǎng)高(gāo)預期表現。”上(shàng)述量化私募人(rén)士解釋道(dào)。
爬蟲:私募超額收益的下一個(gè)來(lái)源
華爾街(jiē)對于超額收益的追求從來(lái)沒有(yǒu)停下過腳步,在過去的 150 年中,超額收益的來(lái)源平均每 10 至 20 年就要變化一次。在 20 世紀 50 年代,最初的對沖基金發明(míng)了股票(piào)多(duō)空(kōng)策略;在 20 世紀 80 年代,數(shù)學和(hé)計(jì)算(suàn)機比手持式計(jì)算(suàn)器(qì)更具優勢;在 21 世紀初,超額收益來(lái)源于高(gāo)頻交易。
這些(xiē)策略或工具,一度讓那(nà)些(xiē)能夠首先使用它們的人(rén)比其他人(rén)更有(yǒu)優勢。
但(dàn)随着它們變得(de)越來(lái)越普遍,它們的優勢消失了,投資者不得(de)不尋找新的策略工具。
目前看來(lái),“爬蟲”當道(dào)的今天,使用那(nà)些(xiē)由海量數(shù)據掩蓋下的獨特、領先信息,或将成為(wèi)私募超額收益的下一個(gè)來(lái)源。