跳到主要內容區塊
:::
課程
Aug 08, 2018
2018/08/18(六)-08/19(日)R網路爬蟲與文字探勘入門實作
課程
Aug 08, 2018

報名網址:
https://www.beclass.com/rid=213ee8d5b2b584740966

課程介紹:
網路爬蟲,也叫網路蜘蛛,原意是指一種用來自動瀏覽全球資訊網的網路機器人。隨著大數據時代來臨,網頁資料擷取的需求急遽增長,因網頁資料擷取與網路爬蟲的技術許多重疊,因此經常通稱為爬蟲。藉著爬蟲技術,短時間內取得最新的輿情資訊已是業界掌握市場脈動的必備手段之一。

課程目標:
本課程將帶領學員從零開始,透過資料科學領域最夯同時也是最簡單的R語言開啟網頁資料擷取的大門,提供許多實戰案例及現場指導實作,讓學員於學習過程中不只獲得技能也獲得成就感。不過,獲得文字資料只是進行探勘分析的前置作業,為了讓學員能對完整解決方案有進一步的瞭解,此課程也包含文字資料探勘的入門內容,讓學員能從爬蟲到分析一網打盡。

為何學習爬蟲:

  • 爬蟲為數據蒐集的一種手段,是做數據分析的必備技能之一。
  • 爬蟲能快速大量的擷取網路上你感興趣的內容資訊。
  • 爬蟲是入門程式語言最容易學習的方向。
  • 網路爬蟲工程師為目前資料科學產業的常見職缺之一。

適合對象:
※無程式經驗者。
※資料科學家、資料工程師。
※公司各部門與各階層決策人員。
※對於此議題有興趣者。

課程時間及優惠:
課程天數:2天;上午9:00至下午5:00(中午休息1小時)
原價10,800元整 (含上課講義、16小時研習證明與午餐)
早鳥(8月5日前)/舊生:6,800元/人 
二人以上團體:6,000元/人

四人以上團體:5,500元/人

講師介紹:
AsiaAnalytics特聘專業講師:湯明軒 Andrew

經歷:

  • 迅達國際有限公司 資料科學家
  • 中強光電股份有限公司 資料分析工程師
  • 中華R軟體學會 秘書長

專攻領域:
資料科學、網頁爬蟲、Python、R語言、機器學習

教學經驗:

  • TQC Python證照輔導班 課程講師
  • 資策會課程講師
  • 金融研訓院課程講師

課程大綱:

課程主題

詳細內容

時數

R語言從0到1

  1. 向量與資料框架
  2. 流程控制與迴圈
  3. UTF-8與BIG5編碼轉換
  4. 資料檔案讀取與匯出

2

如何與網頁對話

  1. GET傳送請求
  2. POST傳送請求
  3. 網頁監聽工具應用

2

網頁原始碼解析

  1. 網頁架構理解
  2. XPath運用
  3. 原始碼定位技巧

2

初階實戰練習

  1. YAHOO電影排行
  2. 批踢踢留言擷取

1

進階爬蟲技巧

  1. 偽裝Headers、Cookies
  2. 會員登入並保留Session

1

進階實戰練習

  1. Instagram照片擷取
  2. Facebook Graph API運用
  3. 多頁面資料擷取

3

文字資料探勘入門

  1. 中文斷詞套件運用
  2. 文件詞項量化
  3. 詞頻計算與文字雲
  4. 計算文件或詞項相似度

3