什麼是機器學習(MachineLearning)

|

機器學習

機器學習(Machine Learning),是用過往資料以及經驗中自動分析並找到運行規則,然而對未知的資料進行預測的演算法

機器學習透過樣本訓練機器然而做出運作,簡單來說就是從資料中得到函數學習並且創造演算法,利用它做預測

從資料中學習

機器學習是透過以下步驟進行預測資料

  1. 需要資料(訓練模型)

  2. 從資料中學習

  3. 從步驟二中所學習到的經驗,用來分類該未曾發現見過資料,並預測

機器學習方法

  1. 監督式學習:在訓練過程中提供物件及預期輸出,可以是有標籤的資料,對人來說最辛苦,但準確性最高,例如:訓練機器預測照片是貓還是狗,會提供50張貓及狗的照片,機器會依標籤照片去偵測貓與狗的特徵,依照這些特徵進行預測

  2. 半監督式學習:對少部分資料輸入標籤,電腦透過有標籤的資料找出特徵並進行分類,準確性較非監督式學習高,例如:共有50張照片,其中10張輸入標籤哪些是狗,哪些是貓,機器會透過這10張照片的特徵去辨識照片的種類,因為已經有辨識的依據,所以結果較非監督式學習高

  3. 非監督式學習:不需事先輸入標籤,只提供案例,對人來說最輕鬆,已沒有標準答案的資料來訓練機器,讓機器自動找出可能的規則應用到新案例上,所以誤差較大,例如:機器需自行判斷50張照片中,哪些特徵是貓、哪些特徵是狗。預測時則依照自行分類的特徵去辨識動物種類,所以結果誤差會較大

  4. 增強學習:機器透過每一次與環境的互動來學習,來產生最大利益的行為,不需輸入標籤,但告訴機器它的行為是否正確透過回饋的好壞讓機器逐步調整,最終得到正確的結果,例如:把貓當作狗,人就給予錯誤訊息,機器會再次辨認特徵及分類,透過一次次的學習,讓預測結果越來越準確

該如何選擇資料來訓練機器

特徵(Feature)

透過特徵來訓練機器,例如:要區分貓和狗,可以將特徵分為鼻子以及耳朵,兩個特徵代表著一個二個維度

下圖中,訓練完後,線性模型會依照一條線來區分貓或是狗,當有新資料輸入時,則依照線來區分貓或是狗

pic

但是選擇的特徵也很重要,因為有些特徵是不足以劃分資料,假如今天選的特徵是腿的數量,可能就沒辦法分辨,因為貓與狗都是四條腿的動物。

準備充足的資料

一但確定特徵後,就要開始找到足夠且無偏差的訓練資料,ML會透過這些資料來學習

ML無法分辨他不知道的東西

依照下列表格進行特徵學習

腿數 顏色 動物
4 黑色
2 白色

今天有一份關於鴨的資料(特徵如下),但因為ML只知道狗和雞而已,所以將認定為”雞”,因為這是最接近的結果

腿數 顏色 動物
2 白色

參考資料:

Comments