Thuật toán Apriori khai phá luật kết hợp cách dùng trong php-ml

0
313

Trong lĩnh vực Data Mining, mục đích của luật kết hợp (Association Rule – AR) là tìm ra các mối quan hệ giữa các đối tượng trong khối lượng lớn dữ liệu. Nội dung cơ bản của luật kết hợp được tóm tắt như dưới đây.

Dưới đây là 1 bài toán mà chúng ta cần giải quyết .Chúng ta có các dữ kiện như sau :

Hiện trạng : 1 website thương mại điện tử có cơ sở dữ liệu sử dụng mongodb chứa danh sách sản phẩm,danh sách khách hàng mua hàng,website xây dựng trên farmwork yii2 .website xử dụng elastic search để xử lý dữ liệu khách hàng nhập vào tìm kiếm

Bài toán đặt ra là nâng cao khả năng mua hàng của khách hàng bằng cách sử dụng php-ml xác định dự đoán được sản phẩm tiếp theo mà khách hàng sẽ mua dựa trên mẫu khách hàng trước đó đã từng mua

Hướng giải quyết sử dụng thuật toán Apriori để giải quyết

Từ bài toán dữ liệu ta có để train php-ml đó là danh sách khách hàng đã mua sản phẩm .Dữ liệu nhập vào đó chính là sản phẩm khách hàng đang xem ,lịch sử khách hàng đã xem trên web .dữ liệu đầu ra là sản phẩm nào sẽ hiển thị ở trang tiếp theo mà khách hàng đã xem ,xác định dữ liệu sản phẩm mà khách hàng truy cập vào tiếp theo

Dự liệu khách hàng đã mua gồm id,họ tên,danh sách sản phẩm khách hàng mua,email khách hàng ………………….

Đầu tiên chúng ta cần train dữ liệu với các tập dữ liệu ta đã có .Ở đây mình có 1 tệp demo và xác thực như sau .Demo này mình dùng yii2 và php-ml .Thực tế thì chỉ cần biến support chỉ cần 0.05 nghĩa là 5% là đã quá ok rồi

Demo thực tế bằng yii2

public function actionApriori()
  {
    // thuật toán Apriori
    $samples = [['iphone', 'tainghe', 'mayanh'], ['mayanh', 'tainghe', 'blackberry'], ['iphone', 'blackberry', 'tainghe'], ['ipad', 'tainghe', 'chuot'], ['ipad', 'tainghe', 'tainghe']];
    $labels = [];
    // $support tức ngưỡng niềm tin là tỷ lệ mẫu có chứa cả X và Y đối với một quy tắc "nếu X thì Y"
    // $confidence tức là ngưỡng tối thiểu của sự tự tin , tức là tỷ lệ mẫu có chứa cả X và Y đối với những chứa X
    $associator = new Apriori($support = 0.4, $confidence = 0.5);
    $associator->train($samples, $labels);
    // dự đoán kết quả 
    $result = $associator->predict(['blackberry']);
    // return [['tainghe']]
    var_dump($result);
  }