Collaborative Filtering Using GraphLab for Implicit Dataset¶

Objective : Apply a recommender of collaborative Filtering to propose recommendation to new users (with no transaction)¶

Note: Graphlab's recommender is able to compare all suitable/ relevant model, and select the best model as a recommender.

Step 1 of 4: Upload Relevant Libraries¶

Note: Need to sign up for academic license for the use of Graphlab's Library & Python 2 only.

import pandas as pd
    import graphlab as gl

Step 2 of 4: Download & Prepare Dataset¶

Note: print the data to check if the dataset has been imported correctly

df = pd.read_csv('dataset\dataset02_master.csv', sep = ',')
    print(df.head(5)) ## check data

D:\Program Files\Anaconda2\envs\gl-env\lib\site-packages\IPython\core\interactiveshell.py:2723: DtypeWarning: Columns (8) have mixed types. Specify dtype option on import or set low_memory=False.
      interactivity=interactivity, compiler=compiler, result=result)

     Type    Card_ID  SegmentNo Gender  Age Age_Grp  Length_of_Membership_MTH  \
    0  Active  104829316          5      F   40   35-44                         0
    1  Active  101480021          5      M   44   35-44                         0
    2  Active  104219628          5      M   21   15-24                         0
    3  Active  104219628          5      M   21   15-24                         0
    4  Active  106272169          5      M   29   25-34                         0

      Membership_Grp           pdt_type  total_count
    0        <= 1 YR    MP3Players_high          2.0
    1        <= 1 YR    MP3Players_high          2.0
    2        <= 1 YR  MP3Players_medium          2.0
    3        <= 1 YR    MP3Players_high          1.0
    4        <= 1 YR    Hardware_medium          1.0

2 datasets are required - (1) recommendation filtering , (2) User's information¶

# Step 1: Prepare Datatset 

    ## Set 1, dataset for recommendation filtering
    df_all = df[['Card_ID','pdt_type']].astype(str)

    ## Set 2, dataset for user info
    df_user_data = df[['Card_ID','Gender', 'Age', 'Age_Grp',
           'Length_of_Membership_MTH', 'Membership_Grp','Type']].\
           drop_duplicates().reset_index(drop = True)
    df_user_data.astype(str)

    ## convert into S-Frame
    df_all_SFrame = gl.SFrame(df_all)
    df_user_data_SFrame = gl.SFrame(df_user_data)

This non-commercial license of GraphLab Create for academic use is assigned to hanying.ong.2015@mitb.smu.edu.sg and will expire on June 10, 2018.

[INFO] graphlab.cython.cy_server: GraphLab Create v2.1 started. Logging: C:\Users\HANYIN~1.201\AppData\Local\Temp\graphlab_server_1497427481.log.0

Step 3 of 4 : Create recommendation model¶

all_model = gl.recommender.create \
                    (df_all_SFrame, user_id='Card_ID', item_id='pdt_type',\
                    user_data=df_user_data_SFrame)

    recs_final  = all_model.recommend()
    results_final= recs_final.to_dataframe()

Recsys training: model = ranking_factorization_recommender

Preparing data set.

    Data has 251946 observations with 280264 users and 22 items.

    Data prepared in: 1.48602s

Training ranking_factorization_recommender for recommendations.

+--------------------------------+--------------------------------------------------+----------+

| Parameter                      | Description                                      | Value    |

+--------------------------------+--------------------------------------------------+----------+

| num_factors                    | Factor Dimension                                 | 32       |

| regularization                 | L2 Regularization on Factors                     | 1e-009   |

Step 4 of 4 : Keep records of "New Users Only" (Cluster 7)¶

## keep only customers from cluster 7 : New customers

    df_user_data_7 = df[df.SegmentNo == 7].astype(str)
    results_final_7 = df_user_data_7['Card_ID'].isin(results_final['Card_ID'])

    results_final_7 = results_final[results_final['Card_ID'].\
                                           isin(df_user_data_7['Card_ID'])].\
                                           reset_index(drop = True)

## output into csv file for further analysis & visualization in tableau
    df_user_data_7.to_csv('dataset\dataset_final_all_user.csv', header = True, index= True, sep='\t', encoding='utf-8')
    results_final_7.to_csv('dataset\dataset_final_all.csv', header = True, index= True, sep='\t', encoding='utf-8')