基于同城同校的推荐--（1）

import mysql.connector

conn=mysql.connector.connect(host='',user='',password='',port='',database='')
#远程连接
cursor=conn.cursor()

cursor.execute('select * from table')
#执行sql语句操作
t=cursor.fetchall()
#返回读取的所有行
df=pd.DataFrame(t,columns=[,])
#转为dataframe

#填充nan法1
udf.loc[np.isnan(df.C),'C']=-1

#dataframe.astype(int)---数据框修改列类型

df=df.fillna(-1)#---------------填充nan法2

cursor.close()#关闭sql连接

data=data.combine_first(df)#df填补data的缺失项

data=pd.merge(data,user_df,on='C')#data与df根据C列，合并，列增多。

https://www.cnblogs.com/bambipai/p/7668811.html

python pd合并数据：

1. pandas.merge和实例方法join实现的是列之间的连接，以DataFrame数据结构为例讲解，DataFrame1和DataFrame2必须要在至少一列上内容有重叠，index也好，columns也好，只要是有内容重叠的列即可，指定其中一列或几列作为连接的键，然后按照键，索引DataFrame2其他列上的的数据，添加DataFrame1中。通过设置merge参数'on'，'left_on'，'right_on'可以指定用来连接的列（即关键的重复内容列），也可以将index作为连接键，只要传入left_index=True或right_index=True（或两个都传）来说明索引被用作连接键。

2. 实例方法join默认通过index来进行连接。

join方法也可以通过列来连接，同样设置参数‘on’即可。

3. 上面介绍的函数实现的均是列之间的连接，要实现行之间的连接，要使用pd.concat方法。

concat默认在axis=0上工作（沿着负y轴的方向），当设置axis=1时（沿着x轴的方向），它同时也可以实现列之间的连接，产生一个DataFrame。

4. 最后一个实例方法combine_first，它在为数据“打补丁”：用参数对象中的数据为调用者对象的缺失数据“打补丁”。

简单总结来说，通过merge和join合并的数据后数据的列变多，通过concat合并后的数据行列都可以变多（axis=1)，而combine_first可以用一个数据填充另一个数据的缺失数据。

recommend_list.py----建立海外用户的数据框，建立所有有性别有地址信息的用户的对列

from sql import city_df #跨模块直接使用sql.py中的变量，但是可能会造成重名。

user=df[(df['C1']>3)|(df['C2']>1)|(df['3']>2)]#多条件筛选

abroad_user=df[(df==-1).astype(int).sum(axis=1)<7]#筛选出df中存在项为-1的，且-1个数小于7个的行（按行进行）

df=df[~(df.C.isin(abroad_user))]#df减去df中列C存在于abroad_user中的行

#按行遍历df
for index_x in df.index:
    if df.loc[index_x,'C']!=-1: 
        i=df[df['C']==data.loc[index_x,'C']].index#返回符合条件记录的index
        df.loc[index_x,pro]=df.loc[i,'C_P'].values#返回此项的值，并赋值给其他df中的一项

#df中某一项的值必须用df[i,'C'].values显示


columns_key=('c','a')#dict的key必须是tuple（不可变），不能是list
c_values=(8,2)
columns={columns_key:columns_values}#建立dict
for k,v in columns.items():#遍历dict：dict.keys()或者dict.values()或者dict.items()
   for i in range(7):
       if user.values[0][v[i]]!=-1:#某一行user的列值.values[0]，具体第几个值[num]
             a=user.values[0][v[i]]
             r=list(r[r[k[i]]==a].C.values)#r[k[i]]--根据列名查找
             for rec in r:
                 r.append(rec)#将查找的值append进list

           
    list_1=[]#list去重，并保留顺序
    for i in r:
        if i not in list_1:
            list_1.append(i)
    #去重，不保留顺序：
        #list(set(list_1))
        #或者
        #import itertools
        #list_1.sort()
        #it = itertools.groupby(list_1)
        #for k, g in it:
        #print k

#dict追加键值对dict.setdefault(key,value)
dict={}
dict.setdefault(key,values)

main.py--输入d，输出推荐列表

from collections import deque#双头对列
import random#随机


class User(object):#定义calss
    def __init__(self,id):
       self.id=id      
       if self.id in dict.keys():#建立对列deque(list)
           que=deque(dict.get(self.id))#dict中，根据key值返回对应values值   
           #对列长度len(deque)
           que.extend(r[c])#在队列尾追加对列
           random.sample(list,count)#在一个可迭代对象类型中中随机选择count个不重复的值


#class的__call__(self)方法，将方法变为属性，可以直接调用实例，就能运行方法。                               
    def __call__(self):
        que.popleft()#从队列左侧弹出
        que.insert(index,object)
           
if __name__=='__main__':
    id=input()   #input输入为str     
    user=User(int(id))      
    user() #调用call