import mysql.connector

conn=mysql.connector.connect(host='',user='',password='',port='',database='')
#远程连接
cursor=conn.cursor() 
cursor.execute('select * from table')
#执行sql语句操作
t=cursor.fetchall()
#返回读取的所有行
df=pd.DataFrame(t,columns=[,])
#转为dataframe
#填充nan法1
udf.loc[np.isnan(df.C),'C']=-1

#dataframe.astype(int)---数据框修改列类型
df=df.fillna(-1)#---------------填充nan法2

cursor.close()#关闭sql连接

 

data=data.combine_first(df)#df填补data的缺失项

data=pd.merge(data,user_df,on='C')#data与df根据C列,合并,列增多。

https://www.cnblogs.com/bambipai/p/7668811.html

python pd合并数据:

1. pandas.merge和实例方法join实现的是列之间的连接,以DataFrame数据结构为例讲解,DataFrame1和DataFrame2必须要在至少一列上内容有重叠,index也好,columns也好,只要是有内容重叠的列即可,指定其中一列或几列作为连接的键,然后按照键,索引DataFrame2其他列上的的数据,添加DataFrame1中。通过设置merge参数'on','left_on','right_on'可以指定用来连接的列(即关键的重复内容列),也可以将index作为连接键,只要传入left_index=True或right_index=True(或两个都传)来说明索引被用作连接键。

2. 实例方法join默认通过index来进行连接。

join方法也可以通过列来连接,同样设置参数‘on’即可。

3. 上面介绍的函数实现的均是列之间的连接,要实现行之间的连接,要使用pd.concat方法。

concat默认在axis=0上工作(沿着负y轴的方向),当设置axis=1时(沿着x轴的方向),它同时也可以实现列之间的连接,产生一个DataFrame。

4. 最后一个实例方法combine_first,它在为数据“打补丁”:用参数对象中的数据为调用者对象的缺失数据“打补丁”。

简单总结来说,通过merge和join合并的数据后数据的列变多,通过concat合并后的数据行列都可以变多(axis=1),而combine_first可以用一个数据填充另一个数据的缺失数据。

recommend_list.py----建立海外用户的数据框,建立所有有性别有地址信息的用户的对列

from sql import city_df #跨模块直接使用sql.py中的变量,但是可能会造成重名。

user=df[(df['C1']>3)|(df['C2']>1)|(df['3']>2)]#多条件筛选

abroad_user=df[(df==-1).astype(int).sum(axis=1)<7]#筛选出df中存在项为-1的,且-1个数小于7个的行(按行进行)

df=df[~(df.C.isin(abroad_user))]#df减去df中列C存在于abroad_user中的行

#按行遍历df
for index_x in df.index:
    if df.loc[index_x,'C']!=-1: 
        i=df[df['C']==data.loc[index_x,'C']].index#返回符合条件记录的index
        df.loc[index_x,pro]=df.loc[i,'C_P'].values#返回此项的值,并赋值给其他df中的一项

#df中某一项的值必须用df[i,'C'].values显示


columns_key=('c','a')#dict的key必须是tuple(不可变),不能是list
c_values=(8,2)
columns={columns_key:columns_values}#建立dict
for k,v in columns.items():#遍历dict:dict.keys()或者dict.values()或者dict.items()
   for i in range(7):
       if user.values[0][v[i]]!=-1:#某一行user的列值.values[0],具体第几个值[num]
             a=user.values[0][v[i]]
             r=list(r[r[k[i]]==a].C.values)#r[k[i]]--根据列名查找
             for rec in r:
                 r.append(rec)#将查找的值append进list

           
    list_1=[]#list去重,并保留顺序
    for i in r:
        if i not in list_1:
            list_1.append(i)
    #去重,不保留顺序:
        #list(set(list_1))
        #或者
        #import itertools
        #list_1.sort()
        #it = itertools.groupby(list_1)
        #for k, g in it:
        #print k

#dict追加键值对dict.setdefault(key,value)
dict={}
dict.setdefault(key,values)

main.py--输入d,输出推荐列表

from collections import deque#双头对列
import random#随机


class User(object):#定义calss
    def __init__(self,id):
       self.id=id      
       if self.id in dict.keys():#建立对列deque(list)
           que=deque(dict.get(self.id))#dict中,根据key值返回对应values值   
           #对列长度len(deque)
           que.extend(r[c])#在队列尾追加对列
           random.sample(list,count)#在一个可迭代对象类型中中随机选择count个不重复的值


#class的__call__(self)方法,将方法变为属性,可以直接调用实例,就能运行方法。                               
    def __call__(self):
        que.popleft()#从队列左侧弹出
        que.insert(index,object)
           
if __name__=='__main__':
    id=input()   #input输入为str     
    user=User(int(id))      
    user() #调用call