import mysql.connector
conn=mysql.connector.connect(host='',user='',password='',port='',database='')
#远程连接
cursor=conn.cursor()
cursor.execute('select * from table')
#执行sql语句操作
t=cursor.fetchall()
#返回读取的所有行
df=pd.DataFrame(t,columns=[,])
#转为dataframe
#填充nan法1
udf.loc[np.isnan(df.C),'C']=-1
#dataframe.astype(int)---数据框修改列类型
df=df.fillna(-1)#---------------填充nan法2
cursor.close()#关闭sql连接
data=data.combine_first(df)#df填补data的缺失项
data=pd.merge(data,user_df,on='C')#data与df根据C列,合并,列增多。
https://www.cnblogs.com/bambipai/p/7668811.html
python pd合并数据:
1. pandas.merge和实例方法join实现的是列之间的连接,以DataFrame数据结构为例讲解,DataFrame1和DataFrame2必须要在至少一列上内容有重叠,index也好,columns也好,只要是有内容重叠的列即可,指定其中一列或几列作为连接的键,然后按照键,索引DataFrame2其他列上的的数据,添加DataFrame1中。通过设置merge参数'on','left_on','right_on'可以指定用来连接的列(即关键的重复内容列),也可以将index作为连接键,只要传入left_index=True或right_index=True(或两个都传)来说明索引被用作连接键。
2. 实例方法join默认通过index来进行连接。
join方法也可以通过列来连接,同样设置参数‘on’即可。
3. 上面介绍的函数实现的均是列之间的连接,要实现行之间的连接,要使用pd.concat方法。
concat默认在axis=0上工作(沿着负y轴的方向),当设置axis=1时(沿着x轴的方向),它同时也可以实现列之间的连接,产生一个DataFrame。
4. 最后一个实例方法combine_first,它在为数据“打补丁”:用参数对象中的数据为调用者对象的缺失数据“打补丁”。
简单总结来说,通过merge和join合并的数据后数据的列变多,通过concat合并后的数据行列都可以变多(axis=1),而combine_first可以用一个数据填充另一个数据的缺失数据。
recommend_list.py----建立海外用户的数据框,建立所有有性别有地址信息的用户的对列
from sql import city_df #跨模块直接使用sql.py中的变量,但是可能会造成重名。
user=df[(df['C1']>3)|(df['C2']>1)|(df['3']>2)]#多条件筛选
abroad_user=df[(df==-1).astype(int).sum(axis=1)<7]#筛选出df中存在项为-1的,且-1个数小于7个的行(按行进行)
df=df[~(df.C.isin(abroad_user))]#df减去df中列C存在于abroad_user中的行
#按行遍历df
for index_x in df.index:
if df.loc[index_x,'C']!=-1:
i=df[df['C']==data.loc[index_x,'C']].index#返回符合条件记录的index
df.loc[index_x,pro]=df.loc[i,'C_P'].values#返回此项的值,并赋值给其他df中的一项
#df中某一项的值必须用df[i,'C'].values显示
columns_key=('c','a')#dict的key必须是tuple(不可变),不能是list
c_values=(8,2)
columns={columns_key:columns_values}#建立dict
for k,v in columns.items():#遍历dict:dict.keys()或者dict.values()或者dict.items()
for i in range(7):
if user.values[0][v[i]]!=-1:#某一行user的列值.values[0],具体第几个值[num]
a=user.values[0][v[i]]
r=list(r[r[k[i]]==a].C.values)#r[k[i]]--根据列名查找
for rec in r:
r.append(rec)#将查找的值append进list
list_1=[]#list去重,并保留顺序
for i in r:
if i not in list_1:
list_1.append(i)
#去重,不保留顺序:
#list(set(list_1))
#或者
#import itertools
#list_1.sort()
#it = itertools.groupby(list_1)
#for k, g in it:
#print k
#dict追加键值对dict.setdefault(key,value)
dict={}
dict.setdefault(key,values)
main.py--输入d,输出推荐列表
from collections import deque#双头对列
import random#随机
class User(object):#定义calss
def __init__(self,id):
self.id=id
if self.id in dict.keys():#建立对列deque(list)
que=deque(dict.get(self.id))#dict中,根据key值返回对应values值
#对列长度len(deque)
que.extend(r[c])#在队列尾追加对列
random.sample(list,count)#在一个可迭代对象类型中中随机选择count个不重复的值
#class的__call__(self)方法,将方法变为属性,可以直接调用实例,就能运行方法。
def __call__(self):
que.popleft()#从队列左侧弹出
que.insert(index,object)
if __name__=='__main__':
id=input() #input输入为str
user=User(int(id))
user() #调用call