Pythonにおける2つのDataframeの一致件数の確認
Pythonを使って2つのDataframeの一致件数を確認したいと思っております。
20万件近いデータを比較しており、一致件数は10万以上あるはずが、
実際に一致した件数は20件未満とごく少数です。
実際の件数として合わない理由に関しておわかりになれば、ご指導お願いします。
df_a = pd.read_csv(file_before, header=None, usecols=[1, 2, 10, 11],
names=['A', 'B', 'C', 'D'],
dtype={'A': 'str', 'B': 'str', 'C': 'int', 'D': 'float'},
encoding='shift-jis')
df_b = pd.read_csv(file_after, header=None, usecols=[1, 2, 10, 11],
names=['A', 'B', 'C', 'D'],
dtype={'A': 'str', 'B': 'str', 'C': 'int', 'D': 'float'},
encoding='shift-jis')
for row2 in df_a.itertuples(name=None):
csvRow = []
for row1 in df_b.itertuples(name=None):
if (row2 == row1):
print(row1[0], row1[1], row1[2], row1[3], row1[4])
csvRow.append(row1[1])
csvRow.append(row1[2])
csvRow.append(row1[3])
csvRow.append(row1[4])
writer.writerow(csvRow)
csvRow.clear()
csvFile.close()