(Untitled)

Apr 25, 2019 09:14


А я теперь EY работаю.

По этому поводу решил померить - в какой формат Pandas быстрее пишет\читает датафреймы.
На 100000 записей cо строками, числами и датами, сжатие отключено

```
format | time write | time read | size
csv | 4.112719535827637 | 1.0176215171813965 | 51.43MB
json | 0.7032690048217773 | 3.6434662342071533 | 68.03MB
avro | 14. ( Read more... )

Leave a comment

Comments 3

yurri April 25 2019, 09:08:27 UTC
Всё вполне ожидаемо, кроме, пожалуй, такой долгой записи в CSV по сравнению с JSON. Объяснение наверняка простое, но констатирую, что с ходу в голову оно не приходит.

Reply

metaclass April 25 2019, 10:07:33 UTC
Я бы предположил что пишут без буферизации или буферизируют методом конкатенации строк :)

Reply

yurri April 25 2019, 18:47:33 UTC
Тогда бы в JSON записи это тоже проявлялось бы.

Кстати, интересно ещё сравнить, если разница в скорости JSON вида [{...},{...}] и {...}\n{...} (pandas умеет в оба).

Reply


Leave a comment

Up