anspa

В прикладной базе данных (mysql 5.0, myisam) есть некоторый класс больших таблиц, всего их к примеру 30 штук. Новые данные в эти таблицы загружаются почти каждый день. Записи сами по себе короткие, скажем до 50 байт. Количество записей в каждой из таблиц остается примерно одинаковым - от 1 миллиона до 20 миллионов (на самом деле число записей постепенно растет, скажем на 5-10% с каждой загрузкой новых данных, т.е. не очень существенно, а может и вообще не расти). Ежедневно новые данные поступают примерно в том же объеме что и количество старых записей, т.е. если в таблице А был 1 миллион то загружаем еще 1 миллион каждый день. Но затем нужно удалить все дубликаты записей по некоему составному ключу, т.е. 90% старых записей "перетерлись" новыми, в таблице должны остаться 10% старых записей плюс новые записи.
( реад море )
Вопрос конечно же - можно ли сделать этот процесс оптимальнее и как (не забываем что хотелось бы обрабатывать таблиц по 5 одновременно и не слишком перегружать сервер базы данных).

Посмотрел вариант с созданием временной таблицы.. Гнусно как-то.

S	M	T	W	T	F	S
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

May. 16th, 2008

May. 16th, 2008

на полях

датаваровед

Profile

December 2016

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags