Для автоматического поиска дубликатов необходимо его настроить.
Процедура настройки состоит из двух этапов: указания групп полей, которые
должны быть уникальны и правил анализа семантики полей (Завернул J).
Первый этап не
должен вызывать затруднений: вы просто указываете несколько полей, которые вместе характеризуют уникальный контакт.
Таких групп может быть несколько.
Второе – несколько
сложнее. Суть настройки в том, чтобы объяснить Оки-Токи как сравнивать
одинаковые слова, даже если они написаны с описками или на разных языках.
Фактически, они нужны чтобы указать как выделять «значимый корень» из поля.
Вот четыре набора правил, подходящие для выделения «семантического корня»
поля. Вы можете использовать одно из них.
Значение
|
Значение не преобразуется, сравнивается по точному совпадению.
|
Имя
|
Обрезаются знаки пунктуации, а так же "ь" и "ъ";
все гласные считаются одинаковыми, повторяющиеся символы заменяются одним
|
Телефон
|
Значения через запятую сравниваются как отдельные; пробелы перед и
после запятой обрезаются.
|
компания
|
Обрезаются знаки пунктуации, а так же "ь" и "ъ";
все гласные считаются одинаковыми; удаляются стоп-слова (ТОВ, ООО, ЗАО, ВАТ,
ПП, ЧП).
|
Пример 1. Олександр и Александр или Дмитро
и Дмитрий – очевидно, что набор согласных в приведенных парах – одинаковый; это
и будет «сематическое ядро». Используйте набор «Имя».
Пример 2. Для выделения ядра некоторых
полей нужно убрать так называемые «стоп-слова», например - формы собственности
АО, ООО, ТОВ, ЧП. ООО «Блаблабла» и ТОВ «Блаблабла». Используйте набор «Компания».
Пример 3. Чтобы сравнивать строки из
списков значений их нужно разбить на отдельные значения. Это нужно для контроля
телефонов и e-mail адресов. Используйте набор «Телефон».
Пример 4. Номер заказа, паспорта, ИНН или
ОКПО. Используйте набор «Значение».
Вот и все пока про дубликаты.
Важно:
Поиск дубликатов задумывался как «не деструктивный», т.е. не меняющий данные.
Ваши действия обратимы и на данные непосредственно не влияют.
Комментариев нет:
Отправить комментарий