na stranice 12 razgovor o 3 indexah (template’ah). VFA, LFA i STA. Postroenie VFA na 2GHz CPU zanimaet 0.69 sec., LFA 0.01 sec. i STA 0.08 sec. na odno foto.
Na stranice 4 razmer VFA - 648 baitov na foto, LFA 5.2K na foto, STA 6.7K na foto.
Kogda index uje postroen:
Na stranice 12 skorost’ sravnenia indexov - po indexu VFA sravnivaetsia odno foto s 2 mln. foto v sekundu na 2GHz CPU.
Ot 95% do 99.5% foto opredeliaiutsia kak nedublikatnye na onovanii proverki po VFA.
T.e. lish’ ot 0.5% do 5% foto popadaiut na etap proverki po LFA. Skorost’ proverki po etomu indexu 2000 foto v sekundu na tom je processore.
Nebol’shoi procent RAZLICHNYH foto prohodit na tret’iu proverku (t.e. proverka po LFA dlia etogo procenta ne mojet skazat’, chto foto razlichaiutsia). Proverka po tret’emu indexu - LFA - idet so skorost’iu 200 foto v sekundu.
Takim obrazom, dalee dlia polnoi proverki nujno kajdoe iz ~200K foto sravnit’ s 20 mln. foto so skorost’iu 2 mln. v sekundu, eto
20000020000000/2000000 = 2 mln. sekund.
Zatem 5% etogo kolichestva so skorost’iu 2000 v sekundi
2000005% * 20000000 / 2000 = 100 mln. sekund
Zatem 5% ot etogo kolichestva so skorost’iu 200 v sekundu -
200000 * 5% * 5% * 20000000/200 = 50 mln.
Itogo 152 mln. sekund. Odni sutki - eto 86400 sekund. Poluchaetsia 1759 sutok na polnoe sravnenie (esli komputer odin). Zadacha neprostaia. Plius foto chlenov sem’i toje podvergaetsia sravneniu, poluchaetsia escio v neskol’ko raz bol’she.
Ochevidno, ispol’zuetsia sravnenie po date rojdenia (t.e. sravnenie kajdoi “vyigravshei” zaiavki proishodit ne s kajdoi iz 20000000 zaiavok, a lish’ s kajdoi zaiavkoi, gde osnovnoi vyigravshii rodilsia v tot je den’; poetomu ukazanie nevernoi daty rojdenia doljno vesti k avtomaticheskoi diskvalifikacii zaiavki). Ono pozvoliaet sokratit’ vremia poiska primerno v ~5000 raz (stol’ko est’ raznyh dat rojdenia dlia liudei, rodivshihsia v intervale 15 let). Takim obrazov vse proverki proidut za sutki na odnom komputere ili okolo togo.
Etot algoritm ispol’zovalsia v 2004-2005 godu. S teh por on byl usovershenstvovan i vmesto G6 ispol’zuetsia G8. Dobavlen odin index (HGM). On po vsem pokazateliam mejdu VFA i LFA. T.e. razmer template’a mejdu 648 baitov i 5.2K, skorost’ postroenia indeksia mejdu 0.69 sec. na foto i 0.1 sec. na foto, i skorost’ sravnenia po nemu mejdu 2000000 s sekundu i 2000 v sekundu.
Snachala vybiraiutsia okolo ~200K vyigravshih zaiavok, kajdaia iz nih proveriaetsia na sovpadenie s kajdoi iz 20 mln. zaiavok (no ne s kajdoi, a s temi, gde sovpadaet data rojdenia, eto primerno 2000-4000 zaiavok iz 20 mln).
Pochemu ia uveren chto sravnivaiutsia tol’ko vyigryshye zaiavki? Potomu chto eto sokrascaet poisk v 100 raz. Pri otsutstvii otricatel’nyh effektov.
Pochemu ia uveren chto ne s kajdoi iz 20 mln., a lish’ s tem, gde data rojdenia sovpadaet? Potomu chto:
1759 sutok - eto ochen’ mnogo, delaet zadachu slojnoi.
nam horosho izvestno, chto nesovpadenie v date rojdenia kak pravilo vyzyvaet diskvalifikaciu zaiavki na interview (t.e. esli vy v zaiavke s odnoi datoi rojdenia, a v svidetel’stve o rojdenii - s drugoi)
Ia ne dumaiu, chto FIO voobsce proveriaiut na dublikatnost’ - net osobennogo smysla. Ispol’zovanie takogo kliucha kak data rojdenia plius foto, uje delaet zadachu dostatochno prostoi. Hotia FIO mojet ispol’zovat’sia dlia togo chtoby ne diskvalificirovat’ odnoiaicevyh bliznecov - u nih doljna sovpadat’ data rojdenia (v bol’shinstve sluchaev) i byt’ pochti neotlichimym foto. No pri etom, kak pravilo, familia budet pohojei.
V vashem primere komputer opredelit, chto est’ 2 zaiavki, podannye predpolojitel’no na odnogo cheloveka. Eta real’naia zaiavka, kotoraia vyigrala, podaetsia konsulu dlia interview. Vmeste s nei prilagaetsia informacia, chto komputer vyiavil chrezvychainuiu pohojest’ etoi zaiavki na druguiu zaiavku. I polnye dannye etoi zaiavki takje budut u konsula na stole. Vo vremia interview on posmotrit na vas, posmotrit na obe zaiavki, posmotrit na vse 3 daty rojdenia (2 - v zaiavkah, i odna - v vashem svidetel’stve o rojdenii) i reshit odin eto chelovek vo vseh trah mestah ili net. Esli on reshit, chto odin - dublikatnye zaiavki budut diskvalificirovany. Esli on reshit, chto na foto izobrajeny raznye liudi, to dikkvalifikacii ne budet.
Gde vy eto chitali?
Dokumenty govoriat chto privedennye algoritmy odinakovo horosho rabotaiut dlia vseh ras i polov. V etih usloviah ia schitaiu, chto nel’zia ogranichivat’ proverku tem je regionom i polom. Poskol’ku odin chelovek smojet podat’ zaiavku ot raznyh regionov i polov. I izbejat’ proverki na dublikatnost’. Radi chego? Razdi sokrascenie dlitel’nosti progona s 1 sutok do 6 chasov?! Poetomu ia ne veriu chto v algoritme taka bresh’.
Naschet daty rojdenia - eto moe lichnoe mnenie. esli by ia proektiroval etu sistemu, ia by pervym delom ispol’zoval proverku po date rojdenia. Bez nee tehnicheski zadacha stanovitsia trudnovypolnimoi. Osobenno v epoju kogda ne bylo fotografii (oni poiavilis’ ne srazu). Ia prodemonstriroval chto esli ne uchityvat’ datu rojdenia, nujno ~5000 komputero-dnei, a s uchetom etoi proverki - lish’ sutki (na etap avtomaticheskogo otlova dublikatov). Eto ochen’ suscestvennaia raznica.
Krome togo, v dokumentah ukazyvaetsia, chto maleishee nesovpadenie v date rojdenia mojet nakzyvat’sia diskvalifikaciei. Vam citatku privesti, ili takuiu vy i sami znaete?
А если он решает, что человек один и тот же, но я точно знаю, что подала одну заявку я (свою выигрышную), а вторую кто-то (например, фирма-посредник) и в этой второй какие-то данные недостоверные (потому что посредник мог не знать все мои правдивые данные), а никак ему не могу доказать, что я не виновна в этой дубликатности?
Nam izvestno neskol’ko sluchaev kogda oshibka v date rojdenia ne privodila k diskvalifikacii. Kak eto ob’iasnit’ esli data rojdenia tak vajna?
Mojet byt’, konsul raspolagaet vozmojnost’iu v nebol’shom chisle sluchaev pereprovodit’ proverku v KCC po inoi date rojdenia. Odnako, v takih sluchaiah na interview mojet trebovat’sia serioznoe obosnovanie pochemu v date oshibka (naprimer, on ispol’zoval v zaiavke datu iz zagranpasporta vmesto daty iz svidetel’stva o rojdenii; ili u nego est’ dva raznyh originala svidetel’stva o rojdenii, s raznymi datami, i oba vypisany vskorosti posle ego rojdenia). Esli konsul udovletvoren podobnym ob’iasneniem, i KCC podtverjdaet chto na vtoruiu datu rojdenia dublikatov toje net, mojet byt’, zaiavku ne dsikvalificiruiut.
Konsulu vajno znat’, znali vy o dublikatnosti zaiavki ili net. Na forme DSP-122 vy podpisyvaete, chto schitaete zaiavku nedublikatnoi.
Esli v hode interview vyiasnitsia, chto vy znali o dublikatnosti zaiavki, no vse ravno podpisali formu DSP-122, vam stavitsia pojiznennyi zapret na liubye vizy v USA - za obman na forme DSP-122.
Esli je u konsula ne budet dokazatel’stva togo, chto vy znali o dublikatah, ili budet polnaia uverennost’ v tom, chto o dublikate vy ne znali, to pojiznennogo zapreta u vas ne budet. V etom sluchae diskvalificiruetsia lish’ eta vyigryshnaia zaiavka - za samu dublikatnost’ (a ne za popytku obmana)
Выходит, им важна только дата рождения. Значит другие данные не интересуют. Если я в своей заявке напишу, что я замужем, у меня 2 детей, а посредник напишет, что я замужем и у меня 1 ребенок. Но наши даты рождения совпадут, значит у нас дубликат и у меня дисквалификация. А то, что там дети написаны по-разному, уже никого не волнует?((
Читал я это в статье о лотерее. Кажется это было интервью человека, имеющего отношение к лотерее.
Заявка не от того региона ведёт к дисквалификации, поэтому нет никакого смысла сравнивать фотографию победителя из европы со всеми заявками из африки для исключения дубликатности. Учёт гендера несколько более натянут, потому что, выходит, нельзя менять пол в процессе
Что касается даты рождения. Согласен, её можно использовать как фильтр, но о том, что её так используют, я не читал. Видимо, госдеп понимает, что ошибки в дате рождения бывают невынужденные.
Poluchaetsia 1759 sutok na polnoe sravnenie (esli komputer odin)
Берём 100 ядер и получаем 18 дней на всю базу, что, при необходимости, позволяет прогнать проверку несколько раз.
Кроме того, можно прогонять наибыстрейшую проверку, а более углублённые (и сложные) проверки оставить до момента назначения интервью (чем они там 3-4 месяца от получения заявки до назначения интервью занимаются). Это позволит “размазать” вычисления на 2 года.
Спасибо.
Очень обидно будет, если на интервью узнаешь о дубликатности заявки, потому, что за тебя еще и посредник подал. А ты страдаешь в любом случае! Нечестно!
Надеюсь, такого не случится (т-т-т), но интересно было узнать, или возможен вариант выпутаться из этой подставы. Видимо нету((
Pomimo proverki na dublikatnost’ provoditsia proverka i na sostav sem’i i fiktivnost’ otnoshenii. Naprimer, esli na cheloveka podano bolee odnoi zaiavi, v kotoryh etot chelovek vystupaet kak suprus glavnogo zaiavitelia, to komputer vyiavit podobnuiu neuviazochku i konsulu na stol budut podany dannye ob etom. Ili esli rebenok iavliaetsia rebenkom 10 raznyh glavnyh zaiavitelei. Tochno tak je proverka idet po foto i na ostal’nyh chlenov sem’i, s uchetom daty rojdenia.
Tak chto esli v odnoi zaiavke u vas odni deti, a v drugoi - drugie, to vas budut podozrevat’ vo “vslyvaiuscih” detiah i suprugah. Delo popadet k konsulu, ot nego vo fraud prevention unit. Vy podvergnites’ na interview doprosu s prostrastiem, vozmojno, u vas budet bolee chem odno interview. Esli fraud prevention unit ne budet uveren, chto s vami ne proizishlo nikakogo moshennichestva (neukazanie nastoiascih detei, nastoiascih suprugom, ukazanie fiktivnyh detei ili fiktivnyh suprugov), to vam otkajut v vize i mogut postavit’ pojiznennyi zapret na vizy
Vy mojete imet’ pravo podavat’ ot raznyh regionov (vash region, region supruga, a takje regiony dvuh roditelei). Edinstvennoe chto vy ne mojete - podat’ ot sebia 2 zaiavki. Tol’ko odnu, no ot liubogo iz 4 regionov. Poetomu est’ polnyi smysl proveriat’ cheloveka, podavshego zaiavku ot Evropy, so vsemi zaiavkami iz Afriki dlia iskliuchenia sluchaev dublikatnosti. Ne prosto polnyi smysl, a neobhodimost’. Inache by okazalos’, chto mnogie liudi bez riska byt’ poimannymi mogli by podat’ ot sebia po 4 zaiavki na kajdogo. Plius 2 regiona na roditelei supruga - poluchaetsia voobsce vse 6 regionov.
Krome togo, nalichie stat’i o loteree nichego ne dokazyvaet - eto chastnoe mnenie avtora stat’i (kotoryi oshibaetsia).
Pol v processe meniat’ tochno tak je mojno, kak i supruga, i detei. Krome togo, ia dumaiu, chto ego voobsce rano ili pozdno iskliuchat iz formy - on byl nujen dlia predotvrascenia odnopolyh brakov, a teper’ vuyiasnilos’, chto oni byli razresheny. Krome togo, iskliuchenie pola pozvoliaet sokratit’ proverku lish’ v 2 raza, a pri etom poiavliaetsia vozmojnost’ oboiti proverku na dublikatnost’.
Zato ia chital, chto ee tak ispol’zuiut. Kak i inye biograficheskie dannye. Ssylku privesti?
Берём 100 ядер и получаем 18 дней на всю базу, что, при необходимости, позволяет прогнать проверку несколько раз.
Кроме того, можно прогонять наибыстрейшую проверку, а более углублённые (и сложные) проверки оставить до момента назначения интервью (чем они там 3-4 месяца от получения заявки до назначения интервью занимаются). Это позволит “размазать” вычисления на 2 года.
Naskol’ko ia ponial, vy nazyvaete komputer iadrom.
Zakupit’ lishnie 99 komputerov i naniat’ obslujivaiuscii personal dlia nih (a on trebuetsia) - eto nedeshevo. A radi chego?! Gosdepu dostatochno prosto otsekat’ VSE oshibki v date rojdenia, kak togo trebuet instrukcia dlia konsula. Ia soglasen, chto est’ i spornye sluchai (naprimer, u vas dva originala svidetel’stva, vydannyh pri rojdenii, i zaiavku vy podavali na osnovanii odnogo iz nih, a u konsula est’ dannye pro drugoe; ili vy zapolnili datu rojdenia po zagranpasportu, a v svidetel’stve inaia data), v kotoryh konsul mojet ne diskvalificirovat’ zaiavku posle dopolnitel’nyh proverok (s KCC).
Ssylka na razmazyvanie takje lishena smysla - a radi chego? Pravilami predusmotrena diskvalifikacia za maleishuiu oshibku v date rojdenia. Takova je instrukcia dlia konsula. Chto escio nado?? Zachem tratit’ massu deneg na lovliu bloh?
Naskol’ko ia ponial, vy nazyvaete komputer iadrom.
Вы привели время рассчёта для 2Gz CPU, что для меня выглядит как вычисления в одни поток. Поскольку процессоры бывают многоядерные и многопотоковые, а компьютеры многопроцессорные, то я делаю вывод, что не надо покупать 99 компьютеров. Достаточно 3-4, каждый из которых имеет 32 потока вычислений. Цена вопроса примерно 20 тысяч за всё. Кроме того, вообще не нужны dedicated servers, которые будут простаивать 11 месяцев из 12. Достаточно запустить программу на том оборудовании, которое в госдепе и так есть. Я уж не говорю о производительности, которая с 2006 года несколько подросла.
Ia ponial chto vy nazyvaete iadrom. Core. Ia rabotal na komputerah s 4 core (sobstvenno, i rabotaiu na nih). Vo-pervyh, chtoby ispol’zovat’ vozmojnosti mnogoprocessornosti, nujno pisat’ programmy neskol’ko inache. Developer, pishuscii thread-safe, stoit doroje, chto developer, ne pishuscii thread safe.
Vo-vtoryh, real’no 4-processornyi komputer redko uvelichivaet bystrodeistvie v 4 raza. Chasce v 2-3, a inogda i nichego ne uvelichivaet voobsce (mnogie inye resursy sistemu obscie, RAM, hard drive i t.p.) Krome togo, komputery s 32 cores dorogi.
Kak ni krutite, daje esli eto $20K, vse ravno gosdep ne stanet ih tratit’ kogda net nikakoi neobhodimosti eto delat’. Pravila loterei chetko i odnoznachno govoriat o diskvalifikacii za nevernuiu datu rojdenia. V takoi situacii $20K trati’ smysla net. Hotia ia uveren, chto real’naia stoimost’ (t.e. ekonomia) na poriadok bol’she.
Krome togo, ne zabud’te pro epohu do foto. Togda v principe nel’zia bylo ne ispol’zoivat’ datu rojdenia, ona obiazana byla ispol’zovat’sia. Dumaete, kogda vveli foto, kakoi-to nenormal’nyi reshil otmenit’ fil’traciu po date? A kak on eto obosnoval?
Ia gotov poverit’, chto technicheskim prostofiliam tipa Kirita Amina mogla ne priiti v golovu ideia ispol’zovat’ datu, no chto moglo zastavit’ ih otkazat’sia ot fil’tracii po date, kotoraia UJE suscestvovala?!
Мне кажется вы преувеличиваете важность технической (hardware) стороны.
Я знаю, что крупные федеральные учреждения располагают практически неограниченными возможностями в плане оборудования.
Например очень часто в такого рода организациях установлено оборудование DELL (хотя кажется для секретных целей используется HP).
Рабочие станции DELL – это стандартно может быть 12 Cores и 64/128GB RAM. Это рядовое оборудование. То есть это то, на чем работают разработчики и DB администраторы.
Следовательно поднять парочку серверов с такими характеристиками, потому что – индекс на 1 млн документов будет строиться в 2-4 раза быстрее – это вообще не проблема. Они могут легко масштабировать это дело до 128 серверов или 256.
До фото - это в самом начале лотереи (когда ещё была бумажная подача и подписи)? А разве тогда была нормальная фильтрация? Как же эти байки про то, что люди тогда заполняли сотнями анкеты и выигрывали? Или на то они и байки?
Мне кажется вы преувеличиваете важность технической (hardware) стороны.
Я знаю, что крупные федеральные учреждения располагают практически неограниченными возможностями в плане оборудования.
Например очень часто в такого рода организациях установлено оборудование DELL (хотя кажется для секретных целей используется HP).
Рабочие станции DELL – это стандартно может быть 12 Cores и 64/128GB RAM. Это рядовое оборудование. То есть это то, на чем работают разработчики и DB администраторы.
Следовательно поднять парочку серверов с такими характеристиками, потому что – индекс на 1 млн документов будет строиться в 2-4 раза быстрее – это вообще не проблема. Они могут легко масштабировать это дело до 128 серверов или 256.
Nikto ne stanet tratit’ den’gi vpustuiu. Vprochem, Egora Emel’ianova pomnite? On vyigral v DV-12. On rabotaet v pravitel’stvennom agenstve (hotia i ne gosdep). Seichas sproshu kakoi u nego komputer. Sil’no udivlius’ esli moscnee moego (ia rabotaiu na firme, 8 GB RAM, 3.4GHz CPU, 4 cores)