Новая функциональность Polygon: тестирование чекеров и валидаторов

№	Пользователь	Рейтинг
1	tourist	3880
2	jiangly	3669
3	ecnerwala	3654
4	Benq	3627
5	orzdevinwang	3612
6	Geothermal	3569
6	cnnfls_csy	3569
8	jqdai0815	3532
9	Radewoosh	3522
10	gyh20	3447

№	Пользователь	Вклад
1	awoo	161
2	maomao90	160
3	adamant	156
4	maroonrk	153
5	-is-this-fft-	148
5	atcoder_official	148
5	SecondThread	148
8	Petr	147
9	nor	144
9	TheScrasse	144

Добрый день, Codeforces!

Сегодня я расскажу вам о новой функции системы Polygon, в которой готовятся все задачи для раундов Codeforces. Конечно, система открыта для любых пользователей — в ней подготавливается большое количество контестов для других соревнований или сборов.

Двумя ключевыми элементами задачи, помимо авторского решения, тестов и условия, являются две программы: валидатор и чекер.

Валидатор (англ. Validator) — это программа, которая считывает тест и сообщает, соответствует ли он условию задачи или нет. Валидаторы необходимо писать абсолютно формально — валидатор пропускает тест тогда и только тогда, когда он соответствует условию задачи и может быть спокойно добавлен в набор тестов. Валидаторы удобно писать с помощью библиотеки testlib.h. Иногда авторы пренебрегают валидаторами (на соревнованиях Codeforces такого не случается), что ставит под угрозу корректность тестов. Так как в соревнованиях Codeforces присутствуют взломы, важность правильности валидатора значительно возрастает. Естественно, все взломы перед тем, как попасть к решению участника, проходят валидацию. В большинстве задач валидаторы относительно простые, но когда в задаче появляются дополнительные условия (например, что решение для теста существует), то сложность валидатора значительно возрастает.

Чекер (англ. Checker) — это программа, которая на вход получает тест, вывод программы участника и вывод программы жюри и определяет правильность вывода участника. К сожалению, ошибки в чекерах часто приводят к тяжелым последствиям. Далеко не во всех задачах можно просто сравнить ответы на равенство. Например, в задаче 234H - Слияние двух колод в чекере используется декартово дерево. Если по условию задачи требуется сертификат, то чекер лучше всего писать в концепции readAnswer(ans)/readAnswer(ouf). Это концепция и многое другое по теме разработки чекеров описано в древнем посте Чекеры, testlib.h и просто по теме. Чекеры удобно писать с помощью библиотеки testlib.h.

Тестирование этих программ обычно происходит либо вручную из командной строки, либо косвенно — добавлением неправильных решений и временным добавлением невалидных тестов. На практике авторы часто пренебрегают внимательным тестированием валидаторов и чекеров. В самом деле такая методика тестирования неудобна, а тесты не сохраняются. При совместной работе соавтор не сможет просмотреть тесты, на которых тестировались валидатор/чекер, или перезапустить их после внесения исправлений в валидатор или чекер.

В обновленной версии Polygon всё стало значительно лучще! Мы сделали удобные средства для тестирования валидатора и чекера.

Тесты для валидатора тестов

Такое средство теперь доступно в системе Polygon. Тесты отображаются на странице Validator. Вы легко можете добавить за раз много тестов, разделяя их специальным маркером. Для каждого добавленного теста укажите ожидаемый вердикт валидатора (valid или invalid). Там же можно запустить эти тесты на проверку. Тесты валидатора являются полноценной частью задачи и попадают в пакет задачи. По этой причине обновлен формат problem.xml, вот пример расширенного описания валидатора (элементы binary и testset — опциональны):

<validator>
    <source path="files/v.cpp" type="cpp.g++"/>
    <binary path="files/v.exe" type="exe.win32"/>
    <testset>
        <test-count>2</test-count>
        <input-path-pattern>validator-tests/%02d</input-path-pattern>
        <tests>
            <test verdict="valid"/>
            <test verdict="invalid"/>
        </tests>
    </testset>
</validator>

Если у валидатора нет тестов, то вы получите традиционное полигонное предупреждение.

Тесты для чекера

Здесь всё аналогично. Такие тесты создавать чуть сложнее, так как необходимо ввести не только input, но и output (вроде как вывод участника) и answer (вроде как ответ, вывод авторского решения). Для стандартных чекеров тесты создавать не нужно. Вот пример обновленного описания чекера из problem.xml (элементы binary, copy, testset — опциональны):

<checker name="std::wcmp.cpp" type="testlib">
    <source path="files/check.cpp" type="cpp.g++"/>
    <binary path="check.exe" type="exe.win32"/>
    <copy path="check.cpp" type="cpp.g++"/>
    <testset>
        <test-count>4</test-count>
        <input-path-pattern>checker-tests/%02d</input-path-pattern>
        <output-path-pattern>checker-tests/%02d.o</output-path-pattern>
        <answer-path-pattern>checker-tests/%02d.a</answer-path-pattern>
        <tests>
            <test verdict="ok"/>
            <test verdict="wrong-answer"/>
            <test verdict="wrong-answer"/>
            <test verdict="presentation-error"/>
        </tests>
    </testset>
</checker>

Если у нестандартного чекера нет тестов, то вы получите традиционное полигонное предупреждение.

Напоследок

Как вы видите, все изменения problem.xml обратно совместимы. Проверка тестов встроена в скрипты развертывания задачи doall.bat/doall.sh. При импорте задачи вы вручную или автоматизировано можете проверить прохождение тестов, так как они формально описаны в problem.xml и содержатся в пакете задачи.

Я уверен, что наличие такого инструмента позволит облегчить жизнь авторов задач и уменьшит вероятность ошибок.

С уважением, Иван.

Комментарии (22)

Показать архивные | Написать комментарий?

Prestige

11 лет назад, # |

+14

После твоего появления в штабе улучшения системы участились!)

→ Ответить

Zlobober

+58

Респект! А теперь...

А вообще фича очень полезная, я когда локально делаю валидаторы/чекеры всегда в том или ином виде их тестирую, почему бы этому не придать приличный вид.

IlyaCk

Спасибо! Возможности, безусловно, полезные.

Но всё же: правильно ли я понял, что в рамках данного исправления вы всё же игнорили вот эту проблему (с оценивающими чекерами)? Если не игнорили — как её теперь правильно решать?

И ещё — как насчёт хоть какой-то централизованности информации и мест для вопросов о Полигоне? В данной теме (блоге) даже тэга "polygon" нету...

Fefer_Ivan

11 лет назад, # ^ |

Тег добавил. Спасибо. Этот обновление только добавило тесты для валидатора и чекера. По поводу поддержки testlib.h задач с оценивающими чекерами у меня информации нет.

PavelKunyavskiy

Эта проблема решена в testlib 0.9.0. Еще заодно в 0.8.8 кажется можно переопределять exit_code, мне это тоже вроде было нужно, для оценивающих чекеров.

yeputons

← Rev. 3 →

Кстати, для оценивающих чекеров можно попробовать использовать _quitf(_pc(X), "comment %d", X или quitp(0.239017, "message %.2lf", 0.239017);. Первый завершает программу с кодом PC_BASE_EXIT_CODE + X, где PC_BASE_EXIT_CODE=0 (можно поменять, например, при -DTESTSYS это поменяется на 50), второй выводит printf("%.10f %s", score, message) и выходит с POINTS_EXIT_CODE=7.

UPD: мне тут сказали, что это не работает в eJudge.

xa.mohsen

-19

Great Work :)

ahmed_aly

+12

I have something to say about Polygon.

In 2011 I was a judge and problem setter in the ACM ICPC Arab regional contest, and we didn't use any specific system to prepare the problems, and it was really painful.

In 2012 I was the chief judge, and we used Polygon, which made our life much easier with more features and safety checks, and I want to thank everyone who worked in this amazing system.

In 2013 I'll be the chief judge again, and definitely I'll use Polygon.

And I have a suggestion also, since Polygon is being used to prepare huge contests, I think some people (like me) might be worried about some security issues, so I think it will be good idea if you can use secure browsing (https).

I_love_natalia

← Rev. 4 →

-16

What if I say you that polygon has much worse security issues rather than http instead of https?

I think it's not good idea to say what are these issues in public, but I think you should report these issues to someone (if you didn't do already).

MikeMirzayanov

Please write me private message with the details.

← Rev. 2 →

-13

Если хотите сделать что-нибудь полезное, есть три пункта:

Блокировки на уровне svn, чтобы невозможно было создать коллизию правок.
Возможность создать файл с заданным именем на сервере.
Возможность переименовать решения на java.

dalex

\3. ~~Сначала меняем имя класса в исходнике, потом переименовываем файл.~~ видимо наоборот, сначала переименовать файл, потом поменять имя класса в исходнике.

А, в таком порядке и правда сейчас работает, с большой красной надписью "все плохо".

elena

Раз уж пошли "пожелания общего характера"... То еще три пункта:

Сейчас, чтобы собрать пакет под Linux (или Windows), приходится собирать full package. Возможно, имеет смысл сделать возможность раздельной сборки?
Иногда было бы удобно видеть в "сводной таблице" в invocations не только время на каждом тесте, но и память (сейчас нужно просматривать "страницу" каждого теста отдельно).
(_из разряда ненаучной фантастики, видимо_) Компиляция условий задач по отдельности и компиляция условий в пакете отличаются даже при использовании "стандартного" olymp.sty (например, символ решетки отображается в отдельных задачах, но при компиляции пакета — увы; проблемы возникают при работе с таблицами и т.п.). Конечно, когда стилевой файл исправляется вручную, ожидать компиляции условий отдельных задач не приходится. Но в исправлениях в .sty необходимость всё же возникает редко, а "по умолчанию" хотелось бы одинакового поведения.

NALP

3th. Замечу, что компиляция условий в html и в pdf делается принципиально разными способами, отсюда все подобные вопросы. Пофиксить это в целом пока нереально.

2th. зачем?

Ну например, если я хочу провести олимпиаду именно на джава и чтобы участникам через рефлексию был доступен какой-нибудь класс.

В разделе "Files" в таблице "Resource Files" это разве не оно?

Sammarize

С нетерпением жду возможности добавить валидатор для тестов для валидатора тестов.

Jacob

7 лет назад, # |

+30

For a newly created problem it appears that validator tests require the checker to run. To me it seems quite strange, because the validator supposedly only runs on the test inputs.

7 лет назад, # ^ |

Thanks, I added an issue: https://github.com/Codeforces/polygon-issue-tracking/issues/157 Will be resolved soon.

Блог пользователя Fefer_Ivan

Тесты для валидатора тестов

Тесты для чекера

Напоследок